Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados
DOI:
https://doi.org/10.5540/tema.2017.018.01.0155Keywords:
Classificação, Conjunto de dados desbalanceados, Aprendizado de MáquinaAbstract
Galáxias podem possuir diferentes morfologias, uma importante fonte de informaçãopara o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Como não é possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e mergers. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias {\it mergers}, as melhores predições foram provenientes das abordagens de superamostragem e mudança de corte. Para o caso de galáxias regulares, levar o desbalanceamento em consideração não foi tão importante, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de mergers.
Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas através da inclusão de novas estatísticas resumo com base nas imagens, ou através de banco de dados maiores.
References
Conselice, Christopher J.: The relationship between stellar light distributi-
ons of galaxies and their formation histories. In: The Astrophysical Journal
Supplement Series 147 (2003), Nr. 1, S. 1
Efron, B.: The jackknife, the bootstrap and other resampling plans. Bd. 38.
SIAM, 1982
Freeman, PE ; Izbicki, R ; Lee, AB ; Newman, JA ; Conselice, CJ ;
Koekemoer, AM ; Lotz, JM ; Mozena, M: New image statistics for detecting
disturbed galaxy morphologies at high redshift. In: Monthly Notices of the
Royal Astronomical Society 434 (2013), S. 282–295
Friedman, Jerome ; Hastie, Trevor ; Tibshirani, Robert: The elements of
statistical learning. Bd. 1. Springer series in statistics Springer, Berlin, 2001
Gil, Vanessa O. ; Ferrari, Fabricio ; Emmendorfer, Leonardo: Investigação
da aplicação de algoritmos de agrupamento para o problema astrofísico de
classificação de galáxias. In: Revista Brasileira de Computação Aplicada 7
(2015), Nr. 2, S. 52–61
Izbicki, R. ; Stern, R. B.: Learning with many experts: model selection and
sparsity. In: Statistical Analysis and Data Mining 6 (2013), Nr. 6, S. 565–577
James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert:
An introduction to statistical learning. Springer, 2013
Koekemoer, Anton M. ; Faber, SM ; Ferguson, Henry C. ; Grogin, Nor-
man A. ; Kocevski, Dale D. ; Koo, David C. ; Lai, Kamson ; Lotz, Jen-
nifer M. ; Lucas, Ray A. ; McGrath, Elizabeth J. u. a.: CANDELS: The
Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey – The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. In: The Astrophysical Journal Supplement Series 197 (2011), Nr. 2, S. 36
Kotsiantis, S. ; Kanellopoulos, D. ; Pintelas, P.: Handling imbalan-
ced datasets: A review. In: GESTS International Transactions on Computer
Science and Engineering 30 (2006), Nr. 1, S. 25–36
Lotz, Jennifer M. ; Primack, Joel ; Madau, Piero: A new nonparametric
approach to galaxy morphological classification. In: The Astronomical Journal
(2004), Nr. 1, S. 163
R Core Team: R: A Language and Environment for Statistical Com-
puting. Vienna, Austria: R Foundation for Statistical Computing, 2016.
Sun, Y. ; Wong, A. K. C. ; Kamel, M. S.: Classification of imbalanced
data: A review. In: International Journal of Pattern Recognition and Artificial
Intelligence 23 (2009), Nr. 04, S. 687–719
Visa, S. ; Ralescu, A.: Issues in mining imbalanced data sets-a review
paper. In: Proceedings of the sixteen midwest artificial intelligence and cognitive science conference Bd. 2005 sn, 2005, S. 67–73
Downloads
Published
How to Cite
Issue
Section
License
Authors who publish in this journal agree to the following terms:
Authors retain copyright and grant the journal the right of first publication, with the work simultaneously licensed under the Creative Commons Attribution License that allows the sharing of the work with acknowledgment of authorship and initial publication in this journal.
Authors are authorized to assume additional contracts separately, for non-exclusive distribution of the version of the work published in this journal (eg, publish in an institutional repository or as a book chapter), with acknowledgment of authorship and initial publication in this journal.
Authors are allowed and encouraged to publish and distribute their work online (eg, in institutional repositories or on their personal page) at any point before or during the editorial process, as this can generate productive changes as well as increase impact and the citation of the published work (See The effect of open access).
This is an open access journal which means that all content is freely available without charge to the user or his/her institution. Users are allowed to read, download, copy, distribute, print, search, or link to the full texts of the articles, or use them for any other lawful purpose, without asking prior permission from the publisher or the
author. This is in accordance with the BOAI definition of open access
Intellectual Property
All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License under attribution BY.