Análise de componentes principais aplicada à estimação de parâmetros no modelo de regressão logística quadrático

Authors

  • I. Andruski-Guimarães UTFPR - Universidade Tecnológica Federal do Paraná

DOI:

https://doi.org/10.5540/tema.2013.014.01.0057

Abstract

A literatura disponível mostra que a quase totalidade dos trabalhos sobre o modelo de regressão logística considera apenas o modelo com funções discriminantes lineares. Entretanto, há situações nas quais funções discriminantes quadráticas são de grande utilidade e podem apresentar melhores resultados. Porém, o modelo de regressão logística quadrático envolve a estimação de um grande número de parâmetros desconhecidos, o que pode levar a algumas dificuldades, do ponto de vista computacional, especialmente quando há um grande número de variáveis independentes no conjunto de dados. Neste trabalho utiliza-se um conjunto de componentes principais das variáveis independentes a fim de reduzir as dimensões do modelo a ser estimado, com variáveis independentes contínuas, bem como os custos computacionais para a estimação de parâmetros na regressão logística quadrática politômica, sem perda de eficiência. Simulações com conjuntos de dados extraídos da literatura disponível mostram que o modelo de regressão logística quadrático, com componentes principais, é computacionalmente viável e, geralmente, produz resultados melhores que aqueles obtidos pelo modelo de regressão logística clássico, em termos de taxas de classificações corretamente efetuadas.

Author Biography

I. Andruski-Guimarães, UTFPR - Universidade Tecnológica Federal do Paraná

Professor adjunto do Departamento Acadêmico de Matemática da Universidade Tecnológica Federal do Paraná. Graduado em matemática, pela Pontifícia Universidade Católica do Paraná (PUC-PR), possui mestrado e doutorado em Métodos Numéricos em Engenharia, pela Universidade Federal do Paraná (UFPR). Áreas de interesse: Controle Estatístico de Processos, Reconhecimento Estatístico de Padrões e Análise Multivariada.

References

A.M. Aguilera, M. Escabias, M.J. Valderrama, Using principal components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 55 (2006), 1905--1924.

A. Albert, J. A. Anderson, On the existence of maximum likelihood estimates in logistic regression models, Biometrika, 71 (1984), 1--10.

J.A. Anderson, Quadratic logistic discrimination, Biometrika, 62 (1975), 149--154.

I. Andruski-Guimarães e A. Chaves Neto, Estimation in polytomous logistic model: comparison of methods, Journal of Industrial and Management Optimization, 5 (2009), 239--252.

L. Barker, C. Brown, Logistic regression when binary predictor variables are highly correlated, Satistics in Medicine, 20 (9-10) (2001), 1431--1442.

D. Brodnjak-Voncina, Z.C. Kodba,C. Novic, Multivariate data analysis in classification of vegetable oils characterized by the content of fatty acids. Chemometrics and Intelligent Laboratory Systems 75 (2005), 31--43.

J.B. Copas, Binary regression models for contaminated data. With discussion. Journal of Royal Statistical Society B, 50 (1988), 225--265.

A. Ekholme, J. Palmgren, A model for binary response with misclassification. GLIM 82 Proceedings of the International Conference on Generalized Linear Models (1982), 128--143.

R.A. Fisher, The use of multiple measurements in taxonomic problems. Annals of Eugenics 3 (1936), 179--188.

D. Gervini, Robust adaptive estimators for binary regression models. Journal of Statistical Planning and Inference, 131, 297--311 (2005).

G. Heinze, M. Schemper, A solution to the problem of separation in logistic regression. Statistics in Medicine} {bf 21 (2002), 2409--2419.

M. Hubert, K. van Driessen, Fast and robust discriminant analysis. {em Computational Statistics & Data Analysis}, {bf 45} (2004), 301--320.

bibitem{jolliffe} I.T. Jolliffe, A note on the use of principal components in regression. {em Applied Statistics}, {bf 31}, 3 (1982), 300--303.

bibitem{kodzar} N. Kodzarkhia, G.D. Mishra, L. Reiersolmoen, Robust estimation in the logistic regression model. Journal of Statistical Planning and Inference}, 98 (2004), 211-223.

W. F. Massy, Principal component regression in exploratory statistical research. Journal of American Statistical Association, (1965), 234--246.

G. J. McLachlan, Discriminant Analysis and Statistical Pattern Recognition, p. 130. John Wiley & Sons, Inc., Hoboken, New Jersey, U.S.A. 2004.

P.J. Rousseeuw, A. Christmann, Robustness against separation and outliers in logistic regression, Computational Statistics & Data Analysis, 43 (2003), 315--332.

Published

2013-04-21

How to Cite

Andruski-Guimarães, I. (2013). Análise de componentes principais aplicada à estimação de parâmetros no modelo de regressão logística quadrático. Trends in Computational and Applied Mathematics, 14(1), 57–68. https://doi.org/10.5540/tema.2013.014.01.0057

Issue

Section

Original Article