การเปรียบเทียบประสิทธิภาพวิธีการคัดเลือกตัวแปรอิสระสำหรับตัวแบบการถดถอยไวบูลไม่ต่อเนื่อง
Efficiency Comparison of Independent Variables Selection Methods for Discrete Weibull Regression Model
Abstract
งานวิจัยนี้มีวัตถุประสงค์เพื่อนำเสนอประสิทธิภาพการคัดเลือกตัวแปรอิสระของตัวแบบการถดถอยไวบูลไม่ต่อเนื่องทั้งหมด 4 วิธี ได้แก่ วิธีการถดถอยทีละขั้น วิธีบูตสแทร็ปทีละขั้น วิธีแบบเบส์ภายใต้การแจกแจงก่อนคือการแจกแจงปรกติ และวิธีแบบเบส์ภายใต้การแจกแจงก่อนคือการแจกแจงลาปลาซ โดยเปรียบเทียบประสิทธิภาพของวิธีการคัดเลือกตัวแปรด้วยอัตราความสำเร็จ รวมถึงได้ศึกษาประสิทธิภาพของการประมาณค่าพารามิเตอร์ด้วยค่าเฉลี่ยของค่าคลาดเคลื่อนกำลังสองเฉลี่ยจากการจำลองด้วยเทคนิคมอนติคาร์โลภายใต้สถานการณ์ที่ตัวแปรอิสระมีความสัมพันธ์เชิงเส้นพหุและไม่มีความสัมพันธ์เชิงเส้นพหุ ตัวแบบผ่านฟังก์ชันเชื่อมโยงแบบล็อก-ล็อกและลอจิต และลักษณะของข้อมูลตัวแปรตามมีการกระจายต่ำกว่าเกณฑ์และการกระจายเกินเกณฑ์ นอกจากนั้นผู้วิจัยยังนำทั้ง 4 วิธีมาประยุกต์ใช้กับข้อมูลจริง ผลจากการจำลองโดยสรุปพบว่าโดยส่วนใหญ่วิธีบูตสแทร็ปทีละขั้นให้ประสิทธิภาพดีที่สุด วิธีแบบเบส์จะมีประสิทธิภาพรองลงมาและให้ประสิทธิภาพดีที่สุดเมื่อขนาดตัวอย่างเท่ากับ 100 ส่วนวิธีการถดถอยทีละขั้นจะมีประสิทธิภาพน้อยที่สุดแต่จะมีประสิทธิภาพมากขึ้นเมื่อขนาดตัวอย่างมากขึ้น และผลจากการประยุกต์ใช้กับข้อมูลจริงพบว่าวิธีบูตสแทร็ปทีละขั้นให้ประสิทธิภาพดีที่สุด
This research aimed to propose the performance of independent variables selection of discrete Weibull regression model with four different methods, namely the stepwise regression, the stepwise bootstrap and the Bayesian method based on Normal and Laplace prior distributions. The comparison among methods was conducted in terms of the Success Rate (SR) as well as the Mean of the Mean Square Error (MMSE) that studied the performance of the parameter estimation via the Monte Caro simulation technique. The explanatory variables were generated by both multicollinearity and no multicollinearity. The model was constructed by log-log and logit link functions. The response variable was considered for under-dispersion and over-dispersion data. Moreover, we apply four methods with real data. The findings show that results from the simulation study, the stepwise bootstrap method presents the best performance in most all the cases. The both schemes of Bayesian method present the second performance and present the best performance for sample size is 100. The stepwise regression presents the lowest performance but satisfactory performance when sample size increases. For real data, the stepwise bootstrap method presents the best performance.
Keywords
[1] A. C. Cameron and P. K. Trivedi, Regression Analysis of Count Data. Cambridge University Press, Cambridge: 2013.
[2] K. F. Sellers and G. Shmueli, “A flexible regression model for count data,” The Annals of Applied Statistics, vol. 4, no. 2, pp. 943–961, 2010.
[3] H. S. Klakattawi, “Discrete Weibull regression model for count data,” Ph.D dissertation, Department of Mathematics and Computing College of Engineering, Design and Physical Sciences, Brunel University, London, UK, 2017.
[4] H. S. Klakattawi, V. Vinciotti, and K. Yu, “A simple and adaptive dispersion regression model for count data,” Entropy, vol. 20, no. 2, pp. 142, 2018.
[5] H. Yoo, “Application of discrete Weibull regression model with multiple Imputation,” Communications for Statistical Applications and Methods, vol. 26, no. 3, pp. 325–336, 2019.
[6] H. Haselimashhadi, V. Vinciotti, and K. Yu, “A novel Bayesian regression model for counts with an application to health data,” Journal of Applied Statistics, vol. 45, no. 6, pp. 1085–1105, 2018.
[7] O. S. Adesina, A. S. Onanaye, and D. M. Okewole, “Bayesian Optimization for parameter of Discrete Weibull Regression,” Journal of Advances in Mathematics and Computer Science, vol. 34, no. 6, pp. 1–13, 2020.
[8] D. M. Sakate, D. N. Kashid, and D. T. Shirhe, “Subset selection in poisson regression,” Journal of Statistical Theory and Practice, vol. 5, no. 2, pp. 207–219, 2011.
[9] B. Efron, “Bootstrap methods: another look at the Jackknife,” The Annals of Statistics, vol. 7, no. 1, pp. 1–26, 1979.
[10] N. Sudjai and M. Duangsaphon, “Liu-type logistic regression coefficient estimation with multicollinearity problem by using the bootstrapping method,” Science, Engineering and Health Studies, vol. 14, no. 3, pp. 203–214, 2020 (in Thai).
[11] W. Saurerbrei and M. Schumacher, “A bootstrap resampling procedure for model building: Application to the cox regression model,” Statistics in Medicine, vol. 11, no. 16, pp. 2093–2109, 1992.
[12] A. Ekman, “Variable Selection for the Cox proportional hazards model: A simulation study comparing the stepwise, lasso and bootstrap approach” M.S. thesis, Department of Mathematics and Mathematical Statistics, Umea University, 2011.
[13] T. Nakagawa and S. Osaki, “The discrete Weibull distribution,” IEEE Transaction on Reliability, vol. 24, no. 5, pp. 300–301, 1975.
[14] W. K. Hastings, “Monte Carlo sampling methods using markov chains and their applications,” Biometrika, vol. 57, no. 1, pp. 97–109, 1970.
[15] H. Haario, E. Saksman, and J. Tamminen, “An adaptive Metropolis algorithm,” Bernoulli, vol. 7, no. 2, pp. 223–242, 2001.
[16] G. K. Grunwald, S. L. Bruce, L. Jiang, M. Strand, and N. Rabinovitch, “A statistical model for underor overdispersed clustered and longitudinal count data,” Biometrical Journal, vol. 53, no. 4, pp. 578–594, 2011.
[17] S. Gurmu, “Semiparametric estimation of hurdle regression models with an application to medicaid utilization,” Journal of Applied Econometrics, vol. 12, no, 3, pp. 225–242, 1997.
DOI: 10.14416/j.kmutnb.2023.03.007
ISSN: 2985-2145