การคัดเลือกตัวแปรแบบเบส์สำหรับตัวแบบการถดถอยเชิงเส้นที่มีมิติสูงโดยใช้กราฟแบบมีทิศทาง
Incorporating a Directed Graph in Bayesian Variable Selection for a Highdimensional Regression Model
Abstract
ในการสร้างตัวแบบการถดถอยที่มีมิติสูง การคัดเลือกตัวแปรอย่างมีประสิทธิภาพเป็นสิ่งสำคัญในการเพิ่มความสามารถในการตีความและความแม่นยำของตัวแบบ บทความนี้นำเสนอวิธีการคัดเลือกตัวแปรสำหรับตัวแบบการถดถอยที่มีมิติสูงด้วยวิธี Iterated Conditional Modes/Medians Algorithm (ICM/M) ซึ่งนำกราฟแบบมีทิศทางเข้ามาใช้ประกอบการคัดเลือกตัวแปรแบบเบส์เพื่อจับความสัมพันธ์ที่มีทิศทางระหว่างตัวแปรต่าง ๆ โดยเรียกวิธีการใหม่ว่า ICM/MD ในบทความนี้เปรียบเทียบประสิทธิภาพของวิธี ICM/MD กับวิธีลาสโซ่ วิธี ICM/M แบบไม่พิจารณาความสัมพันธ์ระหว่างตัวแปร และวิธี ICM/M แบบพิจารณาความสัมพันธ์ระหว่างตัวแปรโดยใช้กราฟแบบไม่มีทิศทางผ่านข้อมูลจำลองต่าง ๆ ในบริบทของจีโนม ผลลัพธ์แสดงให้เห็นว่าวิธี ICM/MD ให้อัตราการเกิดผลบวกเทียมที่ต่ำกว่าอย่างมีนัยสำคัญ ในขณะที่รักษาอัตราการเกิดผลลบเทียมในระดับที่สามารถแข่งขันกับวิธีอื่นได้ โดยเฉพาะในกรณีที่มีบางยีนในเครือข่ายมีความสัมพันธ์กับตัวแปรตามและตัวแปรอิสระมีเป็นจำนวนมาก ความสมดุลของความแม่นยำและความไวในการคัดเลือกตัวแปรนี้ทำให้ตัวแบบมีความน่าเชื่อถือและมีความสามารถในตีความได้ดีขึ้น วิธี ICM/MD พิสูจน์ได้ว่าเป็นเครื่องมือที่แกร่งและมีคุณค่าสำหรับนักวิจัยซึ่งต้องจัดการกับชุดข้อมูลที่มีมิติสูงที่ซับซ้อน โดยเฉพาะอย่างยิ่งในสาขาพันธุศาสตร์และชีวสารสนเทศศาสตร์ ซึ่งจะได้ผลลัพธ์ที่ถูกต้องมากขึ้นภายใต้โครงสร้างทางชีวภาพหรือเครือข่ายที่ซับซ้อน
In high-dimensional regression models, effective variable selection is critical for enhancing model interpretability and accuracy. This paper introduces a novel method, ICM/MD, which incorporates directed graphs into the Bayesian variable selection framework to capture directional relationships among variables. We compare the performance of ICM/MD with Lasso, ICM/M without considering a network, and ICM/M with undirected graph incorporation methods across various simulation scenarios in a genomic context. The results demonstrate that ICM/MD achieves significantly lower false positive rates while maintaining competitive false negative rates, especially in cases where not all genes in the network are related to the response and the number of predictors is large. This balance of precision and recall ensures more reliable and interpretable models. The ICM/MD method proves to be a robust and valuable tool for researchers dealing with complex high-dimensional datasets, particularly in genomics and bioinformatics, by providing a more accurate representation of underlying biological or network structures.
Keywords
[1] K. Tadist, S. Najah, N. S. Nikolov, F. Mrabti, and A. Zahi, “Feature selection methods and genomic big data: a systematic review,” Journal of Big Data, vol. 6, no. 79, 2019.
[2] V. Pungpapong, “A brief review on highdimensional linear regression,” Thai Science and Technology Journal, vol. 23, no. 2, 2015. (in Thai)
[3] V. Pungpapong, M. Zhang, and D. Zhang, “Selecting massive variables using an iterated conditional modes/medians algorithm,” Electronic Journal of Statistics, vol. 9, no. 1, pp. 1243–1266, 2015.
[4] L. Onsager, “Crystal statistics. I. A two-dimensional model with an order-disorder transition,” Physical Review, vol. 65, pp. 117–149, 1943.
[5] H. Jeffreys, “An invariant form for the prior probability in estimation problems,” Proceedings of the Royal Society of London. Series A, Mathematical and Physical Sciences, vol. 196, pp. 453–461, 1946.
[6] M. Schmidt, D. Bohm, C. von Torne, E. Steiner, A. Puhl, H. Pilch, H.-A. Lehr, J. G. Hengstler, H. Kolbl, and M. Gehrmann, “The humoral immune system has a key prognostic impact in node-negative breast cancer,” Cancer Research, vol. 68, no. 13, pp. 5405–5413, 2008.
[7] R. Oughtred, J. Rust, C. Chang, B. J. Breitkreutz, C. Stark, A. Willems, L. Boucher, G. Leung, N. Kolas, and F. Zhang, “The BioGRID database: A comprehensive biomedical resource of curated protein, genetic, and chemical interactions,” Protein Science, vol. 30, no. 1, pp. 187–200, 2021.
[8] R Core Team.R Foundation for Statistical Computing. (2023), R: A language and environment for statistical computing. [Online]. Available: https://www.R-project.org
[9] R. Tibshirani, “Regression Shrinkage and Selection via the Lasso,” Journal of the Royal Statistical Society. Series B (Methodological), vol. 58, no. 1, pp. 267–288, 1996.
[10] J. H. Friedman, T. Hastie, and R. Tibshirani, “Regularization paths for generalized linear models via coordinate descent,” Journal of Statistical Software, vol. 33, no. 1, pp. 1–22, 2010.
[11] J. H. Friedman, T. Hastie, R. Tibshirani, B. Narasimhan, K. Tay, N. Simon, and J. Qian, glmnet: Lasso and elastic-net regularized generalized linear models. (2021). R package version 4.1-1.
[12] V. Pungpapong, M. Zhang, and D. Zhang. icmm: Empirical Bayes variable selection via ICM/M algorithm. (2021). R package version 1.2.
[13] I. M. Johnstone and B. W. Silverman, “Empirical Bayes selection of wavelet thresholds,” Annals of Statistics, vol. 33, no. 4, pp. 1700–1752, Aug. 2005.
DOI: 10.14416/j.kmutnb.2024.10.020
ISSN: 2985-2145