การเปรียบเทียบวิธีประมาณค่าสูญหายในแผนแบบพื้นผิวตอบสนอง
A comparison of missing Value Estimation Methods for Response Surface Design
Abstract
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการประมาณค่าสูญหายในแผนแบบพื้นผิวตอบสนอง 4 วิธี คือ วิธีค่าเฉลี่ย (Mean Imputation, MI) วิธีการถดถอย (Regression Imputation, RI) วิธีการถดถอยแบบสโตแคสติก (Stochastic Regression Imputation, SRI) และ วิธีเคเนียร์เรสเนเบอร์ (K-Nearest Neighbor, KNN) ในแผนแบบพื้นผิวตอบสนอง 4 แผนแบบ ได้แก่ แผนแบบเซ็นทรัลคอมโพสิต (Central composite design, CCD) แผนแบบสมอลคอมโพสิต (Small composite design, SCD) แผนแบบบ็อกซ์-เบห์นกิ้น (Box-Behnken design, BBD) และ แผนแบบไฮบริด (Hybrid design) ภายในขอบเขตทรงกลม เมื่อมีจำนวนปัจจัยเท่ากับ 3 และ 4 ปัจจัย กำหนดความแปรปรวนของความคลาดเคลื่อนเท่ากับ 0.5 1 และ 1.5 เกณฑ์การเปรียบเทียบพิจารณาจากค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (Mean square error, MSE) และค่าความคลาดเคลื่อนสัมบูรณ์เฉลี่ย (Mean absolute error, MAE) ผลการศึกษา พบว่า ในแผนแบบขนาดใหญ่ (N=26,27) วิธี RI มีประสิทธิภาพในการประมาณค่าสูญหายได้ดี แผนแบบขนาดกลาง (16≤N≤19) โดยส่วนใหญ่วิธี RI และ MI มีประสิทธิภาพในการประมาณค่าสูญหายได้ดี ส่วนแผนแบบขนาดเล็ก (12≤N≤14) โดยส่วนใหญ่วิธี MI และวิธี KNN มีประสิทธิภาพในการประมาณค่าสูญหายได้ดี ทุกวิธีจะมีประสิทธิภาพเพิ่มขึ้น เมื่อจำนวนการทำซ้ำที่จุดศูนย์กลางของแผนแบบ (n_c) เพิ่มขึ้น และเมื่อความแปรปรวนของความคลาดเคลื่อนลดลง
The objective of this research is to compare efficiency of missing value estimation methods in response surface designs. The missing value estimation methods considered in the research are the four imputation methods: Mean Imputation (MI), Regression Imputation (RI), Stochastic Regression Imputation (SRI) and K-nearest Neighbor imputation (KNN). The four response surface designs in a spherical region with 3 and 4 design variables (k = 3, 4): Central Composite Design (CCD), Small Composite Design (SCD), Box-behnken Design (BBD) and Hybrid design are used in this study. The variance of errors are 0.5, 1 and 1.5. The criteria for comparing the efficiency are Mean Square Error (MSE) and Mean Absolute Error (MAE). The results show that the RI method performs the best in the large design sizes (N = 26, 27). The RI and MI methods mostly performs well in the medium design sizes (16 ≤ N ≤19). The MI and KNN methods mostly perform well in the small design sizes (12≤ N ≤14). The efficiency of all imputation methods increases when center points (nc) increases and the variance of error decreases.
Keywords
[1] R. H. Myers, D. C. Montgomery, and C. M. Anderson-Cook, Response Surface Methodology : Process and Product Optimization Using Designed Experiments, 3rd ed. New York, 2009.
[2] H. O. Hartley, “Smallest composite design for quadratic response surfaces,” Biometrics, vol. 15, no. 4, pp. 159–171, 1959.
[3] B. Chomtee, “Comparison of design optimality criteria of reduced models for response surface designs in a spherical design region,” Ph.D. dissertation, Montana State University, 2003.
[4] W. Pardubsri, “A Comparison study of spherical response surface designs for a set of reduced models by graphing methods,” M.S. thesis, Department of Statistics, Faculty of Sciences Kasetsart University, 2015 (in Thai).
[5] B. W. Bolch and C. J. Huang, Multivariate Statistical Method for Business and Economics, Prentice-Hall Inc., Englewood Cliffs, NJ, 1974, p. 329.
[6] R. J. A. Little and B. D. Rubin, Statistical Analysis with Missing Data, John Wiley & Sons, Inc., New York, 2nd ed. 2002, pp. 60–61.
[7] R. Lumjaisue,“Comparison of missing data estimation methods for the multiple regression analysis with missing at random dependent variable,” Thammasat International Journal of Science and Technology, vol. 25, no. 5, pp. 676–777, 2017 (in Thai).
[8] W. Chaimongkol, “Three composite imputation methods for item nonresponse estimation in sample surveys,” Ph.D. dissertation, Department of Applied Statistics, National Institute of Development Administration, Bangkok, 2005 (in Thai).
[9] P. Jonsson and C. Wohlin, “An evaluation of k-nearest neighbor imputation using likert data,” in Proceedings of the 10th International Symposium on Solfware Metrics, 2004, pp. 1530–1435.
[10] A. Wongarmart, “Comparison of the estimation methods for nonignorable missing data in multiple linear regression,” M.S. thesis, Department of Statistics, Faculty of commerce and accountancy Chulalongkorn University, Bangkok, 2012 (in Thai).
[11] Y. Yakubu, A. U. Chukwu, B. T. Adebayo, and A. G. Nwanzo, “Effects of missing observations on predictive capability of central composite designs,” International Journal on Computational Science & Applications, vol. 4, no. 6, pp. 1–18, 2014.
DOI: 10.14416/j.kmutnb.2022.01.001
ISSN: 2985-2145