Efficiency Comparison of Missing Value Estimation Methods of Response Variable for Three Factor Factorial Experiment in Randomized Complete Block Design
Abstract
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการประมาณค่าสูญหายของตัวแปรตอบสนองสำหรับ แผนแบบแฟกทอเรียล 3 ปัจจัยในบล็อกสมบูรณ์เชิงสุ่ม 4 วิธี คือ วิธีค่าคาดหวังสูงสุด (Expectation Maximization) วิธีค่าทดแทนพหุ 1 (Multiple Imputation 1) วิธีค่าทดแทนพหุ 2 (Multiple Imputation 2) และวิธีเคเนียร์เรสเนเบอร์อิมพิวเทชัน (K-Nearest Neighbor Imputation) ซึ่งวิธีค่าทดแทนพหุ 1 และวิธีค่าทดแทนพหุ 2 จะแตกต่างกันที่วิธีการที่นำมาใช้ในการคำนวณ ทั้งนี้จำลองข้อมูลด้วยเทคนิคมอนติคาร์โล จำนวน 108 สถานการณ์ และ ทำการทดลองซ้ำในแต่ละสถานการณ์ 2,000 รอบ กำหนดให้แต่ละปัจจัยมีจำนวน 3, 4 และ 5 ระดับ และมีจำนวนบล็อกเท่ากับ 3 บล็อก ข้อมูลมีการสูญหายแบบสุ่ม ร้อยละการสูญหายของข้อมูลเท่ากับ 5 และ 10 และความแปรปรวนของค่าสังเกตเท่ากับ 25 และ 625 โดยเกณฑ์ที่ใช้ในการเปรียบเทียบประสิทธิภาพ คือ ค่าประมาณความคลาดเคลื่อนกำลังสองเฉลี่ย จากการศึกษาพบว่าวิธีเคเนียร์เรสเนเบอร์อิมพิวเทชันให้ค่าประมาณความคลาดเคลื่อนกำลังสองเฉลี่ยต่ำที่สุดในทุกสถานการณ์ที่ทำการศึกษา ดังนั้นวิธีเคเนียร์เรสเนเบอร์อิมพิวเทชันให้ประสิทธิภาพสูงสุดในทุกสถานการณ์ที่ทำการศึกษา
The objective of this research is to compare the efficiency of four missing value estimation methods; i.e. Expectation Maximization, Multiple Imputation 1, Multiple Imputation 2, and K-Nearest Neighbor Imputation. The response variables of three factor factorial experiment were tested in randomized complete block design. The difference between Multiple Imputation 1 and Multiple Imputation 2 is the distance calculation methods of observations. A simulation study is conducted by Monte Carlo technique for 108 situations and 2,000 replications for each situation. The studied points are as follows : the numbers of each factor are 3, 4 and 5, the number of block is 3 with the percentages of missing values at 5 and 10, and the studied variances of observation are 25 and 625. In addition, the efficiency comparison criterion is the estimated mean squared error. The result shows that K-Nearest Neighbor Imputation has the lowest estimated mean squared error for all situations. Therefore, K-Nearest Neighbor Imputation is the most efficient estimator for all situations.
Keywords
[1] B. Chomtee, “Factorial designs,” in Statistical Experimental Design: Theory and Analysis by Using SAS Software. Bangkok: Department of Statistics, Faculty of Science, Kasetsart University, 2013 (in Thai).
[2] R. J. A. Little and D. B. Rubin, Statistical Analysis with Missing Data, 2nd ed. New York: John Wiley and Sons, 2002.
[3] P. Damrongsuttipong, “A comparison of missing value estimation methods for randomized complete block design,” M.S. thesis, Department of Statistics, Faculty of Commerce and Accountancy, Chulalongkorn University, 2003 (in Thai).
[4] S. Kannika, “A comparison of missing value estimation methods for latin square design,” M.S. thesis, Department of Statistics, Faculty of Commerce and Accountancy, Chulalongkorn University, 2006 (in Thai).
[5] W. Sriduangchot, “A study on the efficiency of missing data estimation methods for two factors factorial experiment in randomized complete block design,” M.S. thesis, Department of Educational Research and Statistics, Faculty of Education, Srinakharinwirot University, 2013 (in Thai).
[6] E. C. Lovelyn, “Estimation of missing values in replicated factorial experiment,” M.S. thesis, Department of Mathematics, Faculty of Physical Sciences, Ahmadu Bello University, 2014.
[7] A. P. Dempster, N. M. Laird, and D. B. Rubin, “Maximum likelihood from incomplete data via the EM algorithm,” Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, no. 1, pp. 1–38, 1977.
[8] D. B. Rubin, Multiple Imputation for Nonresponse in Surveys. New York: John Wiley and Sons, 1987.
[9] S. Sinharay, H. S. Stern, and D. Russell, “The use of multiple imputation for the analysis of missing data,” Psychological Methods, vol. 6, no. 4, pp. 317–329, 2001.
[10] M. M. Deza and E. Deza, Encyclopedia of Distances. New York: Springer, 2009.
[11] P. Jonsson and C. Wohlin, “An evaluation of k-nearest neighbur imputation using likert data,” in Proceedings of the Software Metrics, 2004, pp. 108–118.
[12] R. O. Duba and P. E. Hart, Pattern Classification and Scene Analysis. New York: John Wiley and Sons, 1987.
[13] K. Chomboon, P. Chujai, P. Teerarassamee, K. Kerdprasop, and N. Kerdprasop, “An empirical study of distance metrics for k-nearest neighbor algorithmz,” in Proceedings of the 3rd International Conference on Industrial Application Engineering, 2015, pp. 280–285.
DOI: 10.14416/j.kmutnb.2021.05.040
ISSN: 2985-2145