Page Header

การเปรียบเทียบวิธีการประมาณค่าข้อมูลสูญหายในแผนแบบวัดซ้ำภายในหน่วยทดลอง
A Comparison of Missing Data Imputation Methods in Within-Subject Repeated Measure Design

Nalattaporn Roopmok, Kamolchanok Panishkan

Abstract


แผนแบบการทดลองแบบวัดซ้ำมีลักษณะการเก็บข้อมูลจากหน่วยตัวอย่างเดียวกัน แต่ต่างกันที่ช่วงเวลาหรือเงื่อนไขอื่นซึ่งนิยมใช้ในงานวิจัยทางด้านการแพทย์หรือสาธารณสุข บทความนี้เสนอการเปรียบเทียบวิธีการประมาณค่าข้อมูลสูญหายในแผนแบบการทดลองแบบวัดซ้ำภายในหน่วยทดลองเมื่อสุ่มค่าข้อมูลสูญหายอย่างสุ่มสมบูรณ์ โดยประยุกต์จากวิธีการแทนที่ด้วยค่าเฉลี่ยวิธี CopyMean Trajectory วิธี CopyMean LOCF และวิธีโครงข่ายประสาทเทียม โดยใช้เกณฑ์ในการประเมินด้วยค่า MAD, RMSD และค่า Bias ซึ่งทำการทดลองทั้งในชุดข้อมูลจริงและชุดข้อมูลจำลองโดยในชุดข้อมูลจำลองกำหนดให้ในแต่ละตัวแปรมีค่าเฉลี่ยและค่าความแปรปรวนเท่ากัน ผลการวิจัยพบว่า ในกรณีส่วนใหญ่วิธีการโครงข่ายประสาทเทียมเป็นวิธีการที่ดีที่สุดในการประมาณค่าข้อมูลสูญหายในข้อมูลจริงและข้อมูลจำลองในกรณีไม่มีสหสัมพันธ์และสหสัมพันธ์น้อย (0, 0.3 และ 0.5) ส่วนในข้อมูลจำลองกรณีที่สหสัมพันธ์ค่อนข้างมาก (0.7 และ 0.9) วิธี CopyMean Trajectory เป็นวิธีการที่ดีที่สุดในกรณีส่วนใหญ่

Within-subject repeated measure design is an experimental design conducted by collecting data from the same sample unit at different times or with other conditions. It is popular in medical or public health research. This article presents a comparison of missing data imputation methods in within-subject repeated measure design when missing values are missing completely at random. The imputation methods were applied by the Mean Substitution method, CopyMean Trajectory method, CopyMean LOCF method and Artificial Neural Network method by using 3 assessment criteria such as MAD, RMSD, and Bias. All these methods were tested on both real dataset and artificial datasets when mean and variance in each variable were equally defined. The results revealed that, in the most cases, the artificial neural network method performed the best in real dataset and in artificial datasets with no correlation or low correlation (0, 0.3, and 0.5). However, in artificial datasets with high correlation (0.7 and 0.9), the CopyMean Trajectory method was the best method in the most cases.


Keywords



[1] H. Kang, “The prevention and handling of the missing data,” The Korean Society of Anesthesiologists, vol. 64, no. 5, pp. 402–406, 2013.

[2] C. R. Bingham, M. Stemmler, A. C. Peterson, and J. A. Graber, “Imputing missing data values in repeated measurement within-subjects designs,” Methods of Psychological Research Online, vol. 3, no. 2, pp. 131–155, 1998.

[3] C. Genolini, A. Lacombe, R. cochard, and F. Subtil, “CopyMean: A new method to predict monotone missing values in longitudinal studies,” Computer Methods and Programs in Biomedicine, vol. 132, pp. 29–44, 2016.

[4] A. Gupta and M. S. Lam, “Estimating missing values using neural networks,” The Journal of the Operational Research Society, vol. 41, pp. 229–238, 1996.

[5] S. Fritsch, F. Guenther, M. N. Wright, M. Suling, and S. M. Mueller. (2019, February). Package ‘neuralnet’, GitHub, Inc., [Online]. Available: https://cran.r-project.org/web/packages/neural net/neuralnet.pdf

[6] K. I. Singley, B. D. Hale, and D. Russell, “Heart rate, anxiety, and hardiness in novice (Tandem) and experienced (Solo) skydivers,” Journal of Sport Behavior, vol. 35, no. 4, pp. 453–469, 2012.

Full Text: PDF

DOI: 10.14416/j.kmutnb.2020.11.003

ISSN: 2985-2145