Efficiency Comparison of Missing Value Estimation Methods of Response Variable for Three Factor Factorial Experiment in Randomized Complete Block Design
Abstract
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการประมาณค่าสูญหายของตัวแปรตอบสนองสำหรับ แผนแบบแฟกทอเรียล 3 ปัจจัยในบล็อกสมบูรณ์เชิงสุ่ม 4 วิธี คือ วิธีค่าคาดหวังสูงสุด (Expectation Maximization) วิธีค่าทดแทนพหุ 1 (Multiple Imputation 1) วิธีค่าทดแทนพหุ 2 (Multiple Imputation 2) และวิธีเคเนียร์เรสเนเบอร์อิมพิวเทชัน (K-Nearest Neighbor Imputation) ซึ่งวิธีค่าทดแทนพหุ 1 และวิธีค่าทดแทนพหุ 2 จะแตกต่างกันที่วิธีการที่นำมาใช้ในการคำนวณ ทั้งนี้จำลองข้อมูลด้วยเทคนิคมอนติคาร์โล จำนวน 108 สถานการณ์ และ ทำการทดลองซ้ำในแต่ละสถานการณ์ 2,000 รอบ กำหนดให้แต่ละปัจจัยมีจำนวน 3, 4 และ 5 ระดับ และมีจำนวนบล็อกเท่ากับ 3 บล็อก ข้อมูลมีการสูญหายแบบสุ่ม ร้อยละการสูญหายของข้อมูลเท่ากับ 5 และ 10 และความแปรปรวนของค่าสังเกตเท่ากับ 25 และ 625 โดยเกณฑ์ที่ใช้ในการเปรียบเทียบประสิทธิภาพ คือ ค่าประมาณความคลาดเคลื่อนกำลังสองเฉลี่ย จากการศึกษาพบว่าวิธีเคเนียร์เรสเนเบอร์อิมพิวเทชันให้ค่าประมาณความคลาดเคลื่อนกำลังสองเฉลี่ยต่ำที่สุดในทุกสถานการณ์ที่ทำการศึกษา ดังนั้นวิธีเคเนียร์เรสเนเบอร์อิมพิวเทชันให้ประสิทธิภาพสูงสุดในทุกสถานการณ์ที่ทำการศึกษา
The objective of this research is to compare the efficiency of four missing value estimation methods; i.e. Expectation Maximization, Multiple Imputation 1, Multiple Imputation 2, and K-Nearest Neighbor Imputation. The response variables of three factor factorial experiment were tested in randomized complete block design. The difference between Multiple Imputation 1 and Multiple Imputation 2 is the distance calculation methods of observations. A simulation study is conducted by Monte Carlo technique for 108 situations and 2,000 replications for each situation. The studied points are as follows : the numbers of each factor are 3, 4 and 5, the number of block is 3 with the percentages of missing values at 5 and 10, and the studied variances of observation are 25 and 625. In addition, the efficiency comparison criterion is the estimated mean squared error. The result shows that K-Nearest Neighbor Imputation has the lowest estimated mean squared error for all situations. Therefore, K-Nearest Neighbor Imputation is the most efficient estimator for all situations.
Keywords
ISSN: 2465-4698