Page Header

ความถูกต้องในการแทนค่าข้อมูลสูญหายในการจำแนกประเภทกรณีข้อมูลสองกลุ่ม
Missing Data Imputation Based on Accuracy of Binary Classification

Jumlong Vongprasert

Abstract


การศึกษาครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบความถูกต้องของการจำแนกประเภทกรณีข้อมูลสองกลุ่ม ด้วยวิธีซัพพอร์ตเวกเตอร์แมชชิน (Support Vector Machines; SVM) โครงข่ายประสาทเทียม (Artificial Neural Networks; ANN) แรนดอมฟอร์เรส (Random Forests; RF) การแทนค่าแบบพหุ (Multiple Imputation; MI) และ การแทนค่าแบบแบ็กทรี (Bagged Tree Imputation; BTI) โดยใช้ชุดข้อมูล 3 ชุด ได้แก่ ข้อมูลชุดที่ 1 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลเชิงกลุ่ม 7 ตัวแปรและข้อมูลต่อเนื่องจำนวน 9 ตัวแปร ข้อมูลชุดที่ 2 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลเชิงกลุ่ม 9 ตัวแปร และข้อมูลชุดที่ 3 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลต่อเนื่องจำนวน 9 ตัวแปร การเปรียบเทียบดำเนินการภายใต้เงื่อนไข 1) ข้อมูลจำนวน 3 ชุด 2) ข้อมูลสูญหาย 3 ประเภท ได้แก่ การสูญหายแบบสุ่มอย่างสมบูรณ์ (Missing Completely at Random; MCAR) การสูญหายแบบสุ่ม (Missing at Random; MAR) และการสูญหายแบบไม่สุ่ม (Not Missing at Random; NMAR) 3) ร้อยละของข้อมูลสูญหาย ได้แก่ ร้อยละ 5, 10, 15, 20, 25 และ 30 ผลการวิเคราะห์ความถูกต้องของการจำแนกประเภทพบว่า ในภาพรวมภายใต้ทุกเงื่อนไขของการทดลองเราแนะนำให้ใช้วิธี RF และ SVM ภายใต้เงื่อนไขการสูญหายแบบสุ่มอย่างสมบูรณ์ และการสูญหายแบบสุ่ม แนะนำให้ใช้วิธี SVM ภายใต้เงื่อนไขการสูญหายแบบไม่สุ่ม เราแนะนำให้ใช้วิธี RF

The purpose of this study was to compare accuracy of binary classification based on missing data imputations methods namely: Support Vector Machines (SVM); Neural Networks (NN); Random Forests (RF); Multiple Imputation (MI) and Bagged Tree Imputation (BTI). Three data sets comprise: 1) 7 categorical and 9 continuous independent variables, 2) 9 categorical independent variables and 3) 9 continuous independent variables. The comparisons were made with the following conditions: 1) Three data sets; 2) three types of missing data: Missing Completely at Random (MCAR), Missing at Random (MAR) and Not Missing at Random (NMAR); 3) six levels of percentage of missing data (5, 10, 15, 20, 25 and 30). We analyze which imputation method influences most the classifiers’ accuracy. The best imputations in overall were obtained using RF and SVM, the imputation under MAR and MCAR were obtained sing SVM, the imputation under NMAR were obtained using RF.


Keywords



Full Text: PDF

DOI: 10.14416/j.kmutnb.2020.07.002

ISSN: 2465-4698