การจำแนกข้อมูลเพื่อวินิจฉัยความเสี่ยงการเป็นโรคเบาหวานโดยใช้เทคนิคเหมืองข้อมูล
Data Classifying to Diagnose Diabetes Risk Using Data Mining Techniques
Abstract
งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างแบบจำลองการจำแนกข้อมูลเพื่อวินิจฉัยความเสี่ยงการเป็นโรคเบาหวานโดยใช้เทคนิคเหมืองข้อมูล 4 วิธี ซึ่งประกอบด้วย วิธีนาอีฟเบย์ (Naïve Bayes) วิธีซัพพอร์ทเวกเตอร์แมชชีน (Support Vector Machine) วิธีความใกล้เคียงกันที่สุด (K-Nearest Neighbor) และวิธีต้นไม้ตัดสินใจ (Decision Tree) โดยใช้ข้อมูลของผู้ป่วยโรคเบาหวานโรงพยาบาลสมเด็จพระยุพราชบ้านดุงสร้างชุดตัวแบบและชุดทดสอบตัวแบบ เป็นข้อมูลที่เกิดจากการทบทวนเวชระเบียนผู้ป่วยโรคเบาหวานย้อนหลัง จำนวน 1,435 ชุดข้อมูล 16 คุณลักษณะ จากนั้นทำการหาค่าความถูกต้องของแบบจำลอง (Accuracy) โดยใช้วิธี 10- Fold cross validation ผลการเปรียบเทียบพบว่า วิธีต้นไม้ตัดสินใจให้ค่าประสิทธิภาพสูงสุดโดยมีค่าความถูกต้อง 93.73% วิธีนาอีฟเบย์ค่าความถูกต้อง 88.92% วิธีความใกล้เคียงกันที่สุดและวิธีซัพพอร์ทเวกเตอร์แมชชีนค่าความถูกต้อง 86.97% และ 86.13% ตามลำดับ จะพบว่าวิธีต้นไม้ตัดสินใจมีประสิทธิภาพในการสร้างแบบจำลองมากที่สุดเมื่อเทียบกับวิธีที่ใช้เปรียบเทียบร่วมกัน เนื่องจากเป็นวิธีที่ไม่มีการแจกแจงหรือไม่ใช้พารามิเตอร์ซึ่งไม่ได้ขึ้นอยู่กับสมมุติฐานการแจกแจงความน่าจะเป็น อีกทั้งสามารถจัดการกับข้อมูลที่มีมิติสูงได้อย่างแม่นยำ เหมาะสมที่จะนำแบบจำลองไปพัฒนาระบบจำแนกข้อมูลเพื่อวินิจฉัยความเสี่ยงการเป็นโรคเบาหวาน เพื่อเป็นแนวทางในการสนับสนุนการตัดสินใจทางการแพทย์ในการวินิจฉัยความเสี่ยงการเป็นโรคเบาหวานต่อไป
This research aims to create a data classification model for diagnosing diabetes risk by using four data mining techniques, which are Naïve Bayes Method, Support Vector Machine Method, K-Nearest Neighbor Method, and Decision Tree Method. The study employed data on diabetic patients from Somdej Phra Yuparat Hospital, Ban Dung to create a model and a model test kit. The data was derived from a retrospective review of diabetes medical records of 1,435 data sets with 16 attributes. Then the accuracy of the model was determined using the 10-fold cross validation method. The decision tree method yielded the highest efficiency with 93.73% accuracy, Naïve Bay method of 88.92% accuracy, closest approximation, and support vector machine method accuracy values of 86.97% and 86.13% respectively. It was found that the decision tree method was the most efficient in modeling compared to the comparative approach. This is because it is a non-distribution or nonparametric method which does not depend on the probability distribution hypothesis. It can also handle high-dimensional data with precision. It is appropriate to use the model to develop a classification system for diagnosing diabetes risk and as a guideline to support medical decision-making in the diagnosis of diabetes risk.
Keywords
DOI: 10.14416/j.kmutnb.2022.10.004
ISSN: 2465-4698