การจำแนกประเภทหลายหมวดหมู่ด้วยการเรียนรู้ของเครื่องเพื่อพยากรณ์ระดับน้ำตาลสะสมในเลือดของผู้ป่วยเบาหวานชนิดที่ 2
Machine Learning-Based Multiclass Classification for Predicting the Cumulative Blood Sugar Levels in Type 2 Diabetes Patient
Abstract
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อจำแนกกลุ่มระดับน้ำตาลสะสมในเลือดและการควบคุมโรคของผู้ป่วยเบาหวานชนิดที่ 2 ด้วยแบบจำลองการเรียนรู้ของเครื่อง โดยรวบรวมข้อมูลเวชระเบียนจำนวน 28,431 เวชระเบียน 37 คุณลักษณะ นำมาผ่านกระบวนการจัดเตรียมข้อมูล การคัดเลือกคุณลักษณะด้วยวิธีการลดคุณลักษณะโดยการวัดค่าสารสนเทศ (Information Gain Feature Reduction; IG) การกำจัดคุณลักษณะแบบวนซ้ำ (Recursive Feature Elimination; RFE) และการวัดความสำคัญของคุณลักษณะด้วยวิธีป่าสุ่ม (Random Forest Importance; RFI) การจัดการกับข้อมูลไม่สมดุลด้วยเทคนิค Synthetic Minority Over-sampling Technique; SMOTE (SM) เทคนิค Borderline-SMOTE (BM) และเทคนิค Adaptive Synthetic (ADA) และสร้างแบบจำลองด้วย 5 อัลกอริทึม การจำแนกประเภทหลายหมวดหมู่ ผลการวิจัยพบว่า แบบจำลอง IG + SM ร่วมกับอัลกอริทึมป่าสุ่ม (Random Forest) มีประสิทธิภาพสูงสุด โดยมีร้อยละความถูกต้องความแม่นยำ ความครบถ้วน และค่า F1 Score เท่ากับ 81.89 82.13 81.89 81.83 ตามลำดับ จากผลการวิจัยสามารถนำแบบจำลองไปประยุกต์ใช้เพื่อประกอบการตัดสินใจส่งตรวจติดตามระดับน้ำตาลสะสมในเลือดเพิ่มเติมจากปกติและช่วยเพิ่มประสิทธิภาพในการควบคุมโรคเบาหวานในเขตพื้นที่รับผิดชอบของโรงพยาบาล
This research aims to classify cumulative blood sugar levels (Hemoglobin A1c) and assess disease control in type 2 diabetes patients using machine learning models. A total of 28,431 medical records with 37 attributes were collected and processed through data preparation. Feature selection was performed using Information Gain (IG), Recursive Feature Elimination (RFE), and Random Forest Importance (RFI) methods. Imbalanced data was addressed using the Synthetic Minority Over-sampling Technique; SMOTE (SM), Borderline-SMOTE (BM), and Adaptive Synthetic (ADA) techniques. Models were developed using five multiclass classification algorithms. The results demonstrated that the IG + SM model, combined with the Random Forest algorithm, yielded the highest performance, with an accuracy, precision, recall, and F1 score of 81.89%, 82.13%, 81.89%, and 81.83% respectively. These findings can be applied to support decision-making for additional cumulative blood sugar level testing beyond routine practices and to enhance the efficiency of diabetes control within the hospital's service area.
Keywords
[1] P. Srisodsaluk, B. Chitpakdee, and S. Chanseang, “Innovation for the Care of Older Persons in Thailand during the Thailand 4.0 Era,” UBRU Journal for Public Health Research, vol. 9, no. 2, pp. 47–54, 2020 (in Thai).
[2] Health Administration Division. (2024). Smart Hospital. [Online] (in Thai). Available: https:// it-phdb.moph.go.th/.
[3] N. Sriwiboon, “Improvement the performance of the Chest X-ray image classification with convolutional neural network model by using image augmentations technique for COVID-19 diagnosis,” The Journal of KMUTNB, vol. 31, no. 1, pp. 109–117, 2020 (in Thai).
[4] N. Nonsiri, R. Manassila, and K. Somkanta, “Data classifying to diagnose diabetes risk using data mining techniques,” The Journal of KMUTNB, vol. 33, no. 2, pp. 538–547, 2022 (in Thai).
[5] Y. L. Cheng, Y. R. Wu, K. Der Lin, C. H. R. Lin, and I. M. Lin, “Using machine learning for the risk factors classification of glycemic control in Type 2 diabetes mellitus,” Healthcare (Basel), vol. 11, no. 8, pp. 1141, 2023.
[6] Y. Fan, E. Long, L. Cai, Q. Cao, X. Wu, and R. Tong, “Machine learning approaches to predict risks of diabetic complications and poor glycemic control in nonadherent Type 2 diabetes,” Frontiers in Pharmacology, vol. 12, pp. 665951, 2021.
[7] Hfocus. (2023, November). 5.2 million Thais diagnosed with diabetes, with over 20 million people suffering from obesity. [Online] (in Thai). Available: https://www.hfocus.org/.
[8] Health data center. (2024, January). HDC - Dashboard. [Online] (in Thai). Available: https://hdcservice.moph.go.th.
[9] Hfocus. (2023, November). As of the year 2023, there are a total of 3.3 million Thais diagnosed with diabetes. [Online] (in Thai). Available: https://www.hfocus.org/.
[10] Diabetes Association of Thailand, Clinical Practice Guideline for Diabetes 2023. Bangkok: Srimuang Printing, 2023 (in Thai).
[11] Handbook of integrated, people-centered health services in new normal diabetic & hypertensive clinic for healthcare workers, Division of medical technical and academic affairs Ministry of Public Health, Nonthaburi, 2020 (in Thai).
[12] C. Imai, L. Li, R. A. Hardie, and A. Georgiou, “Adherence to guideline-recommended HbA1c testing frequency and better outcomes in patients with type 2 diabetes: a 5-year retrospective cohort study in Australian general practice,” BMJ quality & safety, vol. 30, no. 9, pp. 706–714, 2021.
[13] T. Weiss, A. Edwards, D. Lautsch, S. Rajpathak, and K. Snow, “Hemoglobin A1C testing frequency among patients with type 2 diabetes within a US payer system: A retrospective observational study,” Current medical research and opinion, vol. 37, no. 11, pp. 1859–1866, 2021.
[14] Achieve.Plus. (2020, August). The 4 important classifications in Supervised Learning. [Online] (in Thai). Available: https://medium.com.
[15] J. H. Lee and J. C. Huber, “Evaluation of multiple imputation with large proportions of missing data: How Much Is Too Much?,” Iranian Journal of Public Health, vol. 50, no. 7, pp. 1372–1380, 2021.
[16] W. Romsaiyud, Machine Learning for Predictive Data Analytics and Applications. 1st ed. Nonthaburi: Sukhothai Thammathirat Open University, 2023 (in Thai).
[17] M. Khushi, K. Shaukat, T. M. Alam, I. A. Hameed, S. Uddin, S. Luo, X. Yang, and M. C. Reyes, “A Comparative Performance Analysis of Data Resampling Methods on Imbalance Medical Data,” IEEE Access, vol. 9, pp. 109960–109975, 2021.
[18] T. Pasangthien, and B. Yimwadsana, “Rebalancing clinical data with probabilistic random oversampling,” Journal of the Thai Medical Informatics Association, vol. 8, no. 2, pp. 68–72, 2022 (in Thai).
[19] V. R. Joseph, “Optimal ratio for data splitting,” Statistical Analysis and Data Mining: The ASA Data Science Journal, vol. 15, no. 4, pp. 531–538, 2022.
[20] ProjectPro. (2024, April). How to Solve a Multi Class Classification Problem with Python?. [Online]. Available: https://www.projectpro.io
[21] B. G. Marcot and A. M. Hanea, “What is an optimal value of k in k-fold cross-validation in discrete Bayesian network analysis?,” Computational Statistics, vol. 36, no. 3, pp. 2009–2031, 2021.
[22] K. Mnich, A. Polewko-Klim, A. K. Golinska, W. Lesinski, and W. R. Rudnicki, “Super learning with repeated cross validation,” in 2020 International Conference on Data Mining Workshops (ICDMW) IEEE, 2020, pp. 629–635.
[23] M. A. Sahid, M. U. H. Babar, and M. P. Uddin, “Predictive modeling of multi-class diabetes mellitus using machine learning and filtering iraqi diabetes data dynamics,” PloS one, vol. 19, no. 5, pp. e0300785, 2024.
[24] A. Almahdawi, Z. S. Naama, and A. Al-Taie, “Diabetes prediction using machine learning,” in 2022 3rd Information Technology To Enhance e-learning and Other Application (IT-ELA) IEEE, 2022, pp. 186–190.
DOI: 10.14416/j.kmutnb.2024.11.007
ISSN: 2985-2145