Page Header

การจำแนกข้อมูลขนาดใหญ่โดยใช้การจัดกลุ่มด้วยวิธีเคมีนและวิธีการเรียนรู้เชิงลึก
Large-scale Data Classification based on K-means Clustering and Deep Learning

Nuntuschaporn Senawong, Supawadee Wichitchan, Orawich Kumphon

Abstract


ในการจำแนกประเภทข้อมูลที่มีขนาดใหญ่ ปัญหาที่พบคือเวลาที่ใช้ในการประมวลผลนาน และต้องใช้ข้อมูลฝึก (Training Data) เป็นจำนวนมากเพื่อให้การจำแนกประเภทมีประสิทธิภาพความแม่นยำสูง เพื่อแก้ไขปัญหานี้ผู้วิจัยจึงศึกษาวิธีการสำหรับการจำแนกข้อมูลขนาดใหญ่ เพื่อลดปัญหาการใช้ข้อมูลฝึกจำนวนมาก แต่ยังคงมีประสิทธิภาพในการจำแนกประเภทสูง โดยจะทำการลดขนาดข้อมูลฝึกด้วยการรวมเทคนิคการจัดกลุ่มของวิธีเคมีน (K-means) และวิธีการเรียนรู้เชิงลึก (Deep Learning) ในการศึกษาประสิทธิภาพของวิธีการที่นำเสนอพิจารณาจากค่าความแม่นยำและค่า AUC นอกจากนี้ได้ทำการเปรียบเทียบกับวิธีการเรียนรู้เชิงลึกแบบเดิมที่ใช้ข้อมูลฝึกขนาด 80% และ 90% ของข้อมูลทั้งหมด และกรณีที่ใช้ข้อมูลฝึกจำนวนเท่ากัน ผลการศึกษาพบว่าวิธีการที่นำเสนอสามารถลดขนาดของข้อมูลฝึกได้อย่างมาก โดยใช้ข้อมูลฝึกน้อยกว่า 1% ของขนาดข้อมูลทั้งหมด แต่ให้ค่าความแม่นยำเฉลี่ยและค่า AUC เฉลี่ยของการจำแนกประเภทสูง โดยในกรณีที่ข้อมูลมีการแจกแจงปรกติ ขนาด 1,000,000×5 (N×Feature) วิธีการที่นำเสนอให้ค่าความแม่นยำเฉลี่ยสูงถึง 97.4878 % และให้ค่า AUC เฉลี่ยสูงถึง 0.9735 และเมื่อเปรียบเทียบกับผลการจำแนกประเภทโดยใช้วิธีการเรียนรู้เชิงลึกที่ใช้ข้อมูลฝึก 80% และ 90% ของข้อมูลทั้งหมด พบว่าประสิทธิภาพในการจำแนกประเภทสูงใกล้เคียงกัน โดยที่วิธีการที่นำเสนอใช้เวลาในการจำแนกประเภทน้อยกว่าวิธีการเรียนรู้เชิงลึกประมาณ 2 – 4 เท่า

Common problems in classifying large data are revealed as long processing time and a lot of training data in order to maintain high accuracy. To solve these problems, researchers study methods for classifying large data to reduce the use of large amounts of training data without sacrificing high classification efficiency. The proposed method reduces the size of the training data by combining K-means and deep learning. To study the effectiveness of the proposed method, the accuracy and AUC values were determined. In addition, it was compared with the original deep learning method using 80% and 90% training data out of the total data and was compared with the original deep learning using the same amount of training data. The results show that the proposed method can significantly reduce the size of the training data. Less than 1% of the total data size was used as training data, but the method yielded the high average percent of accuracy and the high average AUC of the classification. In the case of normal distribution and the size is 1,000,000 × 5 (N × Feature), the proposed method exhibits the average percent of accuracy as high as 97.4878% and the average AUC as 0.9735. When the proposed method was compared with the deep learning method using training data about 80% and 90% of the total data size, classification efficiency was relatively as high as that of the deep learning, but the classification time was 2–4 times less than the processing time of the deep learning method.


Keywords



Full Text: PDF

DOI: 10.14416/j.kmutnb.2021.03.012

ISSN: 2985-2145