การเปรียบเทียบเทคนิคการคัดเลือกคุณลักษณะแบบการกรองและการควบรวม ของการทำเหมืองข้อความเพื่อการจำแนกข้อความ
A Comparison of Filter and Wrapper Approaches with Text Mining for Text Classification
Abstract
บทคัดย่อ
ปัญหาหนึ่งของการทำเหมืองข้อความคือข้อมูลมีปริมาณมาก นักวิจัยจำนวนมากใช้เทคนิคการคัดเลือกคุณลักษณะเพื่อได้คำที่เหมาะสมในการแทนเอกสารและเพิ่มประสิทธิภาพในการจำแนกเอกสารให้มีค่าความถูกต้องมากขึ้น เทคนิคที่ใช้แบ่งเป็น 2 วิธีได้แก่ การกรองและการควบรวม โดยเทคนิคการควบรวมสามารถใช้เทคนิคการทำเหมืองข้อความร่วมกับการค้นหาข้อมูล ในงานวิจัยนี้ได้ทำการเปรียบเทียบการคัดเลือกคุณลักษณะแบบการกรอง โดยเลือกใช้อินฟอร์เมชันเกน เกนเรโช และไคสแควร์ วิธีคัดเลือกแบบไคสแควร์ให้ผลดีที่สุดวัดประสิทธิภาพโดยรวม 92.2% และ การควบรวมใช้เทคนิคซัพพอร์ตเวกเตอร์แมชชีน (SVM) ร่วมกับการค้นหาด้วยวิธีเชิงพันธุกรรม (SVMGA) และการค้นหาด้วยวิธีละโมบ (SVMGD) โดยวิธีคัดเลือกแบบ SVMGD ให้ผลดีที่สุดวัดประสิทธิภาพโดยรวม 94% ซึ่งการจำแนกข้อความทั้งสองวิธีใช้ขั้นตอนวิธีแบบซัพพอร์ตเวกเตอร์แมชชีนโดยใช้เคอร์เนลแบบเรเดียลเบสิสฟังก์ชัน (SVMR) เมื่อเปรียบเทียบประสิทธิภาพทั้งวิธีการกรองและการควบรวมสรุปได้ว่าประสิทธิภาพโดยรวมของการควบรวมมีค่ามากกว่าการกรอง 1.8% ซึ่งทำให้นักวิจัยสามารถนำเทคนิคของการควบรวมไปใช้เพิ่มประสิทธิภาพการจำแนกข้อความ
Abstract
The main problem for text categorization is the highest dimensionality of feature space. Many researchers focus on instruction feature selection techniques to represent a document which in turn, increases the overall efficiency of a classification model. There are two general feature selection approaches: the Filter approach and the Wrapper approach. The Filter approach used Information Gain, Gain Ratio and Chi-square. The results showed that Chi-Square had highest performance with F-measure equaling 92.2%, the Wrapper approach used Support Vector Machine consisting of Genetic Algorithm (SVMGA) and Greedy (SVMGD). The results also found that Greedy (SVMGD) was the best algorithm with F-measure which equaled 94%. Both feature selection approaches employed Support Vector Machine with kernel Radial basis function as a classifier. When comparing the effectiveness of Filter approaches to Wrapper approaches, evaluated via F-measure shown that the value of Wrapper approaches were higher than that of Filter approaches at 1.8%. In conclusion, this technique enables researchers to increase the efficiency of a wrapper approach when implemented for information classification.
Keywords
Refbacks
- There are currently no refbacks.