แบบจำลองการจำแนกเอกสารภาษาไทยอัตโนมัติ
Automatic Thai Document Classification Model
Abstract
บทคัดย่อ
บทความนี้เป็นการนำเสนอวิธีการสร้างแบบจำลองการจำแนกเอกสารภาษาไทยอัตโนมัติ เพื่อประโยชน์ในการแก้ปัญหาการจำแนกเอกสารที่มีปริมาณมากและช่วยประหยัดแรงงานมนุษย์เพราะไม่ต้องใช้มนุษย์ในการจำแนกเอกสาร ซึ่งขั้นตอนการสร้างแบบจำลองเอกสารประกอบด้วย 1) การสกัดคุณลักษณะด้วยการตัดคำ 2) การกำจัดคำหยุดและทำรากศัพท์ 3) การกำหนดค่าน้ำหนัก ดัชนี คำและการลดคุณลักษณะ และ 4) การเรียนรู้ด้วยเครื่องจักรการเรียนรู้แบบมีผู้สอนและทำการทดสอบประสิทธิภาพด้านความถูกต้องของแบบจำลองในจำแนกเอกสาร
Abstract
This article presents the application of modeling to automatic classification of Thai document. Modeling is beneficial for solving the problem of classifying electronic documents in a large volume and save human labor. The process of modeling consists of 1) feature extraction with the Thai word segmentation 2) stop-word list removal and stemming. 3) the index of the documents and feature reduction and 4) learning by machine learning and testing the accuracy of the document classification model.
Keywords
Refbacks
- There are currently no refbacks.