The Journal of King Mongkut's University of Technology North Bangkok

Text Classification Using Machine Learning for Thai Official Letters

Pakorn Santakij, Pongporn Punpeng, Preecha Phophaeng, Yaowalak Ngamsanroaj


บทความนี้มีวัตถุประสงค์เพื่อกำหนดรูปแบบการจำแนกประเภทข้อความที่เหมาะสมที่สุดสำหรับการจัดประเภทข้อความหลายชั้นในโดเมนเอกสารทางราชการภาษาไทย ในการทดลองได้ทำการศึกษา โดยการสร้างตัวแยกประเภทข้อความโดยใช้ WangchanBERTa ซึ่งเป็นโมเดลภาษาไทยแบบฝึกล่วงหน้าร่วมกับตัวแบบดั้งเดิมที่เป็นที่นิยมและเปรียบเทียบประสิทธิภาพ โมเดลจำแนกประเภททั้งหมดได้รับการปรับแต่งให้เหมาะสม และทำการฝึกฝนชุดข้อมูลองค์กร ซึ่งได้ประเมินจากเมตริกการประเมิน 4 แบบ ได้แก่ค่า Accuracy, Precision, Recall และ F1-score. ผลการทดลองแสดงให้เห็นว่า แบบจำลอง WangchanBERTa มีความแม่นยำสูงถึง 76% ซึ่งประสิทธิภาพดีกว่าแบบจำลองพื้นฐานอื่น ๆ และสามารถนำมาประยุกต์ใช้สำหรับหน่วยงานราชการไทย ในการจำแนกประเภทของหนังสือราชการไทยได้

This article aims to determine the most suitable text classification model for creating a multi-class Text classification in the Thai official letter domain. An experimental study was conducted by creating text classifiers using WangchanBERTa, a Pre-trained Thai Language Model, along with other popular traditional ones and comparing their performance. All classifiers were fine-tuning and trained on the organization dataset. They were evaluated by four evaluation metrics: accuracy, precision, recall, and F1-scores. The experiment results showed that the WangchanBERTa model outperforms the baseline models with the highest accuracy of 76%. It can also be applied for Thai government organizations to classify types of Thai official letters.


DOI: 10.14416/j.kmutnb.2024.05.03

ISSN: 2985-2145