Page Header

การระบุตัวผู้เขียนข้อความออนไลน์ภาษาไทยด้วยซัพพอร์ตเวกเตอร์แมชชีนและต้นไม้ตัดสินใจ

รังสิพรรณ มฤคทัต

Abstract


บทคัดย่อ

ปัญหาหนึ่งที่มาพร้อมกับการใช้สื่อสังคมออนไลน์ในประเทศไทยคือ การโพสต์ข้อความล่อลวง หมิ่นประมาทหรือเผยแพร่ข้อมูลข่าวสารที่เป็นเท็จ ผู้เขียนข้อความอาจใช้ชื่อปลอมหรือแอบอ้างเป็นคนอื่นแต่รูปแบบลีลาการเขียนบางอย่างที่เป็นรสนิยมส่วนตัวหรือเกิดจากความเคยชิน เช่น การใช้คำเรียกตัวเอง คำลงท้ายประโยค เครื่องหมายวรรคตอน ยังปรากฏร่องรอยอยู่และสามารถตรวจจับได้งานวิจัยนี้จึงคัดเลือกคุณลักษณะในการเขียนข้อความออนไลน์ภาษาไทยจำนวน 53 คุณลักษณะและใช้คุณลักษณะเหล่านี้ในการระบุตัวผู้เขียนข้อความนิรนาม โดยวิธีการที่เลือกใช้คือการจำแนกด้วยซัพพอร์ตเวกเตอร์แมชชีนและต้นไม้ตัดสินใจเมื่อทดสอบกับข้อความขนาดสั้น (ความยาวเฉลี่ย 144 คำ) ซัพพอร์ตเวกเตอร์แมชชีนให้อัตราความถูกต้องเฉลี่ย 79% ต้นไม้ตัดสินใจให้อัตราความถูกต้องเฉลี่ย 75% เมื่อทดสอบกับข้อความขนาดยาวขึ้น (ความยาวเฉลี่ย 312 คำ) ทั้งสองวิธีให้อัตราความถูกต้องเฉลี่ย 88% และ 82% ตามลำดับ

คำสำคัญ: ข้อความออนไลน์การระบุตัวผู้เขียน การจำแนก ซัพพอร์ตเวกเตอร์แมชชีน ต้นไม้ตัดสินใจ

Abstract

One problem that comes with the use of online social media in Thailand is the posting of deceptive, abusive, or hoax messages. The authors of such messages may use fake accounts or impersonate innocent persons. But some of their writing styles, influenced by individual preferences or habits, such as the use of first-person pronouns, sentence-ending words, or punctuations can still be traced and detected. In this research, fifty-three writing attributes of Thai online messages were selected and used to identify the authors of anonymous messages. The identification methods were based on classification by support vector machine and decision tree. When testing with short messages (average length of 144 words), support vector machine yielded an average accuracy of 79% whereas decision tree yielded an average accuracy of 75%. When testing with long messages (average length of 312 words), both methods yielded average accuracies of 88% and 82%, respectively.

Keywords: Online Messages, Author Identification, Classification, Support Vector Machine, Decision Tree


Full Text: PDF

ISSN: 2985-2145