Thai MTEB Benchmark | ผลทดสอบโมเดล Embedding ภาษาไทย

ประเภทการทดสอบ

Task Types — รายละเอียดการทดสอบแต่ละประเภทสำหรับภาษาไทย

⇄

Bitext Mining (6 tasks)

ค้นหาคู่ประโยคที่มีความหมายเดียวกันระหว่างภาษาไทยกับภาษาอื่น ครอบคลุมแหล่งข้อมูลหลากหลาย ตั้งแต่คัมภีร์ไบเบิล (BibleNLP) คลังประโยคคู่ขนาน (FLORES, NTREX, Tatoeba) ไปจนถึง FAQ ภาษาไทยบนเว็บไซต์ โมเดลส่วนใหญ่ทำได้ดีในหมวดนี้เนื่องจากมีข้อมูลคู่ภาษาไทย-อังกฤษจำนวนมากในการเทรน

BibleNLP FLORES NTREX Tatoeba WebFAQ-QAs WebFAQ-Questions

☰

Classification (9 tasks)

จำแนกข้อความภาษาไทยเป็นหมวดหมู่ต่างๆ รวมถึงการวิเคราะห์ความรู้สึก (Wisesight, Wongnai) การจำแนกเจตนาและสถานการณ์ (MASSIVE) การจัดหมวดหมู่หัวข้อ (SIB-200) และการตรวจจับภาษา เป็นหมวดที่สะท้อนความเข้าใจบริบทและความหมายภาษาไทยได้ชัดเจนที่สุด

Wisesight Wongnai MASSIVE-Intent MASSIVE-Scenario MTOP-Domain MTOP-Intent SIB-200 MultiSentiment LangDetect

◎

Clustering (1 task)

จัดกลุ่มข้อความภาษาไทยที่มีเนื้อหาเกี่ยวข้องกันโดยไม่ต้องมี label กำหนดล่วงหน้า ใช้ชุดข้อมูล SIB-200 ที่ครอบคลุม 200 ภาษา ทดสอบว่าโมเดลสามารถสร้าง embedding ที่จับกลุ่มความหมายได้ดีเพียงใด

SIB200-ClusteringS2S

⇋

Pair Classification (1 task)

ประเมินความสัมพันธ์ระหว่างคู่ประโยคภาษาไทย ผ่านงาน Natural Language Inference (XNLI) ซึ่งต้องตัดสินว่าประโยคที่สองเป็นผลที่ตามมา (entailment) ขัดแย้ง (contradiction) หรือไม่เกี่ยวข้อง (neutral) กับประโยคแรก

XNLI

↕

Reranking (2 tasks)

เรียงลำดับเอกสารใหม่ตามความเกี่ยวข้องกับคำถามภาษาไทย ใช้ MIRACL (ค้นหาบทความ Wikipedia) และ MultiLongDoc (เอกสารยาว) เป็นหมวดที่ต้องใช้หน่วยความจำ GPU ค่อนข้างมาก โมเดลขนาดใหญ่บางตัวอาจไม่สามารถรันได้บน A100 40GB

MIRACL MultiLongDoc

🔍

Retrieval (9 tasks)

ค้นหาเอกสารที่ตรงกับคำถามภาษาไทยจากฐานข้อมูลขนาดใหญ่ ครอบคลุม MIRACL, MrTyDi, XQuAD, Belebele, MKQA และ WebFAQ เป็นหมวดที่ท้าทายที่สุดและใช้ GPU memory สูงสุด โมเดลขนาด 7B+ มักล้มเหลวเนื่องจาก out-of-memory บน GPU 40GB

MIRACL MIRACL-HN MIRACL-HN.v2 MrTyDi Belebele MKQA MultiLongDoc WebFAQ XQuAD

วิธีการทดสอบ

Methodology — รายละเอียดสภาพแวดล้อมและขั้นตอนการทดสอบ

Compute

LANTA Supercomputer

Cray EX • NVIDIA A100-SXM4-40GB GPUs

Framework

MTEB v2.10.0

sentence-transformers 5.2.3 • PyTorch 2.10.0+cu128

Evaluation

28 Thai Tasks

7 task types • languages=["tha"] filter • trust_remote_code

Precision

Full / Auto

โมเดลโหลดด้วย precision ตาม config ดั้งเดิม (fp32/fp16/bf16)

OOM Tasks

A100 40GB Limit

MIRACL Retrieval, MrTyDi, MultiLongDoc, Wongnai ล้มเหลวบนโมเดล 300M+ เนื่องจาก VRAM ไม่พอสำหรับ corpus ขนาดใหญ่

กิตติกรรมประกาศ — Acknowledgment

ผลการทดสอบครั้งนี้ได้รับการสนับสนุนทรัพยากรการประมวลผลจาก ศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) ภายใต้ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช./NSTDA) ผ่านระบบ LANTA Supercomputer โดยไม่มีค่าใช้จ่าย ขอขอบคุณ ThaiSC ที่เปิดโอกาสให้นักวิจัยและชุมชน AI ไทยเข้าถึงทรัพยากรคำนวณระดับโลก

This benchmark was made possible by the free computing resources provided by the Thailand Supercomputer Center (ThaiSC) under the National Science and Technology Development Agency (NSTDA) through the LANTA Supercomputer. We are deeply grateful for ThaiSC's commitment to supporting AI research and the Thai developer community.

ผลทดสอบ Thai MTEB

ตารางผลคะแนน

เปรียบเทียบโมเดล