MTEB v2.10.0 · LANTA Supercomputer

ผลทดสอบ Thai MTEB

Benchmark โมเดล Text Embedding สำหรับภาษาไทย ครอบคลุม 28 ชุดทดสอบ ใน 7 ประเภทงาน ประมวลผลบน LANTA Supercomputer ด้วย NVIDIA A100 GPUs สนับสนุนทรัพยากรโดย ThaiSC/NSTDA

--
Models
28
Tasks
7
Task Types
A100
40GB GPUs

ตารางผลคะแนน

Leaderboard — เรียงตามคะแนนเฉลี่ย (Average Score) จาก 28 ชุดทดสอบภาษาไทย · คลิกหัวคอลัมน์เพื่อเรียงลำดับ · โมเดลที่ไม่ครบ 28 task เกิดจาก CUDA OOM บน A100 40GB

# Model ▲▼ Size ▲▼ AVG Score ▲▼ BitextMining ▲▼ Classification ▲▼ Clustering ▲▼ PairCls ▲▼ Reranking ▲▼ Retrieval ▲▼ Tasks ▲▼

เปรียบเทียบโมเดล

Head-to-Head Comparison — เลือกโมเดล 2–3 ตัวเพื่อเปรียบเทียบคะแนนรายชุดทดสอบ

Model A
Model B

ประเภทการทดสอบ

Task Types — รายละเอียดการทดสอบแต่ละประเภทสำหรับภาษาไทย

Bitext Mining (6 tasks)

ค้นหาคู่ประโยคที่มีความหมายเดียวกันระหว่างภาษาไทยกับภาษาอื่น ครอบคลุมแหล่งข้อมูลหลากหลาย ตั้งแต่คัมภีร์ไบเบิล (BibleNLP) คลังประโยคคู่ขนาน (FLORES, NTREX, Tatoeba) ไปจนถึง FAQ ภาษาไทยบนเว็บไซต์ โมเดลส่วนใหญ่ทำได้ดีในหมวดนี้เนื่องจากมีข้อมูลคู่ภาษาไทย-อังกฤษจำนวนมากในการเทรน
BibleNLP FLORES NTREX Tatoeba WebFAQ-QAs WebFAQ-Questions

Classification (9 tasks)

จำแนกข้อความภาษาไทยเป็นหมวดหมู่ต่างๆ รวมถึงการวิเคราะห์ความรู้สึก (Wisesight, Wongnai) การจำแนกเจตนาและสถานการณ์ (MASSIVE) การจัดหมวดหมู่หัวข้อ (SIB-200) และการตรวจจับภาษา เป็นหมวดที่สะท้อนความเข้าใจบริบทและความหมายภาษาไทยได้ชัดเจนที่สุด
Wisesight Wongnai MASSIVE-Intent MASSIVE-Scenario MTOP-Domain MTOP-Intent SIB-200 MultiSentiment LangDetect

Clustering (1 task)

จัดกลุ่มข้อความภาษาไทยที่มีเนื้อหาเกี่ยวข้องกันโดยไม่ต้องมี label กำหนดล่วงหน้า ใช้ชุดข้อมูล SIB-200 ที่ครอบคลุม 200 ภาษา ทดสอบว่าโมเดลสามารถสร้าง embedding ที่จับกลุ่มความหมายได้ดีเพียงใด
SIB200-ClusteringS2S

Pair Classification (1 task)

ประเมินความสัมพันธ์ระหว่างคู่ประโยคภาษาไทย ผ่านงาน Natural Language Inference (XNLI) ซึ่งต้องตัดสินว่าประโยคที่สองเป็นผลที่ตามมา (entailment) ขัดแย้ง (contradiction) หรือไม่เกี่ยวข้อง (neutral) กับประโยคแรก
XNLI

Reranking (2 tasks)

เรียงลำดับเอกสารใหม่ตามความเกี่ยวข้องกับคำถามภาษาไทย ใช้ MIRACL (ค้นหาบทความ Wikipedia) และ MultiLongDoc (เอกสารยาว) เป็นหมวดที่ต้องใช้หน่วยความจำ GPU ค่อนข้างมาก โมเดลขนาดใหญ่บางตัวอาจไม่สามารถรันได้บน A100 40GB
MIRACL MultiLongDoc
🔍

Retrieval (9 tasks)

ค้นหาเอกสารที่ตรงกับคำถามภาษาไทยจากฐานข้อมูลขนาดใหญ่ ครอบคลุม MIRACL, MrTyDi, XQuAD, Belebele, MKQA และ WebFAQ เป็นหมวดที่ท้าทายที่สุดและใช้ GPU memory สูงสุด โมเดลขนาด 7B+ มักล้มเหลวเนื่องจาก out-of-memory บน GPU 40GB
MIRACL MIRACL-HN MIRACL-HN.v2 MrTyDi Belebele MKQA MultiLongDoc WebFAQ XQuAD

เปรียบเทียบความสามารถ

Radar Chart — เปรียบเทียบคะแนนรวมตามประเภทงาน สำหรับโมเดลหลัก

Top 4 โมเดล

ทุกโมเดลที่ผ่านเกณฑ์

คะแนนรายชุดทดสอบ

Task Breakdown — คะแนนแยกตามชุดทดสอบย่อย แบ่งตามประเภทงาน

รายละเอียดโมเดล

Model Details — ข้อมูลสำคัญของแต่ละโมเดล

วิธีการทดสอบ

Methodology — รายละเอียดสภาพแวดล้อมและขั้นตอนการทดสอบ

Compute

LANTA Supercomputer

Cray EX • NVIDIA A100-SXM4-40GB GPUs

Framework

MTEB v2.10.0

sentence-transformers 5.2.3 • PyTorch 2.10.0+cu128

Evaluation

28 Thai Tasks

7 task types • languages=["tha"] filter • trust_remote_code

Precision

Full / Auto

โมเดลโหลดด้วย precision ตาม config ดั้งเดิม (fp32/fp16/bf16)

OOM Tasks

A100 40GB Limit

MIRACL Retrieval, MrTyDi, MultiLongDoc, Wongnai ล้มเหลวบนโมเดล 300M+ เนื่องจาก VRAM ไม่พอสำหรับ corpus ขนาดใหญ่

กิตติกรรมประกาศ — Acknowledgment

ผลการทดสอบครั้งนี้ได้รับการสนับสนุนทรัพยากรการประมวลผลจาก ศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) ภายใต้ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช./NSTDA) ผ่านระบบ LANTA Supercomputer โดยไม่มีค่าใช้จ่าย ขอขอบคุณ ThaiSC ที่เปิดโอกาสให้นักวิจัยและชุมชน AI ไทยเข้าถึงทรัพยากรคำนวณระดับโลก

This benchmark was made possible by the free computing resources provided by the Thailand Supercomputer Center (ThaiSC) under the National Science and Technology Development Agency (NSTDA) through the LANTA Supercomputer. We are deeply grateful for ThaiSC's commitment to supporting AI research and the Thai developer community.