Architecture and Training Methods of Large Language Models

（），。

โมเดลภาษาขนาดใหญ่ (LLM) ใช้สถาปัตยกรรม Transformer เป็นพื้นฐาน โดยจับความสัมพันธ์ระยะไกลระหว่างโทเคนในลำดับผ่านกลไก Self-Attention

，。

ขั้นตอนการพรีเทรนใช้เป้าหมายการสร้างแบบจำลองภาษาแบบถดถอยอัตโนมัติหรือแบบมาสก์ เพื่อเรียนรู้การแทนค่าภาษาทั่วไปจากคลังข้อความขนาดมหาศาล

（）、，。

กฎการปรับขนาด (Scaling Laws) เปิดเผยความสัมพันธ์แบบกฎเลขชี้กำลังระหว่างประสิทธิภาพโมเดลกับจำนวนพารามิเตอร์ ปริมาณข้อมูล และปริมาณการคำนวณ เป็นฐานทางทฤษฎีสำหรับการออกแบบขนาดโมเดล

（）。

การปรับจูนด้วยคำสั่ง (Instruction Tuning) และการเรียนรู้เสริมแรงจากข้อมูลตอบรับของมนุษย์ (RLHF) คือเส้นทางเทคนิคหลักในการปรับโมเดลพรีเทรนให้สอดคล้องกับเจตนาของมนุษย์

（），。

สถาปัตยกรรม Mixture of Experts (MoE) เปิดใช้งานชุดพารามิเตอร์ย่อยแบบไดนามิก ช่วยลดต้นทุนการคำนวณในการอนุมานอย่างมีนัยสำคัญ ขณะที่ยังคงความสามารถของโมเดลไว้

（、），。

การขยายขนาดหน้าต่างบริบทนำมาซึ่งนวัตกรรมของโครงร่างการเข้ารหัสตำแหน่ง เช่น RoPE และ ALiBi ทำให้โมเดลสามารถประมวลผลลำดับอินพุตที่ยาวขึ้นเรื่อยๆ ได้