(),。
โมเดลภาษาขนาดใหญ่ (LLM) ใช้สถาปัตยกรรม Transformer เป็นพื้นฐาน โดยจับความสัมพันธ์ระยะไกลระหว่างโทเคนในลำดับผ่านกลไก Self-Attention
,。
ขั้นตอนการพรีเทรนใช้เป้าหมายการสร้างแบบจำลองภาษาแบบถดถอยอัตโนมัติหรือแบบมาสก์ เพื่อเรียนรู้การแทนค่าภาษาทั่วไปจากคลังข้อความขนาดมหาศาล
( )、,。
กฎการปรับขนาด (Scaling Laws) เปิดเผยความสัมพันธ์แบบกฎเลขชี้กำลังระหว่างประสิทธิภาพโมเดลกับจำนวนพารามิเตอร์ ปริมาณข้อมูล และปริมาณการคำนวณ เป็นฐานทางทฤษฎีสำหรับการออกแบบขนาดโมเดล
()。
การปรับจูนด้วยคำสั่ง (Instruction Tuning) และการเรียนรู้เสริมแรงจากข้อมูลตอบรับของมนุษย์ (RLHF) คือเส้นทางเทคนิคหลักในการปรับโมเดลพรีเทรนให้สอดคล้องกับเจตนาของมนุษย์
(),。
สถาปัตยกรรม Mixture of Experts (MoE) เปิดใช้งานชุดพารามิเตอร์ย่อยแบบไดนามิก ช่วยลดต้นทุนการคำนวณในการอนุมานอย่างมีนัยสำคัญ ขณะที่ยังคงความสามารถของโมเดลไว้
(、),。
การขยายขนาดหน้าต่างบริบทนำมาซึ่งนวัตกรรมของโครงร่างการเข้ารหัสตำแหน่ง เช่น RoPE และ ALiBi ทำให้โมเดลสามารถประมวลผลลำดับอินพุตที่ยาวขึ้นเรื่อยๆ ได้