Inside Transformer Neural Networks — English article

' ,' .

สถาปัตยกรรมทรานส์ฟอร์เมอร์ที่เสนอในบทความปี 2017 ชื่อ 'Attention Is All You Need' ได้ปฏิวัติการประมวลผลภาษาธรรมชาติด้วยการละทิ้งการประมวลผลแบบต่อเนื่องเพื่อหันมาใช้กลไกที่เรียกว่า self-attention

, .

Self-attention ช่วยให้ทุกโทเคนในลำดับสามารถอ้างอิงถึงโทเคนอื่น ๆ ทุกตัวพร้อมกันได้ แทนที่จะประมวลผลทีละตัว

, , .

ชั้นทรานส์ฟอร์เมอร์แต่ละชั้นคำนวณ queries, keys และ values จาก input embeddings

, ; .

ผลคูณจุดของ queries และ keys ให้ค่าน้ำหนัก attention ซึ่งกำหนดว่าแต่ละโทเคนมีอิทธิพลต่อโทเคนอื่นมากเพียงใด และผลรวมถ่วงน้ำหนักของ values คือผลลัพธ์ของชั้นนั้น

— — , .

การซ้อนหัว attention หลายหัวพร้อมกัน — multi-head attention — ช่วยให้โมเดลจับความสัมพันธ์หลายประเภทได้พร้อมกัน เช่น การพึ่งพาทางไวยากรณ์และความคล้ายคลึงเชิงความหมาย

, .

การเข้ารหัสตำแหน่งฝังข้อมูลเกี่ยวกับลำดับของโทเคนไว้ เพื่อชดเชยข้อเท็จจริงที่ว่าการดำเนินการ attention นั้นไม่สนใจลำดับ

.

โมเดลขนาดใหญ่ยุคใหม่มักใช้รูปแบบการเข้ารหัสตำแหน่งแบบ rotary หรือ ALiBi ซึ่งสรุปผลได้ดีกว่าสำหรับบริบทที่ยาวขึ้น

, , .

การขยายทรานส์ฟอร์เมอร์ให้มีพารามิเตอร์หลักร้อยล้านพันล้านตัวได้ก่อให้เกิดความสามารถที่ปรากฏขึ้นใหม่ รวมถึงการอ้างเหตุผลหลายขั้นตอนและการสรุปทั่วไปจากตัวอย่างน้อย ซึ่งไม่ได้ฝึกไว้โดยตรง