← English articles
English · technology · advanced · 173 words · ~1 min

Inside Transformer Neural Networks

ภายในโครงข่ายประสาทแบบทรานส์ฟอร์เมอร์
Inside Transformer Neural Networks

Transformer models use self-attention mechanisms to process sequences in parallel, enabling the large language models that power modern AI assistants.

' ,' .
สถาปัตยกรรมทรานส์ฟอร์เมอร์ที่เสนอในบทความปี 2017 ชื่อ 'Attention Is All You Need' ได้ปฏิวัติการประมวลผลภาษาธรรมชาติด้วยการละทิ้งการประมวลผลแบบต่อเนื่องเพื่อหันมาใช้กลไกที่เรียกว่า self-attention
, .
Self-attention ช่วยให้ทุกโทเคนในลำดับสามารถอ้างอิงถึงโทเคนอื่น ๆ ทุกตัวพร้อมกันได้ แทนที่จะประมวลผลทีละตัว
, , .
ชั้นทรานส์ฟอร์เมอร์แต่ละชั้นคำนวณ queries, keys และ values จาก input embeddings
, ; .
ผลคูณจุดของ queries และ keys ให้ค่าน้ำหนัก attention ซึ่งกำหนดว่าแต่ละโทเคนมีอิทธิพลต่อโทเคนอื่นมากเพียงใด และผลรวมถ่วงน้ำหนักของ values คือผลลัพธ์ของชั้นนั้น
, .
การซ้อนหัว attention หลายหัวพร้อมกัน — multi-head attention — ช่วยให้โมเดลจับความสัมพันธ์หลายประเภทได้พร้อมกัน เช่น การพึ่งพาทางไวยากรณ์และความคล้ายคลึงเชิงความหมาย
, .
การเข้ารหัสตำแหน่งฝังข้อมูลเกี่ยวกับลำดับของโทเคนไว้ เพื่อชดเชยข้อเท็จจริงที่ว่าการดำเนินการ attention นั้นไม่สนใจลำดับ
.
โมเดลขนาดใหญ่ยุคใหม่มักใช้รูปแบบการเข้ารหัสตำแหน่งแบบ rotary หรือ ALiBi ซึ่งสรุปผลได้ดีกว่าสำหรับบริบทที่ยาวขึ้น
, , .
การขยายทรานส์ฟอร์เมอร์ให้มีพารามิเตอร์หลักร้อยล้านพันล้านตัวได้ก่อให้เกิดความสามารถที่ปรากฏขึ้นใหม่ รวมถึงการอ้างเหตุผลหลายขั้นตอนและการสรุปทั่วไปจากตัวอย่างน้อย ซึ่งไม่ได้ฝึกไว้โดยตรง
colour key NounVerbAdjectiveAdverbPronounParticleConjunctionDeterminer