← English articles English · technology · advanced · 173 words · ~1 min
Inside Transformer Neural Networks ภายในโครงข่ายประสาทแบบทรานส์ฟอร์เมอร์
Inside Transformer Neural Networks
Transformer models use self-attention mechanisms to process sequences in parallel, enabling the large language models that power modern AI assistants.
▶ Listen from start Hide Thai sentences Hide word glosses Plain text
Sign in to save texts and track what you've read.
▶ Introduced in the 2017 paper ' Attention Is All You Need ,' the transformer architecture revolutionized natural language processing by discarding recurrence in favor of a mechanism called self-attention . สถาปัตยกรรมทรานส์ฟอร์เมอร์ที่เสนอในบทความปี 2017 ชื่อ 'Attention Is All You Need' ได้ปฏิวัติการประมวลผลภาษาธรรมชาติด้วยการละทิ้งการประมวลผลแบบต่อเนื่องเพื่อหันมาใช้กลไกที่เรียกว่า self-attention
▶ Self-attention allows every token in a sequence to attend to every other token simultaneously , rather than processing them one at a time . Self-attention ช่วยให้ทุกโทเคนในลำดับสามารถอ้างอิงถึงโทเคนอื่น ๆ ทุกตัวพร้อมกันได้ แทนที่จะประมวลผลทีละตัว
▶ Each transformer layer computes queries , keys , and values from the input embeddings . ชั้นทรานส์ฟอร์เมอร์แต่ละชั้นคำนวณ queries, keys และ values จาก input embeddings
▶ The dot product of queries and keys produces attention weights , which determine how much each token influences the others ; the weighted sum of values is the layer's output . ผลคูณจุดของ queries และ keys ให้ค่าน้ำหนัก attention ซึ่งกำหนดว่าแต่ละโทเคนมีอิทธิพลต่อโทเคนอื่นมากเพียงใด และผลรวมถ่วงน้ำหนักของ values คือผลลัพธ์ของชั้นนั้น
▶ Stacking multiple attention heads in parallel — multi-head attention — lets the model capture different types of relationships at once , such as syntactic dependencies and semantic similarity . การซ้อนหัว attention หลายหัวพร้อมกัน — multi-head attention — ช่วยให้โมเดลจับความสัมพันธ์หลายประเภทได้พร้อมกัน เช่น การพึ่งพาทางไวยากรณ์และความคล้ายคลึงเชิงความหมาย
▶ Positional encodings inject information about token order , compensating for the fact that the attention operation itself is order-agnostic . การเข้ารหัสตำแหน่งฝังข้อมูลเกี่ยวกับลำดับของโทเคนไว้ เพื่อชดเชยข้อเท็จจริงที่ว่าการดำเนินการ attention นั้นไม่สนใจลำดับ
▶ Modern large models often use rotary or ALiBi positional schemes that generalize better to longer contexts . โมเดลขนาดใหญ่ยุคใหม่มักใช้รูปแบบการเข้ารหัสตำแหน่งแบบ rotary หรือ ALiBi ซึ่งสรุปผลได้ดีกว่าสำหรับบริบทที่ยาวขึ้น
▶ Scaling transformers to hundreds of billions of parameters has produced emergent capabilities , including multi-step reasoning and few-shot generalization , that were not explicitly trained . การขยายทรานส์ฟอร์เมอร์ให้มีพารามิเตอร์หลักร้อยล้านพันล้านตัวได้ก่อให้เกิดความสามารถที่ปรากฏขึ้นใหม่ รวมถึงการอ้างเหตุผลหลายขั้นตอนและการสรุปทั่วไปจากตัวอย่างน้อย ซึ่งไม่ได้ฝึกไว้โดยตรง
colour key Noun Verb Adjective Adverb Pronoun Particle Conjunction Determiner
← Previous All technology Next →