AI Model Security: Threats and Mitigations — Indonesian article

, .

เมื่อ AI ฝังตัวอยู่ในระบบที่สำคัญ ความปลอดภัยของโมเดลจึงกลายเป็นสาขาวิจัยเฉพาะที่ผสมผสานการเรียนรู้ของเครื่องกับหลักการความปลอดภัยสารสนเทศ

, .

การโจมตีเชิง adversarial เพิ่มความรบกวนของพิกเซลที่ตามนุษย์มองไม่เห็นในภาพอินพุต แต่เพียงพอที่จะทำให้ตัวจำแนกประเภทให้ผลการทำนายที่ผิดด้วยความมั่นใจสูง

: .

Prompt injection คือภัยคุกคามเฉพาะของโมเดลภาษา ผู้โจมตีแทรกคำสั่งซ่อนเร้นในข้อความอินพุตที่แทนที่คำสั่งระบบดั้งเดิมและเปลี่ยนพฤติกรรมของโมเดล

, .

การฝึกแบบปฏิปักษ์เปิดเผยโมเดลต่อตัวอย่าง adversarial ระหว่างการฝึก ซึ่งช่วยเพิ่มความทนทาน แม้โดยทั่วไปจะมีการแลกเปลี่ยนระหว่างความทนทานและความแม่นยำบนอินพุตปกติ

, , .

การตรวจสอบโมเดลเป็นระยะ การจำกัดการเข้าถึงเอาต์พุตผ่านฟิลเตอร์หลังการประมวลผล และการติดตามการกระจายของอินพุตในสภาพแวดล้อมการผลิต คือองค์ประกอบสำคัญของท่าทางความปลอดภัย AI ที่สมบูรณ์