研究员马
,,?
ข้อมูลทางการแพทย์ออกนอกโรงพยาบาลไม่ได้ แต่เราก็ต้องการข้อมูลจำนวนมากพอสำหรับฝึกโมเดล Federated Learning จะแก้ปัญหานี้ได้ไหม?
博士生冯
,,,。
นั่นคือคุณค่าหลักของ Federated Learning โมเดลไปหาข้อมูล ไม่ใช่ข้อมูลมาหาโมเดล แต่ละสถาบันอัปโหลดเฉพาะ gradient หรือพารามิเตอร์โมเดล ข้อมูลต้นฉบับไม่ออกจากท้องถิ่น
研究员马
?
การอัปโหลด gradient ก็มีความเสี่ยงต่อการรั่วไหลของความเป็นส่วนตัวไหม?
博士生冯
,,。
มี การโจมตีแบบ gradient inversion สามารถสร้างข้อมูลการฝึกโดยประมาณขึ้นใหม่จาก gradient ได้ ดังนั้นโดยทั่วไปจึงต้องใช้ร่วมกับ differential privacy หรือ secure aggregation เพื่อป้องกัน gradient
研究员马
?
แนวคิดหลักของ differential privacy คืออะไร?
博士生冯
,,。
เพิ่ม noise ที่ออกแบบอย่างพิถีพิถันลงใน gradient เพื่อให้ผู้โจมตีไม่สามารถแยกแยะว่าข้อมูลชิ้นนั้นๆ มีส่วนร่วมในการฝึกหรือไม่ ค่า epsilon ของ privacy budget ควบคุมการแลกเปลี่ยนระหว่างความแรงของการป้องกันและความแม่นยำของโมเดล
研究员马
?
การที่การกระจายข้อมูลของแต่ละฝ่ายต่างกันมากจะส่งผลต่อการฝึกอย่างไร?
博士生冯
,,,。
นั่นเรียกว่าปัญหา non-IID ซึ่งเป็นความท้าทายหลักของ Federated Learning ความเบี่ยงเบนของข้อมูลในแต่ละท้องถิ่นที่มากจะทำให้โมเดลรวมประสบปัญหาการ converge ช้าหรือแม้แต่ประสิทธิภาพลดลง ต้องใช้เทคนิค Personalized Federated Learning รับมือ
研究员马
?
จะปรับปรุงประสิทธิภาพการสื่อสารอย่างไร?
博士生冯
、,,。
การบีบอัดโมเดล การทำให้ gradient เบาบาง และ asynchronous aggregation ล้วนเป็นวิธีที่ใช้กันทั่วไป เพื่อลดปริมาณพารามิเตอร์ที่ต้องส่งในแต่ละรอบ ขณะเดียวกันก็อนุญาตให้แต่ละฝ่ายอัปเดตตามความเร็วของตัวเอง
研究员马
?
ในด้านกฎระเบียบ Federated Learning สามารถตอบสนองข้อกำหนดการเก็บข้อมูลในท้องถิ่นได้ไหม?
博士生冯
,“”,。
โดยทั่วไปทำได้ แต่การปฏิบัติตามกฎระเบียบโดยเฉพาะขึ้นอยู่กับนิยามของกฎระเบียบนั้นๆ เกี่ยวกับ "การประมวลผลข้อมูลส่วนบุคคล" จำเป็นต้องให้ทีมกฎหมายและเทคนิคประเมินร่วมกัน