Federated Learning and Data Privacy — Chinese conversation

研究员马

，，？

ข้อมูลทางการแพทย์ออกนอกโรงพยาบาลไม่ได้ แต่เราก็ต้องการข้อมูลจำนวนมากพอสำหรับฝึกโมเดล Federated Learning จะแก้ปัญหานี้ได้ไหม?

博士生冯

，，，。

นั่นคือคุณค่าหลักของ Federated Learning โมเดลไปหาข้อมูล ไม่ใช่ข้อมูลมาหาโมเดล แต่ละสถาบันอัปโหลดเฉพาะ gradient หรือพารามิเตอร์โมเดล ข้อมูลต้นฉบับไม่ออกจากท้องถิ่น

研究员马

？

การอัปโหลด gradient ก็มีความเสี่ยงต่อการรั่วไหลของความเป็นส่วนตัวไหม?

博士生冯

，，。

มี การโจมตีแบบ gradient inversion สามารถสร้างข้อมูลการฝึกโดยประมาณขึ้นใหม่จาก gradient ได้ ดังนั้นโดยทั่วไปจึงต้องใช้ร่วมกับ differential privacy หรือ secure aggregation เพื่อป้องกัน gradient

研究员马

？

แนวคิดหลักของ differential privacy คืออะไร?

博士生冯

，，。

เพิ่ม noise ที่ออกแบบอย่างพิถีพิถันลงใน gradient เพื่อให้ผู้โจมตีไม่สามารถแยกแยะว่าข้อมูลชิ้นนั้นๆ มีส่วนร่วมในการฝึกหรือไม่ ค่า epsilon ของ privacy budget ควบคุมการแลกเปลี่ยนระหว่างความแรงของการป้องกันและความแม่นยำของโมเดล

研究员马

？

การที่การกระจายข้อมูลของแต่ละฝ่ายต่างกันมากจะส่งผลต่อการฝึกอย่างไร?

博士生冯

，，，。

นั่นเรียกว่าปัญหา non-IID ซึ่งเป็นความท้าทายหลักของ Federated Learning ความเบี่ยงเบนของข้อมูลในแต่ละท้องถิ่นที่มากจะทำให้โมเดลรวมประสบปัญหาการ converge ช้าหรือแม้แต่ประสิทธิภาพลดลง ต้องใช้เทคนิค Personalized Federated Learning รับมือ

研究员马

？

จะปรับปรุงประสิทธิภาพการสื่อสารอย่างไร?

博士生冯

、，，。

การบีบอัดโมเดล การทำให้ gradient เบาบาง และ asynchronous aggregation ล้วนเป็นวิธีที่ใช้กันทั่วไป เพื่อลดปริมาณพารามิเตอร์ที่ต้องส่งในแต่ละรอบ ขณะเดียวกันก็อนุญาตให้แต่ละฝ่ายอัปเดตตามความเร็วของตัวเอง

研究员马

？

ในด้านกฎระเบียบ Federated Learning สามารถตอบสนองข้อกำหนดการเก็บข้อมูลในท้องถิ่นได้ไหม?

博士生冯

，“”，。

โดยทั่วไปทำได้ แต่การปฏิบัติตามกฎระเบียบโดยเฉพาะขึ้นอยู่กับนิยามของกฎระเบียบนั้นๆ เกี่ยวกับ "การประมวลผลข้อมูลส่วนบุคคล" จำเป็นต้องให้ทีมกฎหมายและเทคนิคประเมินร่วมกัน