联邦学习白皮书V2.0

it2023-05-19 101

联邦学习白皮书V2.0

联邦学习动机联邦学习概述联邦学习分类联邦学习框架联邦自动驾驶潜在攻击激励机制有效性和效率

联邦学习动机

数据收集、数据清洗、数据建模、任务预测通常为不同方，传统的数据交易所的数据交换违反GDPR通用数据保护条例，各个用户、组织或机构拥有的数据形成数据孤岛和壁垒。联邦学习是解决数据孤岛、打破数据壁垒、满足隐私保护和数据安全的一种可行性方案。

联邦学习概述

联邦学习特性： – 各方数据都保留在本地，不泄露隐私、不违反法规（上传参数或梯度）； – 多方联合数据建立虚拟的共有模型、共同获益的体系（联邦平均、任务激励）； – 各方身份和地位平等（用户可靠性、数据质量有差异）； – 在各方数据对齐或特征对齐的条件下，联邦学习的建模效果和将整个数据集放在数据中心建模的效果相同、或相差不大（横向联邦、纵向联邦）； – 在各方数据或特征不对齐的情况下，迁移学习可以在各方数据间通过交换加密参数达到知识迁移的效果（联邦迁移学习）；

联邦学习定义：在进行机器学习的过程中，各参与方可借助其他方进行联合建模，各参与方无需共享数据资源，即数据不出本地的情况下，进行数据联合训练，建立共享的机器学习模型。

联邦学习架构：（目标：直到联邦学习模型的效果与传统数据聚合所建模型的效果足够接近）

联邦学习与差分隐私 – 联邦学习通过加密体制下的参数交换保护用户数据隐私，数据和模型本身不会进行传输； – 差分隐私通过向用户数据添加适量噪声达到保护数据隐私的目的，本质上仍是传输数据，存在数据泄露的可能性。

联邦学习与分布式机器学习 – 联邦学习是在保护各方数据的前提下进行联合训练； – 分布式机器学习是将数据分布在分布式的工作节点上，由中心节点调配训练，工作节点间不存在数据孤岛问题。

联邦学习与联邦数据库 – 存储方式相似，数据异构，但联邦数据库不涉及任何隐私保护机制。

联邦学习与区块链 – 网络结构上，均是一种去中心化网络结构，稍有区别是联邦第三方会承担汇聚模型，区块链完全是点对点的；安全算法上，联邦学习使用同态加密，区块链使用哈希算法、非对称加密；数据角度上，区块链的每个节点上记录了完整的密文数据，联邦学习的数据均保留在用户本地；奖励机制上，区块链的节点间通过竞争记账获得奖励，联邦学习中依据各方的共贡献分配奖励。

联邦学习分类

联邦学习框架

后面进一步研究FATE框架。

FederatedML：联邦学习算法功能组件，所有模块均采用模块化解耦的方式进行开发，从而增强可扩展性。FATE-Flow：联邦学习建模Pipeline调度和生命周期管理工具，为用户构建端到端的联邦学习Pipeline生产服务。FATE-Board：联邦学习建模的可视化工具，为终端用户可视化和度量模型训练的全过程。支持对模型训练过程全流程的跟踪、统计和监控等，并为模型运行状态、模型输出、日志追踪等提供丰富的可视化呈现，帮助用户简单高效地深入探索模型与理解模型。FATE-Serving：高性能可扩展的联邦学习在线模型服务。KubeFATE：通过把FATE的所有组件用容器的形式封装，基于容器部署应用不仅可以无差别地运行在支持容器的平台上，还可以按需灵活地实现多实例水平扩展。通过KubeFATE项目，开发者可以在公有云或私有云中部署FATE项目。

联邦自动驾驶

背景：以高速公路、无人园区为代表的简单道路环境，行人及车辆的特殊状况较少，适合无人驾驶落地。无人驾驶具有降低人类精力损耗、降低交通事故概率的优势，国家战略上、社会发展上都显露无人驾驶是一个具有极高社会价值、经济价值的方向。问题与解决方案： – 车辆的受制于时间和空间的限制，感知器的感知范围、捕捉的信息有限，存在目标缺失、目标遮挡、小目标检测等问题。 – 车辆传感器捕捉的感知数据内隐含大量隐私信息，直接共享数据会导致数据隐私泄露，为了保护车辆本地数据隐私，联邦学习架构是可行性方案。 – 引入横向联邦学习，融合不同车辆的摄像头、超声波传感器、雷达传感器信息，加快建立、学习场景信息的能力，同时有助于提高模型的鲁棒性。 – 引入纵向联邦学习，辅助城市摄像头、交通灯、未来智能道路等信息，结合物联网、车路协同、5G等技术，可以更好地在隐私保护下融合不同数据源的信息，加强车辆与场景环境的理解与交互。

潜在攻击

攻击位置 – 客户端：被恶意操纵的客户端在参与的训练迭代（通信）中，检查从服务器接收的所有消息（模型），进而篡改训练过程。 – 服务端：被恶意操纵的服务端检查客户端上传的所有消息（更新梯度），进而篡改训练过程。攻击方式 – 模型更新攻击（训练周期内）：恶意攻击者控制客户端并改变客户的输出，使得服务器聚合学习的模型偏离目标；若可以控制客户端产生任意输出，称为拜占庭攻击（无目标攻击），相对地，有目标攻击倾向于驱使学习模型偏离原有梯度下降方向（正确收敛方向），将篡改后的梯度上传给服务器，需要少量攻击成本。 – 数据攻击（投毒攻击）（训练周期内）：区别于模型更新攻击，数据攻击中，恶意攻击方不能直接更改训练模型，而是篡改客户端数据，例如数据特征、标签等。 – 逃逸攻击（推理周期内）：在不改变联邦学习系统的情况下，通过构造特定输入样本，例如通过添加噪声产生与原始测试输入几乎没有区别的虚假输入，可以欺骗训练模型，产生相同的预测结果。（通过对抗训练抵抗逃逸攻击存在缺陷，对抗样本通过在测试样本中加入范数有界的扰动生成，仅能提高特定类型样本的健壮性，仍然易受到其他形式的对抗噪声影响；此外，对于Non-IID数据没有普适标准；确定扰动范数界限困难。） – 重构攻击：包含模型反演攻击（根据模型参数反向推测出训练数据）和模型窃取攻击（重构出类似的替代模型） – 成员推断攻击：判断某个样本是否在训练数据集中（根据攻击知识的多少可划分为黑盒和白盒模式） – 其他非恶意的故障导致的隐私安全。

激励机制

如何设计一种联邦学习下的奖惩设计及分配机制？引入博弈论、契约理论，有效衡量各方的贡献程度，公平分配奖励，形成正向促进循环。

有效性和效率

联邦学习中，如何降低Non-IID数据的影响？改进目标函数；微调；迁移学习；元学习。

有限资源下的超参数调节。学习率 $\eta$ 、训练小批量 $B$ 、每轮通信参与训练的客户端数量 $E$ 、每轮通信的本地训练迭代数量 $C$ 。

有限的通信带宽及客户端设备的不可靠性。降低通信上传带宽；数据（参数、梯度）压缩，结合量化模型、稀疏模型、训练特定层（预训练模型）与联邦平均；目标实现通信效率与模型准确性的平衡。

最新回复(0)