《联邦学习》——个人笔记(一)

it2025-10-29  4

《联邦学习(杨强)》

前言: 现在很多行业面对的数据往往是小规模的碎片化的,很难将不同机构的数据聚合起来。那么联邦学习既能帮助多个参与者搭建共享的高效能模型,又符合用户隐私和数据保密性的要求。 机器学习模型比作羊,把数据比作羊吃的草,那么传统的机器学习模型,需要到个个草场的供应商处收购草,这就像一家人工智能公司需要到处收集数据一样,会面临很多挑战。而联邦学习则是我们牵着羊去个个草场吃草,数据不出本地,而我们也可以获得它。

第一章 引言

1.1人工智能面临的挑战 机器学习迅速发展,这些成功都是建立在大量数据的基础之上的,而高质量、大数量的训练数据很难获得,我们不得不面对难以桥接的数据孤岛。 在当前的法律环境下,我们在不同组织间收集和分享数据变得越来越困难,尤其是那些高度敏感的数据(金融交易和医疗健康数据),很容易形成各自独立的数据孤岛。 再者,各方协同分享处理大数据的益处不明显,虽然分享数据有利于学习模型的完善,但也使数据价值降低。

1.2联邦学习概述 核心思想:每一个拥有数据源的组织训练一个模型,之后让各个组织在各自的模型上彼此交流沟通,最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全,各组织间交换模型信息的过程会被精心设计,使得没有组织能猜到其他任何组织的隐私数据内容,同时,当构建全局模型时,各数据源仿佛已被整合到一起。 应用:谷歌智能手机的语言预测模型,即自动输入补全键盘系统。

1.2.1联邦学习定义 联邦学习包括两个过程:模型训练和模型推理。 在模型训练过程中,模型相关的信息能够在各方之间交换,但数据不能。当推理时,模型可以应用于新的数据实例。

联邦学习的特征: (1)有两个或以上的联邦学习参与方协作构建一个共享的机器学习模型。每个参与方都拥有若干能够用来训练模型的训练数据。 (2)在联邦学习模型的训练过程中,每一个参与方拥有的数据都不会离开参与方,即数据不离开拥有者。 (3)联邦学习模型相关的信息能够以加密的方式在各方之间进行传输和交换,并且需要保证任何一个参与方都不能推测出其他方的原始数据。 (4)联邦学习模型的性能要能够充分逼近理想模型(通过所有训练数据集中在一起并训练所获得的机器学习模型)的性能。 这一步会从中产生损失,即性能损失δ

根据应用场景的不同,联邦学习系统可能涉及也可能不涉及中央协调方。 包括协调方的(客户-服务器架构):协调方是一台聚合服务器,可以将初始模型传送给参与方,参与方用各自的数据集训练模型,并将模型权重发送到聚合服务器,之后聚合服务器将各方的模型重新聚合,即更新聚合模型,之后将更新后的模型再发送给参与方,这一过程重复进行,直到模型收敛、达到最大迭代次数或者最长训练时间。 不包括协调方(对等网络架构):参与方之间直接通信,A将更新后的模型发送给B,B收到后与自身的模型聚合,更新聚合模型,新的模型训练B,使B训练的自身模型更新,再发给A,A再更新,往复进行。

联邦学习的挑战: 一方面,参与方和中央聚合服务器之间的通信连接可能是慢速并且不稳定的,因为同一时间可能有非常多的参与方在通信。 另一方面,数量不均的训练样本可能会导致联邦学习模型产生偏差,而且如果有恶意破坏性模型更新信息将会导致可用性降低。

1.2.2联邦学习的分类 矩阵D表示参与方的数据:每一行表示一个数据样本,每一列表示一个具体的数据特征。 一个训练数据集(I,X,Y)由三个部分组成:I是数据样本ID空间,X是数据特征空间(feature),Y是数据标签空间(label)。

根据训练数据在不同参与方之间的数据特征空间和样本ID空间的分布情况,我们将联邦学习划分为:

横向联邦学习(Horizontal Federated Learning, HFL)纵向联邦学习(Vertical Federated Learning, VFL)联邦迁移学习(Federated Transfer Learning, FTL)

横向联邦学习适用于联邦学习的参与方的数据有重叠的数据特征,即数据特征在参与方之间是对齐的,但参与方拥有的数据样本是不同的。也称为按样本划分的联邦学习。

纵向联邦学习适用于联邦学习参与方的训练数据有重叠的数据样本,即参与方之间的样本数据时对齐的,但是在数据特征上有所不同。也称为按特征划分的联邦学习。

联邦迁移学习适用于参与方的数据样本和数据特征重叠很少的情况。 举例分析:当联邦学习的参与方是两家服务于不同区域市场的银行时,他们虽然可能有很少的重叠客户,但是客户的数据可能因为相似的商业模式而有非常相似的特征空间。这就意味着,这两家银行的用户的重叠部分较小,而数据特征的重叠部分较大,这两家银行就可以通过横向联邦学习来协同建立一个机器学习模型。 当两家公司提供不同的服务,但在客户群体上有非常大的交集时,他们可以在各自的不同特征空间上协作,为得到一个更好的机器学习模型,通过纵向联邦学习方式训练机器学习模型。

最新回复(0)