《联邦学习实战》(杨强等著)读书笔记
1、基于同态加密的安全机制
作为一种不需要将密文解密就可以处理密文的方法,同态加密是目前联邦学习系统里最常用的隐私保护机制,例如横向联邦学习里基于同态加密的安全聚合方法、基于同态加密的纵向联邦学习、基于同态加密的联邦迁移学习。
同态加密机制能够在不对密文解密的情况下计算密文(这样计算方就不需要了解明文内容,只要获得密文就可以了),可以很好地保护敏感数据和信息,同时又可以执行计算操作(例如在加密状态下地加减乘除四则运算)。也就是说,其他人可以对加密数据进行处理,但是处理过程不会泄露任何原始内容。同时,拥有解密密钥地参与方解密处理过的数据后,得到的结果正好是处理相应的明文的结果。
同态加密方法可以分为三类:部分同态加密、些许同态加密、全同态加密。不同的同态加密方案的计算复杂度区别很大。
2、基于差分隐私的安全机制
差分隐私采用了一种随机机制,使得当输入中的单个样本改变之后,输出的分布不会有太大的改变。差分隐私是在统计披露控制的场景下发展起来的。它提供了一种信息理论安全性保障,即函数的输出结果对数据集里的任何特定记录都不敏感。因此,差分隐私能被用于抵抗成员推理攻击。
按照数据收集方式的不同,当前的差分隐私可以分为中心化差分隐私和本地化差分隐私,它们的区别主要在于差分隐私对数据处理的阶段不同。中心化差分隐私在实际的应用中,有两个非常重要的性质:串行组合和并行组合。本地化差分隐私可以将数据隐私化的工作转移到每个参与方,参与方自己来处理和保护数据,进一步降低了隐私泄露的可能性。
中心化差分隐私是定义在任意两个相邻数据集的输出相似性上的,而本地化差分隐私是定义在本地数据任意两条记录的输出相似性上的。此外,本地化差分隐私同样继承了组合特性,即它同样满足并行组合和串行组合的性质。
目前实现差分隐私保护的主流方法是添加扰动噪声数据,中心化差分隐私采用的扰动机制可以包括拉普拉斯机制、高斯机制、指数机制等,而本地化差分隐私一般通过随机响应来实现。
在机器学习领域应用差分隐私算法,一个关键的问题是何时、何阶段添加噪声数据。为此,差分隐私算法根据噪声数据扰动使用的方式和使用阶段的不同,将其划分为下面几类:
输入扰动
目标扰动
算法扰动
输出扰动
3、基于安全多方计算的安全机制
安全多方计算(MPC)是密码学的一个子领域,目的是多个参与方协同地从每一方的隐私输入中计算某个函数的结果,而不用将这些输入数据展示给其他方。基于MPC,对于任何函数功能需求,我们都可以在不泄露除输出以外的信息的前提下计算它。
当前主要有三种常用的隐私计算框架,可以用来实现安全多方计算,它们分别是:秘密共享、不经意传输、混淆电路。
秘密共享就是指将要共享的秘密在一个用户群体里进行合理分配,以达到由所有成员共同掌管秘密的目的。在秘密共享系统中,攻击者必须同时获得一定数量的秘密碎片才能获得密钥,这种共享系统提高了系统的安全性。另外,当某些秘密碎片丢失或被毁时,利用其他的秘密份额仍然能够获得秘密,从而提高系统的可靠性。
不经意传输中接收方不能得知关于数据库的任何其他信息,发送方也不能了解关于接收方i的选择的任何信息。
混淆电路的思想是通过布尔电路的观点构造安全函数计算,使得参与方可以针对某个数值来计算答案,而不需要知道它们在计算式中输入的具体数字。因为GC的多方的共同计算是通过电路的方式实现的,所以这里的关键词是“电路”。实际上,所有可计算问题都可以转化为各个不同的电路,例如加法电路、比较电路、乘法电路等。而电路是由一个个门组成的,例如与门、非门、或门、与非门等。
混淆电路可以看成一种基于不经意传输的两方安全计算协议,它能够在不依赖第三方的前提下,允许两个互不信任方在各自私有输入上对任何函数进行求值。GC由一个不经意传输协议和一个分组密码组成。电路的复杂度至少是随输入内容大小的增大而线性增长的。
4、总结
本章介绍了联邦学习常用的三大安全机制,即同态加密、差分隐私和安全多方计算,它们也是密码学领域常用的安全策略,在与联邦学习结合使用的过程中,各自有优点和缺点。从计算性能、通信性能和安全性三个维度对它们进行综合比较如下:
计算性能:从计算的角度看,计算主要耗时在求取梯度上。对于同态加密,计算在密文的状态下进行,密文的计算要比明文的计算耗时更长;而差分隐私主要通过添加噪声数据进行计算,其效率与直接明文计算几乎没有区别;同理,秘密共享是在明文状态下进行的,计算性能基本不受影响。
通信性能:从通信的角度看,同态加密传输的是密文数据,密文数据比明文数据占用的比特数要更大,因此传输效率要比明文慢;差分隐私传输的是带噪声数据的明文数据,其传输效率与直接明文传输几乎没有区别;秘密共享为了保护数据隐私,通常会将数据进行拆分并向多方传输,完成相同功能的迭代。同态加密和差分隐私需要一次,而秘密共享需要多次数据传输才能完成。
安全性:注意,由于安全性的范围很广,这里我们特指在联邦学习场景中本地数据隐私的安全。虽然在联邦学习的过程中,我们是通过模型参数的交互来进行训练的,而不是交换原始数据,但当前越来越多的研究都表明,即使只有模型的参数或者梯度,也能反向破解原始的输入数据。结合当前的三种安全机制来保护联邦学习训练时的模型参数传输:同态加密由于传输的是密文数据,因此其安全性是最可靠的;秘密共享通过将模型参数数据进行拆分,只有当恶意用户端超过一定的数目并且相互串通合谋时,才有信息泄露的风险,总体上安全性较高;差分隐私对模型参数添加噪声数据,但添加的噪声会直接影响模型的性能(当噪声比较小时,模型的性能损失较小,但安全性变差;相反,当噪声比较大时,模型的性能损失较大,但安全性变强)。
版权归原作者 非文的NLP修炼笔记 所有, 如有侵权,请联系我们删除。