专注于车载信息安全和预期功能安全技术研究
电话:+86 21 62655001
您的位置: 网站首页 > 学术前沿
2020-05-12 11:47:37

联邦学习简介

来源:学术前沿 浏览次数:484 点赞数:1

随着计算力、算法和数据量的巨大进步,人工智能迎来第3次发展高潮,开始了各行业的落地探索。然而,在“大数据”兴起的同时,更多行业应用领域中是“小数据”或者质量很差的数据,“数据孤岛”现象广泛存在。例如在信息安全领域的应用中,虽然多家企业推出了基于人工智能技术的内容安全审核、入侵检测等安全服务,但出于用户隐私和商业机密的考虑,企业之间很难进行原始数据的交换,各个企业之间服务是独立的,整体协作和技术水平很难在短时间内实现突破式发展。如何在保护各机构数据隐私的前提下促成更大范围的合作,能否通过技术手段破解数据隐私保护难题,联邦学习是解决这一问题、实现跨企业协同治理的有效方式。

“数据孤岛”与“数据隐私保护”难题

数据孤岛和数据隐私保护的两难困境:一是来自于人工智能技术本身的特点,需要海量数据作为基础;二是来自于世界范围内对数据隐私和安全的日益重视。

人工智能技术尤其是深度学习依赖于模型、算法,更依赖于通过海量数据进行模型训练,从而不断改进,仅依靠某一机构所掌握的数据,无法实现技术的快速突破。理想状态是在数据之间建立广泛连接,形成合力,创造更大价值。而现实情况是:有效数据往往难以获取或以“数据孤岛”的形式呈现。公司之间的数据共享需要用户的授权,而许多用户倾向于拒绝数据共享;即便一个公司内部,数据壁垒也不易打通;互联网巨头的存在,使得少数公司垄断大量数据。这些因素都会导致数据孤岛,难以创造出“1+1>2”的数据价值。

虽然有明确的法律法规并且在全球范围内达 成了广泛共识,但由于技术等因素的限制,实际应用中,数据隐私保护仍然是难题。收集数据的一方往往不是使用数据的一方,如A方收集数据,转移到B方清洗,再转移到C方建模,最后将模型卖给 D方使用。这种数据在实体之间转移、交换和交易的 形式违反了相关法律法规,并可能受到严厉的惩罚。

联邦学习

联邦学习(federated learning)指的是在满足隐私保护和数据安全的前提下,设计一个机器学习框架,使各个机构在不交换数据的情况下进行协作,提升机器学习的效果.其核心就是解决数据孤岛和数据隐私保护的问题,通过建立一个数据“联邦”,让参与各方都获益,推动技术整体持续进步。

联邦学习有几大特征:

1)各方数据都保留在本地,不泄露隐私也不 违反法规;

2)多个参与者联合数据建立虚拟的共有模 型,实现各自的使用目的,共同获益;

3)在联邦学习的体系下,各个参与者的身份 和地位相同;

4)联邦学习的建模效果类似于传统深度学习;

5)“联邦”就是数据联盟,不同的联邦有着不 同的运算框架,服务于不同的运算目的。如金融行 业和医疗行业就会形成不同的联盟。

数据分布可以分为3种情况:1)2个数据集的用户特征重叠部分较大,而用户重叠部分较小;2)2个数据集的用户重叠部分较大,而用户特征重叠部分较小;3)2个数据集的用户与用户特征重叠部分都比较小。为了应对以上3种数据分布情况,我们把联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。

横向联邦学习

step1:参与方各自从服务器A下载最新模型;

step2:每个参与方利用本地数据训练模型,加密梯度上传给服务器A,服务器A聚合各用户的梯度更新模型参数;

step3:服务器A返回更新后的模型给各参与方;

step4:各参与方更新各自模型。

纵向联邦学习

第一步:加密样本对齐。是在系统级做这件事,因此在企业感知层面不会暴露非交叉用户。第二步:对齐样本进行模型加密训练:

step1:由第三方C向A和B发送公钥,用来加密需要传输的数据;

step2:A和B分别计算和自己相关的特征中间结果,并加密交互,用来求得各自梯度和损失;

step3:A和B分别计算各自加密后的梯度并添加掩码发送给C,同时B计算加密后的损失发送给C;

step4:C解密梯度和损失后回传给A和B,A、B去除掩码并更新模型。

联邦迁移学习

联邦迁移学习的步骤与纵向联邦学习相似,只是中间传递结果不同(实际上每个模型的中间传递结果都不同)。

联邦学习的落地探索

在金融领域,多家机构联合建模的风控模型 能更准确地识别信贷风险,联合反欺诈。多家银行建立的联邦反洗钱模型,能解决该领域样本少、数据质量低的问题。

在智慧零售领域,联邦学习能有效提升信息 和资源匹配的效率。例如,银行拥有用户购买能力 的特征,社交平台拥有用户个人偏好特征,电商平台则拥有产品特点的特征,传统的机器学习模型无法直接在异构数据上进行学习,联邦学习却能在保护三方数据隐私的基础上进行联合建模,为用户提供更精准的产品推荐等服务,从而打破数据壁垒,构建跨领域合作。

在医疗健康领域,联邦学习对于提升医疗行业协作水平更具有突出意义。在推进智慧医疗的过程中,病症、病理报告、检测结果等病人隐私数据常常分散在多家医院、诊所等跨区域、不同类型的医疗机构,联邦学习使机构间可以跨地域协作而数据不出本地,多方合作建立的预测模型能够更准确地预测癌症、基因疾病等疑难病。如果所有的医疗机构能建立一个联邦学习联盟,或许可以使人类的医疗卫生事业迈上一个全新的台阶。