原创:高声谈
微信公众号:Inter-FinanceCow
在上篇文章《明文数据盛宴结束 隐私计算春天到来》(见微信公号:高声谈)一文中,我们介绍了隐私计算的定义及作用。我们知道,隐私计算有三大技术路径,分别是多方安全计算(MPC)、联邦学习(FL)和可信执行环境(TEE),下面分别介绍。
多方安全计算
多方安全计算(Secure Multi-party Computation,MPC)由姚期智院士1982年提出并解答百万富翁问题时首先提出,是现代密码学的一个重要工具,对于隐私数据共享的巨大需求使得MPC受到密码学界的高度重视并发展成为解决各种隐私保护问题的关键技术。
MPC是指在无可信第三方的情况下,多个参与方共同计算一个目标函数,并且保证每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出其他任意一方的输入数据。
MPC是基于密码学的算法协议来实现隐私计算目的,可以看作多种密码学基础工具的综合应用,凡可用于实现多方安全计算的密码学算法都可以构成多方安全协议。除秘密共享、不经意传输、混淆电路等密码学经典计算协议外,同态加密、零知识证明等密码学算法都可以构成多方安全计算协议。为解决特定问题(如联合统计、联合查询、联合建模、联合预警等),不同的技术人员或公司有时会采用不同的算法设计多方安全协议,虽然都属于多方安全计算范畴,但技术性能和优劣势有所差异,需要结合问题具体分析。
MPC特点和优劣势如下:
- MPC具有很高的计算安全性,要求中间计算结果也不可泄露,经过大量学术界、工业界的检验,可信性很高。
- MPC技术包含复杂的密码学操作,计算开销大,性能损耗大;效能往往受到网络带宽、延迟等因素制约;采用硬件加速技术是提高性能的主要手段。
- 不同安全计算协议下的加密数据不互通,协议间兼容性不强。
从实际使用情况看,商用化落地程度较高、实用性较强的计算协议是秘密共享和同态加密。秘密共享计算效能比较高,应用产经范围广,但无法解决数据缺失值、非连续数据标签等问题,需要花费较大精力、按照一定标准进行事前数据加工准备。同态加密对数据不挑剔,但受限于计算因子数量,只能完成较为简单的计算操作,对于联合建模等复杂工程适用性不强,应用场景受到一定限制。除此以外的不经意传输常应用于隐私求交,零知识证明常见于结果验证。
联邦学习
联邦学习是一种新兴的人工智能基础技术,最早于2016年谷歌提出,后经香港科技大学和微众银行杨强教授团队扩展为B2B分布式联合建模架构,进而发展成为当前数据安全环境下不同机构间联合建模的主流技术。
联邦学习(Federated Learning,FL)的核心原理是:由每一个拥有数据源的机构训练一个模型,而后将各自模型相关信息(模型的权重更新和梯度信息)采取加密的方式反复交互优化,最终通过模型聚合得到一个全局模型。已训练好的联邦学习模型不共享,分别置于各参与方,在实际使用时共同配合形成预测。上述过程,每一个参与方拥有的数据都不会离开该参与方,其特点可以总结归纳为“数据不动模型动,数据可用不可见”。
根据参与方数据的特征空间和样本ID空间分布情况不同,联邦学习分别有三种方法予以适配:纵向联邦、横向联邦和杨强教授的联邦迁移学习。如各参与方数据特征是对齐的,但数据样本重合度不高,横向联邦学习较为适用;如各参与方数据样本是对齐的,但数据特征重合度不高,纵向联邦较为适用;如数据样本和数据特征重合度都不高,联邦迁移学习更为适用。
为增加联邦学习的安全性和隐私保护,多方安全计算、同态加密和差分隐私等保密算法也被融合进联邦学习,应用于防范重构攻击、模型反演攻击、成员推理攻击、特征推理攻击等安全事件。FL也与可信执行环境等硬件隐私计算技术结合进一步强化安全性。
FL特点和优劣势如下:
- 因联合建模而生,因此在多方复杂计算和预测场景中应用广泛。
- 最大优势是数据不出域,仅是模型计算信息交互,且同样运用多方安全等加密算法,市场接受度高。
- 各参与方服务器之间反复沟通对通信连接稳定性和带宽提出较高要求。
- 相较于明码交互下的模型效果略差;有时不同参与方数量不均的训练样本或数据间非独立同分布等情况,可能会导致模型效果偏差甚至训练失败。
- 恶意破坏建模会损害整个系统及模型性能,甚至深度参与方对梯度的恶意反推会带来隐私泄露风险。
可信执行环境
可信执行环境(Trusted Execution Environment,TEE),通过软硬件方法在中央处理器中构建一个安全区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。可信的中央处理器一般是指可信执行控制单元已被预置集成的商用CPU计算芯片,无法后置,因此,只有新研发的部分芯片支持TEE。目前主流的TEE技术以X86指令集架构的Inter SGX和ARM指令集架构的TrustZone为代表,国产芯片厂商如兆芯、海光、飞腾、鲲鹏起步稍晚,芯片处理性能略差。
TEE基础原理:将系统的硬件和软件资源划分为两个执行环境——可信执行环境和普通执行环境。两个环境是安全隔离的,有独立的内部数据通路和计算所需存储空间。普通执行环境的应用程序无法访问TEE,即使在TEE内部,多个应用的运行也是相互独立的,不能无授权而互访。
TEE特点和优劣势如下:
- 与MPC和FL纯软件的解决方案相比,TEE不会对隐私区域内的算法逻辑语言有可计算型方面的限制,支持更多的算子及复杂计算,可实现联合统计、联合查询、联合建模及预测等多种计算,业务表达性更强。
- 利用TEE计算度量功能,可实现身份、数据、算法全流程的计算一致性证明,解释性和逻辑可信度高。
- 支持多层次、高复杂度的算法逻辑实现,运算效率高。
- 硬件的可信度是中心化的,芯片设备厂商声誉及产品安全的可信度决定了技术路径的可信度。
- 基于国外芯片的TEE解决方案会遇到信创挑战,硬件的升级改造相比软件成本更高。
- 目前的TEE解决方案尚未完全解决侧信道攻击问题。
三条技术路径的分析与展望
一、三条技术路径的融合发展和综合运用是大势所趋
三条路径各有优势和擅长领域,现实中我们看到的大致趋势是:MPC较多运用于联合数据分析与统计、建模初期数据对齐与准备、联合查询与拒绝等数据策略应用等环节;FL在多方数据的深度交互与应用的联合建模环节占领主导地位,但出于安全保密需要大都结合MPC加密技术进行升级改造;而TEE为解决自身硬件安全问题也有必要与软件解决方案结合提高安全保护系数。从实操方面看,三者两两融合的产品应用形态已经出现。
没有绝对的数据安全,只有相对的数据安全。三条路径作为数据安全的防护和加强手段,始终伴随着攻击和破解手段的不断升级而自我革新与相互融合。实际上,三条技术路径只是很多加密算法和技术手段的汇总叫法,具体算法和技术都有公开论文甚至开源代码,之间的交叉应用对于专业人员来说门槛并不高,具体结合已经十分普遍。以至于Gartner(高德纳,全球最具权威的IT研究与顾问咨询公司)将集成三种技术路径组合运用的隐私增强计算(PET)列为2020年隐私技术成熟度曲线,并认为其构成了未来几年的一致性发展趋势。
二、行业呼吁技术互联互通,短期内多方集成是首选路径
技术互联互通主要是指各隐私计算厂家产品之间。虽然隐私计算能够融通数据孤岛问题,但是不同厂家之间、不同技术平台与路径之间由于相互不兼容,反而产生了技术孤岛问题。比如国内外知名的开源项目各自发展,互不兼容,不同厂家之间更是如此。因此,行业普遍呼吁技术互联互通。该项工作主要由信通院(中国信息通信研究院)下辖的“隐私计算联盟”牵头主导。
跨平台的技术互联互通当前主要解决各平台自治带来的异构性,如信任基础不一样(包括对管理方法的信任和对技术方法的信任),平台之间身份认证体系不统一,以及各平台使用的技术方案和计数原理不相同等。解决跨平台技术互通互联问题首先需要解决不同技术路径的行业技术标准问题,据了解,信通院已开始组织实施标准制定工作。
即便如此,行业的互通互联还存在合作意愿问题,应该是一个漫长的过程。短期内,针对需求方的现实可行的解决方案是多方集成。多方集成是指将多个产品解决方案集成于一处,为数据或模型需求方提供一体化解决方案,解决其因数据锁定技术路径或不同路径普遍尝试等带来的多头采购或重复采购问题。
多方集成有两个思路:一是云端集成,鉴于当前云市场主要厂商阿里系和腾讯系均有自研的隐私计算产品,因此是否开放集成,准许同台竞争存在未知,可以关注华为云的市场布局。二是硬件集成,由于技术融合出现硬件化的发展趋势使得硬件集成更具现实操作性,紧贴客户侧的软硬件集成厂商可以整合隐私计算产品于一套硬件设备,甚至可以整合产品界面进一步提升操作体验。多方集成孕育着巨大商业机会,可能成为隐私计算商用化的重大推手。
三、基于硬件的隐私计算发展赛道更加性感,理由如下:
- 从技术发展趋势判断,隐私计算终将走向软硬结合的发展道路。当下有两个趋势:一是受计算效率、性能等因素影响,MPC和FL出现加速硬件的解决方案;二是随着国产芯片性能的不断提升并支持可信环境协议,基于国产芯片的TEE解决方案已经出现,并必将因其理念易接受、计算效能高等特点在市场竞争力占领一席之地。
- 作为目前唯一的硬件解决方案,其与MPC和FL的技术融合和场景应用均不冲突,可以相互加强。
- 拓展了国产芯片的应用范围和产品生态,助力信创产业的振兴发展。
- 随着民众数据保护及维权意识的不断提高,基于物理设备终端计算的数据不出域将成为未来数据存储与使用的常态。而分布于海量终端的、分散的、高并发的“边缘计算+隐私计算”是可靠解决方案。这一方案是以终端设备硬件计算能力为依托的,这也正是TEE被广为看好的主要原因。
四、从行业应用看,数据传输的合规性改造是主要市场切入点
毋庸置疑,金融行业是目前数字化、商业化运行程度最高的行业之一。目前以数据模型驱动的线上风控、智能营销为主的三方大数据市场已经形成了百亿元的市场规模。《个人信息保护法》的出台对现有数据存储、使用、管理尤其是传输交互形态进行了重新定义,输出传输的合规化改造成为行业普遍痛点问题,亟需行之有效的解决方案。
除此以外,数据治理和数据中台建设是隐私计算的基础,隐私计算也可以融进数据治理项目或数据中台建设项目中,为数据需求方提供进一步解决方案。
五、数据源头厂商的覆盖度是隐私计算厂商的核心竞争力之一
数据传输涉及供给方和需求方,当前所有隐私计算技术方案均需进行数据治理并部署加密节点。因此,仅提供隐私计算加密解决方案无法满足需求方的全部需求,还需进一步引入可用数据源形成一站式解决方案。在此基础上,隐私计算安全性、计算效能、产品体验等产品性能固然是公司的核心竞争力,同时对可用数据源厂商的覆盖度,同样决定了隐私计算产品的可用性,是公司的同样重要的核心竞争力。
————————————
笔者个人公众号:高声谈,Inter-FinanceCow
邮箱:gaoshengtan2021@yeah.net
欢迎读者多交流!
本文转载自https://mp.weixin.qq.com/s/Ed_dmfH94IIhjpUiKz5mQA