隐私计算、多方计算、可信计算…… 一文概念全解析! _ 巴比特

本文由 简悦 SimpRead 转码, 原文地址 www.8btc.com

从产业角度来看,隐私计算生态已经开始布局。

数据作为新一代生产要素,蕴含的巨大价值得到逐步释放。但数据隐私及安全问题却日益凸显,用户数据隐私如何保护的问题亟待解决。隐私计算被视为解决此问题的 “关键之钥”,与之相关的多方计算、可信计算、联邦学习已在众多领域被探讨。这些概念究竟有何不同指代?又是如何实现数据的 “可用但不可见”?本文为你全解析!

“允许开启当前定位”

“需要访问您的照片”

“同步通讯簿联系人”……

“是” 或者 “否”

面对这些选项,人们如何做出的决策,不得而知。

但在互联网时代,这些提示并未引起警觉,数据泄露事件仍屡屡发生。 事实上,从提供服务的平台到使用服务的个人,似乎都已默认:享受免费服务,就应该提供数据。

但数据蛮荒时代,在隐私意识觉醒后终将了结;

信息技术带来的隐私问题,也终将交给新技术去解决。

一、关键之钥:隐私计算


隐私计算为信息隐私保护提供了重要的理论基础。这个概念虽然诞生时间不长,但其理论研究却有着相当的一段历史,并伴随着密码学各项基础理论的发展开始生根发芽。

根据中国信息通信研究院的定义,隐私计算是指在保证数据提供方不泄露敏感数据的前提下,对数据进行分析计算并能验证计算结果的信息技术

广义上是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流转的全生命周期,完成计算任务,使得数据在各个环节中 “可用但不可见”。

说的更通俗一些,就是在保证数据安全的前提下,让数据可以自由流通或共享,消除数据孤岛问题,从而释放更大的数据价值,提升生产效率,推进产业创新。

也正因此,隐私计算与区块链的结合,满足了更复杂多变的商业需求,特别是面向数据存证 / 确权 / 共享 / 交易的各类场景,实现从信息互联网到价值互联网的转变。

二、路径 Ⅰ:安全多方计算


由于隐私计算中所包含的技术多样性,不同的企业或者项目根据技术优势,会采用不同的技术路线来实现其应用目的。基于密码学的技术应用便是其中一类。

安全多方计算、同态加密、零知识证明等技术都是属于这一范畴。其核心思想是设计特殊的加密算法和协议,从而支持在加密数据之上(即不接触数据明文内容)直接进行计算,得到所需的计算结果。

我们曾经从百万富翁问题出发,详细地介绍过安全多方计算(MPC)如何实现参与各方在原始数据保留在各自本地的情况下,完成数据的协同分析,并产生正确的结果。

本质上,安全多方计算主要基于密码学的一类重要隐私计算技术,包括同态加密 (Homomorpgic Encryption),不经意传输(Oblivious Transfer),混淆电路(Garbled Circuit),秘密共享(Secret Sharing) 等。目前,MPC 已形成清晰的安全模型,具备可商用的技术基础。

三、路径 Ⅱ:可信计算


隐私计算的第二条路径,便是基于可信执行环境技术(Trusted Execution Environment)的可信计算,以 Intel 的 SGX,AMD 的 SEV,ARM 的 Trust Zone 等技术作为代表。

其核心思想是以可信硬件为载体,提供硬件级强安全隔离和通用计算环境,在完善的密码服务加持下形成 “密室”,数据仅在 “密室” 内才进行解密并计算,除此之外任何其他方法都无法接触到数据明文内容。数据在离开 “密室” 之前又会被自动加密,从而实现“可用不可见”。

在更大的可信计算领域中,可信计算基础(TCB)包含提供安全环境的计算系统中的所有内容,包括操作系统及其标准安全机制、计算机硬件、物理位置、网络资源和规定的程序。

例如,医疗设施的可信计算基础通常具有安全机制,对其临床信息数据库实施访问控制和用户身份验证。 在这里,安全机制将确保用于研究的任何记录不会保留足够的剩余信息以供识别个别患者。通信安全协议通常会管理在网络传输过程中对数据的访问,而备份等可用性控制将确保记录在发生盗窃或自然灾害时得到保护。

四、路径 Ⅲ:联邦学习


隐私计算发展的另外一个重要技术方向是联邦学习。

联邦学习本质上是一种分布式机器学习技术,或机器学习框架,其目标是在保证数据隐私安全及合法合规的基础上,进行数据联合训练,建立共享的机器学习模型

2017 年,谷歌的研究人员发表了一篇关于一项新技术的论文,他们希望这项新技术可以改善安卓手机上的数字键盘 Gboard 上的搜索建议。这是第一篇关于联邦学习的论文。 谷歌 AI 研究科学家 Brendan McMahan 和 Daniel Ramage 这样解释了第一个联邦学习用例:

当 Gboard 显示建议查询时,您的手机将在本地存储有关当前上下文以及您是否单击了建议的信息。联邦学习设备上历史过程,以改进下一个迭代的 Gboard 查询建议模型。

换句话说,通过边缘计算和机器学习的结合,联邦学习提供了一种无需在中央数据库中跟踪用户每一步移动就能不断改进全局查询建议模型的方法。它让谷歌简化了它的数据收集过程——考虑到 Android 操作系统的 20 多亿活跃用户,这是必不可少的。

随着技术的发展,联邦学习可被分为横向联邦学习与纵向联邦学习。横向联邦学习, 即当两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(既用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。如两家不同地区的银行,联合建模以扩充样本集。

然而,我们在训练的算法时,它不像数学平均数那么简单,因为每个机构的数据集在规模、基本人口统计数据和其他因素方面都是不同的。

因此,当两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(既特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法被称之为纵向联邦学习比如某一地区的银行及电商需要联合建模。

总之,像许多创新一样,隐私问题也随着信息技术的发展而共同发展。未来在隐私性和便利性之间定会达到平衡。从产业角度来看,隐私计算生态已经开始布局,我们下期再约。