上世纪 80 年代,著名的未来学家阿尔文·托夫勒在他的《第三次浪潮》一书中称赞大数据为「第三次浪潮的华彩乐章」。

约从 2009 年开始,「大数据」才成为互联网信息技术行业的流行词汇。根据监测统计,2017 年全球的数据总量为 21.6ZB (1 个 ZB 等于十万亿亿字节),目前全球数据的增长速度在每年 40% 左右,预计到 2020 年全球的数据总量将达到 40ZB。2017 年我国大数据总产值达到 3700 亿元。

作者:唐虹刚(零虚子),PlatON CIO,前阿里巴巴投资总监、系统架构师。曾任百度移动系统部架构师、摩托罗拉系统架构师、清华同方部门经理

「三权分立」的新大数据时代,隐私计算成为制胜关键

传统大数据

我们说传统大数据一般指的是类似于 BAT 这样的互联网巨头,他们搜集了海量的用户相关数据和业务相关数据 . 也有传统的工业化企业,比如化工、生物制药、医院等他们长期在垂直行业耕耘,积累了海量的行业细分领域的数据。

随着大数据的发展,数据量越来越多,我们大量精力关注在大数据收集、存储、处理的技术上。配合处理技术,我们的硬件也得到了长足发展,从 CPU、GPU,再到 TPU 等异构计算硬件。数据处理的成本单价在快速下降,同时数据处理的技术架构也在快速成熟,并广泛应用到各个行业。

传统大数据的计算相对来说比较封闭。传统大数据公司使用现有的计算处理框架,在有限的数据上进行封闭地运算。虽然没有隐私相关的问题,但同时也面临数据收集、处理成本升高和必要数据不足的问题。比如在自动驾驶领域,没有任何一家公司能将所有的边缘 case 收集完整。

各国在交通领域的法律法规不尽相同,道路的状况也不尽相同。例如在欧美,道路相对来说标线清晰,车辆行人比较守法。而在中国有大量的二三线城市,道路条件相对较差,甚至没有明显的标线,道路上行人车辆各行其是。欧美厂商开发的自动驾驶系统,在中国的道路条件下适用变得非常困难也难以保障安全。加上法律的要求,交通数据属于敏感数据,很难将中国的交通数据直接共享给国外厂商使用。

孙立林曾经提出全数字化世界面临的最大挑战是:盲人摸象,当前没有机构能够掌握全面数据,数据使用方需要向多个机构获取多维度数据,而各个机构又不愿透露过多的数据给数据使用方。敏感隐私数据难以商业化的现象,也加剧了很多人工智能企业可用数据匮乏的问题。

随着大量数据的收集,数据存储和处理成本越来越高,而在数据量不断增加的情况下,数据量带来的单位价值并没有显著增加。同时很多数据本身含有大量隐私信息,并不便于进行市场化和货币化。

尤其是随着全球各国政府对隐私保护力度的加强,这些含有隐私的敏感数据的市场化将变得更加困难。特别需要关注的是,今年 5 月被称为「史上最严格的个人数据保护条例」的欧盟 GDPR 正式生效。GDPR 对企业违法行为的惩处力度非常大,行为轻微的要罚款 1000 万欧元或全年营收的 2%(两者取最高值),行为严重的则要罚款 2000 万欧元或全年营收的 4%(两者取最高值)。这意味着未来企业在隐私数据上的违规成本极大提高,如果被罚款,甚至会威胁到企业的生存。

传统的大数据处理技术,在处理隐私方面有天然缺陷。很多大数据处理的框架和技术,从开始设计并没有考虑对数据隐私进行保护,更没考虑如何让敏感数据被第三方使用。传统大数据处理基本都是基于明文的处理,如果这些数据含有敏感信息,只能限于内部使用,很难将其用于第三方从而获得更多的收益。

在商业模式越来越开放,变化越来越快的今天,大数据处理参与方也越来越多,有数据生产者、数据传输通道提供者、数据存储提供方、云计算能力提供方等等,这也致使数据泄露的风险急剧增加。研究新型敏感信息处理技术是保护数据隐私的根本有效办法。

敏感有价值数据的泄露将导致企业产生重大的损失,很多企业并不敢也不放心将核心的敏感数据存储到外面的云存储上,往往都是存放在企业内部的私有云上。比如说生物制药公司的海量化合物数据库,基因检测公司的基因数据库等。

如何才能将企业有价值的敏感数据,在市场上进行低成本、低风险、且合规地变现,使其产生更大的价值,以平衡收集、存储数据带来的巨大开销,是所有传统大数据公司都要面对的问题,也是未来大数据发展的重要方向。

我们将过去以企业作为计算和价值边界的大数据叫做传统大数据,它的特点是以企业为核心进行采集、存储和计算,特别是一些隐私信息数据非常难进行变现。如果要将其变现,也要经过复杂的手段和方法来进行,通常办法是先签署包含复杂免责条款的协议,然后再进行复杂的数据处理,再通过十分复杂的审批手续及技术处理手段来进行数据交易。这就造成了数据变现成本非常高,数据流失风险不可控,甚至在新的法规下面变得不可行。

「三权分立」的新大数据时代,隐私计算成为制胜关键

新大数据

而新大数据包含隐私大数据,结合传统大数据形成一个完整的商业闭环。在此大数据框架下,可以使用全社会全量的所有数据,将数据的全部价值进行安全的计算发掘,拥有常规数据和敏感隐私数据的企业和个人,都将参与到一个统一的无边界计算框架下,有效地解决数据的边界问题和隐私保护问题,同时满足法律法规要求。

新大数据时代的特点是数据的使用成本更低,隐私保护更加完善,具有良好的合规性。尤其在人工智能应用对海量数据需求方面,解决了企业用传统方法难以获取有法令限制且有高价值的敏感数据的难题。

「三权分立」的新大数据时代,隐私计算成为制胜关键

新大数据处理方法论也将发生根本性改变,从原来的有边界的可信计算逐渐演化为没有边界的隐私计算,数据即从原来有限的数据集,拓展到无限的包含全量数据的数据池。数据计算的方法也从传统的封闭式处理转化成多方安全协作计算。新大数据时代对传统大数据时代处理的软件技术、硬件及框架都提出了全新的要求。

孙立林此前提出用「数据三权分立」来解决这一挑战。在数据所有方和使用方之间加入数据执行方,运用安全多方计算在保障数据所有方数据不被泄露的前提下,让数据使用方仍能全面使用这些数据。

「三权分立」的新大数据时代,隐私计算成为制胜关键

目前 MPC(安全多方计算)、HE(同态加密)、VC(可验证计算)、SS(秘密分享) 等密码学方法,正在快速的被企业所接受并运用到大数据处理上,特别是敏感隐私大数据处理上。

MPC 顾名思义就是多方进行安全的联合计算 , 该协议通过密码学的方法将输入的数据进行加密变换 , 同时将算法本身进行变换,从而保护数据的隐私性。同态加密可以将数据事先进行加密,然后在加密的数据上进行计算。而传统的 AES 等算法并没有这种特性。可验证计算可以实现将计算外包给第三方进行计算,然后进行快速地验证结果的正确性。秘密分享可以将秘密(隐私、密钥等)安全地进行拆分和恢复。

这些技术的综合应用,极大地加快了新大数据时代的到来,正在成为新大数据时代的发动机,有效地降低了企业敏感信息保护及法律风险,提升了企业敏感数据变现能力,进而推动企业效益的提升。

隐私计算应用

比如现在医药市场上进行一款原创新药的研发,基本的投资规模要达到 10 亿美金以上 , 并且要经历长达数年的研发过程 , 有一些药甚至需要长达几十年的研发期。比如青霉素、阿司匹林等。

近年来,以深度学习为核心的人工智能得到了长足的发展,并且在医药领域也有了很好的应用,比如医疗影像、结构筛选等。影像数据对医院来说是最敏感又有价值的资产,如果没有相应的隐私保护措施非常难以进行商业化。我们可以通过应用隐私计算技术把它用于医疗影像人工智能系统的训练,从而实现商业化的利用。

「三权分立」的新大数据时代,隐私计算成为制胜关键

当今世界上著名的药物研发公司都有大量的苗头化合物和先导化合物的结构库 , 通常这些数据库包含百万级到千万级的化合物结构。从靶点确认到苗头化合物筛选,再到先导化合物的筛选,之后候选化合物的确定,需要大量的结构模拟计算和实验。

在这个过程中我们可以利用隐私计算技术帮助多家药物研发公司的私有数据库进行联合结构计算 , 提高有效结构发现概率,全面降低筛选风险,大大缩短苗头化合物和先导化合物的筛选过程,降低前期候选化合物的发现成本和时间,同时也降低了整个社会新药研发的成本和时间。

「三权分立」的新大数据时代,隐私计算成为制胜关键

隐私计算不仅可以用于医疗、制药,还可以用于更加广泛的行业,比如汽车、金融、保险、物联网等。将隐私大数据进行市场化,将开拓出非常广阔的隐私大数据计算市场,规模甚至不亚于现有的大数据计算市场,同时这也是对现有大数据市场的有力补充。

「三权分立」的新大数据时代,隐私计算成为制胜关键

新大数据市场整体规模将达到万亿每年,隐私计算大数据技术也将扩展到各个垂直细分领域。尤其是近年来 Google、Facebook 等公司接二连三发生数据泄露事件,欧洲落地 GDPR 数据保护条例,其它各国政府也正在积极地强力推进隐私保护的相关法律法规,可以预见将来隐私计算市场上会形成加速增长的态势。

越来越严格的隐私保护法律法规下,运用传统大数据技术开展业务的企业,业务运行的风险也将越来越高,快速适应技术的变革,运用新的技术开展业务 , 将成为企业的核心竞争力之一。