安全多方計算可以應用到金融、保險黑名單安全查詢,營銷轉化率計算,以及多維度風控模型等場景。

原文標題:《隱私計算:讓數據成爲信息時代的生產要素》
撰文:Felix Xu,ARPA 聯合創始人 & CEO

數據是現代商業與個人的核心價值與重要資產。數據正在重新塑造人類生活的方方面面,IDC Research 統計 2019 年大數據和分析市場的銷售收入約爲 1870 億美元。跨機構、跨行業的數據融合、聯合分析和建模的需求日趨增加。

但由於數據本身可複製,易傳播,一經分享無法追蹤,數據資產的確權困難,商業化被嚴重製約。在傳統大數據分析中,數據的集中化收集容易導致隱私信息泄露等風險。 私有化部署則需要開發人員現場部署模型於數據源的服務器上,耗時耗力,且算法也存在泄露隱患。

此外,數據隱私監管日益加強,中央出臺了《關於構建更加完善的要素市場化配置體制機制的意見》,首次將數據納入生產要素。2019 年下半年,監管部門則密集出臺了《數據安全管理辦法》、《App 違法違規收集使用個人信息行爲認定方法》、《個人金融信息(數據)保護試行辦法》等多項徵求意見稿及草案。

針對數據共享面臨的問題,筆者認爲隱私計算技術可爲業界提供新思路,賦能數據確權並實現數據「可用但不可見」。設想參與數據分析的各方,互相看不到數據,但是可以共同做分析甚至訓練模型,將最終結果發送給數據付費方,即可杜絕數據泄漏的風險。目前安全多方計算、聯邦學習等隱私計算技術逐步走向成熟,在涉及用戶隱私數據的金融、醫療、政務等領域中,讓機構間的數據合作成爲可能。

而隱私計算與區塊鏈技術的結合,既能保證輸入數據可信,亦可隱藏運算過程,可謂魚和熊掌兼得。本文中筆者將簡單介紹安全多方計算的原理,並拋磚引玉介紹潛在應用

安全多方計算(Secure Multi-Party Computation, MPC)技術,亦稱安全計算(Secure Computation)和隱私保護計算(Privacy-Preserving Computation)。安全多方計算是當今密碼學的一個重要分支,是繼成熟解決數據加密存儲、傳輸之後的重要嘗試,在密文數據上直接構建運算。

具體而言,安全多方計算由 n 個互相不信任的參與方進行,聯合對一個協商確定的函數進行計算,能夠保證參與方的隱私輸入數據 x1,x2,···,xn 無法被其他參與方獲得。姚期智院士 (Andrew C.Yao) 於 1982 年發表的文章「 Protocols for Secure Computation」首次提出姚氏百萬富翁問題和安全多方計算的概念。這個有趣的問題是, 兩個百萬富翁希望知道誰更富有,但是不希望對方或第三方知道自己的財富值。

之後 Goldreich,Micali 和 Widgerson 等密碼學家將這個問題一般化成爲現在的安全多方計算問題。此後該領域內學術研究和商業應用蓬勃發展,如今安全多方計算協議是多種密碼協議的組合, 如同態加密、零知識證明、祕密分享等。

近 10 年來,密碼學界對安全多方計算的探索有了長足的發展,筆者在實踐中發現一些特定協議的計算效率已經達到商用程度。 與區塊鏈類似,安全多方計算同樣存在「不可能三角」, 需要在安全性,通用性,計算效率這三點之間權衡。工業界,如 ARPA,根據不同場景優化協議使之滿足商業需求。

五分鐘簡析安全多方計算 MPC 原理與企業應用

當今使用的安全多方計算技術按底層技術分爲兩個分支,基於混淆電路(Garbled Circuit)的與基於祕密分享(Secret Sharing)。 混淆電路與不經意傳輸(Oblivious Transfer)爲姚期智院士提出的安全計算技術路徑

簡單來講,基於混淆電路的協議更適用於兩方邏輯運算,通訊輪數固定,但是拓展性稍差。另一類基於祕密分享的安全多方計算中,數據輸入和計算中間值都會以「密文分片」的方式存在。 祕密分享技術可以把隱私數據切割爲 2 份或更多份後,將隨機分片分發給計算參與方,這個過程保護了數據隱私又允許多方聯合對數據進行計算。 之後,就可以利用分片間存在的同態計算性質來實現在分片上計算並重建得到隱私數據計算結果。

基於祕密分享的安全多方計算目前主要由歐洲密碼學界主導,如 Smart, Damgard 等密碼學家,其拓展性較強, 理論上支持無限多方參與計算,計算效率高,但通訊負載較大。

五分鐘簡析安全多方計算 MPC 原理與企業應用

隱私計算正在逐步被應用於金融和保險風控、OTC 交易、資產管理、互聯網營銷等領域。同時作爲一項前沿技術,隱私計算的從業者在積極推動技術的標準化工作。

2019 年 6 月,工信部直屬單位中國信息通信研究院正式發佈《基於安全多方計算的數據流通產品技術要求與測試方法》行業標準, ARPA、阿里巴巴、螞蟻金服、百度等企業參與制定。國際上,IEEE 安全多方計算國際標準的制定和 MPC Alliance 企業聯盟的建立也預示着隱私計算從學術界向工業界的拓展。筆者接下來分享幾個值得探索的隱私計算應用場景

金融、保險黑名單安全查詢

黑名單主要用於記錄個人或企業客戶的不良行爲。每個機構都會維護多種業務的黑名單,從小型商業公司到跨國機構,從金融交易到信用記錄。機構之間的黑名單共享和查詢有助於幫助機構規避風險,如多頭借貸、多頭騙保等,然而對於黑名單的明文共享既危害用戶隱私也泄露商業機密。利用隱私計算進行的黑名單查詢可以在保護隱私的情況下降低機構風險。這類計算需要對比兩組列表並找出其中重合的部分,這個過程應能保證參與方無法獲得除結果外的信息,並可以規避被查詢方獲得查詢條件。

營銷轉化率計算

轉化率計算這類數據共享問題即「隱私交集問題」。兩家公司分別持有自己業務範圍內活躍用戶數據集,一方擁有與第一個活動相關的用戶列表,例如在互聯網上查看廣告的用戶,另一方擁有在第二個活動中進行過交易的用戶列表,例如購買過廣告商品的用戶,以及與每個用戶關聯的數值(比如該用戶的支出)。

其中一方希望瞭解他們共有的用戶數量以及相關數值的總和,而並不希望分享更多的數據 。例如,廣告主希望知道「三十歲一下的男性消費總和是多少」,可以通過隱私計算在不共享數據和查詢條件的情況下獲得交集,計算轉化率等指標。

多維度風控模型

目前信貸風控需要通過多個數據源採集數據,進行決策樹、邏輯迴歸、隨機森林等運算。從 2019 年下半年開始,國家對非法採集販賣個人隱私數據的大數據公司進行了整頓,原始數據愈加難以獲得。

隱私計算可以合規的鏈接同業和異業公司,組成數據聯盟,在各方輸入數據不泄露前提下進行分佈式模型推斷或者訓練,有效降低多頭信貸、欺詐等風險 。同時風控模型的參數在計算中亦不會暴露,保護了模型提供方的知識產權。

五分鐘簡析安全多方計算 MPC 原理與企業應用

結語

信息時代的大廈建立在數據的地基上,隱私計算即爲這座大廈的電梯。筆者認爲隱私計算目前在我國的仍處於萌芽階段,可以預見的是隨着國家對隱私數據監管的加強,企業於個人對自身數據價值重視程度的提高,隱私計算將在 2020-2030 年實現爆炸式增長,甚至有望從零發展到數據共享的技術基礎設施。

目前隱私計算行業既有螞蟻金服、百度、微衆銀行等大企業,也有 ARPA、華控清交等具有技術實力的創業企業,以及中國信息通信研究院、央行等國家研究機構。未來發展如何,讓我們拭目以待!