「數據融合基礎設施」設計要基於可管控、可計算、可驗證和可度量的理念。

演講:孫立林,矩陣元創始人兼首席執行官

10 月 27 日,由萬向區塊鏈實驗室主辦的第六屆區塊鏈全球峯會在上海開幕。矩陣元創始人兼首席執行官孫立林發表主題爲「安全多方計算與數據融合基礎設施」的演講,分享安全多方計算在商業領域的拓展和應用。以下爲演講全文:

矩陣元孫立林:探討安全多方計算與數據融合基礎設施設計理念


大家好!

非常有幸第六次在萬向區塊鏈峯會上給大家進行報告,2015 年在不到 30 平米的會議室裏擠了 60 多個人討論區塊鏈如何解決金融基礎設施支付清算問題。2016 年開始認真研究區塊鏈底層;2017 年第一次在峯會上提出了 MPC 可以進入商用,舉辦了第一次隱私計算的分論壇。2018 年在舞臺上有一個圓桌,當時和比特大陸的吳忌寒有很好的對話,當時他問我多方安全計算很好,但是你認爲需要多久?我當時的回答是如果進行大規模商用需要五年的時間。

去年在舞臺上給大家介紹了物聯網和區塊鏈的結合,今天我想給大家彙報一下如何理解隱私計算、區塊鏈以及數據融合基礎設施。

很高興今年有非常多公司、機構、政府,包括前端人民銀行範行長都提到了「安全多方計算」MPC,到底隱私計算能夠發揮什麼價值?和安全多方計算有什麼關係?

MPC 的本質是多方計算,大家看到的零知識證明、同態等其他算法,廣義上都可以看作是 MPC 的一種,而狹義的 MPC 是特地構造的場景。無論是區塊鏈還是隱私計算,本質上都是多方計算。未來的數字融合基礎設施正在基於多方計算構造的。

這是我們對整個事情的理解,多方計算帶來的變化是把過去 20 年大家習慣的數據互聯網變成了計算互聯網。在今天大家所習慣的互聯網公司主導的時代,所有數據被全量、分量地遷移到雲端,數據被遷移了,這件事情會導致隱私得不到保護,數據也不可能成爲資產。

互聯網公司利用了數據,不僅剝奪了數據自然權利,也謀求了暴利。在美國 Facebook 被罰了將近 50 億美元;Google 被 11 個州提出了反壟斷訴訟。實際上,都是針對數據壟斷來的。

而在我們構造的安全多方計算前提下變化來了,數據留在本地,計算髮生了遷移,計算從遠端、對端到數據端來算,不僅看不到數據、拿不走數據,甚至看不到數據的計算過程。

有一個很簡單的原理證明現有的和聯網難以維繫了,全量數據越來越大,負擔不起大規模的網絡傳輸、成本,只能在本地處理。

我們不能泛泛地強調數據的個人屬性,很難證明幾乎所有數據都完備地屬於你個人,當物理生命站在舞臺上的時候這個時間我只在這裏,可是數字生命不是。各位聽我報告的時候可能還在看微信,你的 ID 可能投射在微信裏,可能你還在大衆點評找喫飯的地方,你的另外一個 ID 投射在大衆點評裏。實際上我們已經被離散化了。

這時候,很多數據資產和具體的場景和應用有關,數據的公共屬性非常非常強,而絕大多數個體、機構沒有能力提供完備的數據存儲、安全保護、計算能力,這意味着在未來相當長的時間裏,絕大多數人和機構仍然會選擇數據處理的代理方、代理人,代理人會在受託的情況下處理數據,按照承諾和契約對密態下的數據進行計算,分取相應的利潤,類似於今天房產中介、投行類服務。

數據本身是不可被定價的,可以被定價、可以被交易的不是數據,而是數據的可計算部分、可計算價值,只有可以被算法計算的部分纔有意義可以被計算估值、評級、定價、交易,不能簡單地理解這件事情。

今年新基建以後所有人都在提新的基礎設施,但我想這沒有那麼容易,雖然今年有特別多朋友進入了隱私計算、數據融合的賽道和戰場。

上位法還沒有完全確立,大家看到了個人信息保護法的文本,還有密碼法、網絡安全法等 3-5 個上位法都會從不同的角度約定數據的權益和大家如何使用它。上位法在法律上的數據權屬沒有確定之前,每個行業的監管都是非常謹慎的,所以人民銀行纔有金融數據中心、徵信中心的佈局,出現大量的沙河。

去年之前真的沒有太多人聽得懂我們在說什麼,今年大量的金融機構找到我們要做隱私計算,要對數據進行安全處理。所以合規性非常重要,今天的數據格式化、標準化在沒有得到完備處理之前,基本傾向於認爲只有金融行業相對可處理,其他的醫療、政務往往面對的問題是數據質量非常不夠的,很難被算法所處理,工作量太大了。類似於大家說的「人工智能」和「工人智能」的關係。

今天絕大多數人都還在第一階段——技術問題,技術問題的難度遠遠超出大家的想象。

全生命週期是非常常用的說法,一定是從入口出現的,無論是 IOT 還是 IUOT,最後我們理解區塊鏈和隱私計算作爲多方計算不同層面的基礎設施組件,就是把數據當成了資產,本質上是新時代的金融基礎設施,幾乎可以對應到今天銀行的存貸匯業務處理交易。

非常感謝 2017 年參與了人民銀行數字銀行研究所密碼課題的工作,當時央行領導提出的理念我們一直在推進,不僅是對數字貨幣,對數據也是一樣的概念。當我們分析問題的時候,在真正新基建時代的根本矛盾是什麼?這個概念從 2017 年就在提,總結爲三個矛盾:

(1)個體隱私 Vs 中心監管。

我們認爲絕大多數的機構和個體需要在國家、政府發放的持牌機構進行完備的強實名身份註冊。與此相對應的是你只要在這個地方註冊了,沒有必要在其他對等的商業實體做註冊,這是今天各位遇到的問題,只要你頭天買了一雙鞋抖音會天天給你推鞋,沒有人願意看到這種問題。解決方案是通過持牌業務解決,解決的問題叫做「數字時代的身份註冊中心」,解決的是分佈式身份問題。
今天在座各位的身份證時代已經過去了,ID 分佈在常用的 app 裏,像滴滴、微信、美團等,用不同的身份組成了分佈式的數字化的我們。

(2)交易隱私 Vs 登記確權。

不僅在過去的四年裏沒有得到改變,而且愈演愈烈,今天的互聯網公司不僅拿走了身份信息,也拿走了交易信息,把所有交易託管在他的平臺上,按照金融監管的邏輯,這件事情應該被分拆的。不管是科技公司還是互聯網公司,不可以既處理我的數據又處理我的身份又處理我的交易,這是不可以的,應該完全被分拆。這樣才能實現分佈式的用戶畫像,美團、滴滴、支付寶、微信都只知道你的一部分,怎麼有完備的用戶畫像給金融機構、政府?讓你需要的時候對你進行相對精準的刻劃,刻劃是付出一部分數據的可計算部分。由對手方計算你,當然一定是在密文密態下來做的。

(3)數據隱私 Vs 協同計算。

不論是銀政寶還是政府大數據中心還是各個委辦局都不太願意把數據拿出來交給大數據中心或單一的數字機構,唯一的辦法就是通過廣義的 MPC 多方計算來處理問題。

這三個步驟已經非常清楚了,從分佈式身份——分佈式用戶畫像——分佈式信用體系。

在物理世界只知道你的名字和身份證號,但是在數字世界裏沒有人可以這樣識別你是完備的混成的松偶合的系統。

今年去年和各地政府交流過程中建議充足今天的數據治理架構,按照新的架構解耦原有的數據交易平臺,這是對城市、國家數據治理非常大的改變,相信這幾乎是唯一的道路。

要做數據要素的「超級清算方」,首先有數據入口,要解決數據質量的問題,規模、質量、數據標籤很複雜,不完全是技術問題,除了從物聯網、工業互聯網的入口拿到數據外,更多靠手工、大量人力來處理。

第二是數據交換網絡,區塊鏈本質是數據交換網絡,交換網絡裏可能解決的問題是區塊鏈是公共基礎設施。我個人觀點不認爲把所有的交易都放在一條鏈上是正確的選擇,這是難以爲系的。大額的小額的、高頻的低頻的性能是不同的,沒有必要放在一條鏈上,而是類似於以太坊這種全球性的區塊鏈系統能夠成爲公共基礎設施,就像 TCPIP 一樣,在以太坊上長出具體的機構間交易平臺,具體的場景是在具體的鏈上實現的,在業務鏈上實現業務,而非完全堆到一條鏈上。

光有鏈沒有用,我特別同意 Vitalik 的觀點,過去這麼多年一直有人問我區塊鏈有什麼用?爲什麼有區塊鏈?有什麼殺手問題?我通常不回答這個問題,區塊鏈本身就是金融基礎設施,就是全身的物種,用或者不用,沒有第三個選項,也不用問我好用不好用。

第三是協同計算,當鏈提供了支付清算高度交互的平臺後就會出現計算,我個人的理解是不能泛泛地說信任 Trust 意味着什麼,很多信徒都會說區塊鏈是信任網絡,這不夠精準,我的定義是可度量的制度性的交易成本。

比如說銀聯,銀聯網絡的制度性交易成本可以簡單地理解牌照成本加上銀聯每人的收入,這都是度量的成本,什麼是信任?持牌以後信任你,怎麼度量成本?就是每年網絡產生的成本和費用。

列舉了三件事情:可驗證的安全性、可持續的經濟模型、可度量的制度性交易成本。在基礎上再做隱私計算、分佈式 AI 數據進行處理。

毫無疑問金融行業是最主流的應用,數據最標準化、需求最強烈、合規性要求最高,最有錢。很意外地看到在廣告營銷互聯網領域的需求非常劇烈,在跟大量大數據合作過程中發現即便是最基本的標籤業務在排名前十名的大數據公司裏,每天的標籤交換超過了百億筆。即便是微信支付也不過是十萬億筆。什麼叫數據時代?看量就可以了,足夠的量才能證明時代的到來。最近在配合公安部進行反詐的業務,今天社會在反詐業務上遇到的挑戰已經超出了大家的想象。

我們跟很多醫院在做合作,坦率說數據標準化還做不到這麼完備。

「數據融合基礎設施」有基本的設計理念,今天的合規不完備、立法不完備、商業模式不完備、技術不成熟的時候基於什麼理念構造基礎設施?四個概念:

(1)可管控的新的底層技術。

比如說以太坊鏈上不能支持 KYC 和反洗錢的,金融機構很難用,纔會有新的業務鏈出現解決問題。

(2)可驗證。

科學的問題是可證僞的,但這句話不準確,更準確的話是系統每一步都可驗證。如果大家對區塊鏈有所瞭解的話就是可驗證的系統,出塊的過程都是可驗證的,包括將來基於數據的多方計算和隱私計算的處理都是可驗證的。

(3)可計算。

如果數據沒有可計算的價值,那數據就沒有價值,好比別人挖出了黃金,而你挖出了一堆石頭,這是完全不一樣的,並不代表數據量越大越有價值,而是可計算部分越有價值才能更體現數據本體的原生成本和效益。

(4)可度量。

一定要創生出一套新的定價和激勵模式來處理,所以我們用了大量的新技術,很多還不成熟,像 VC 可驗證計算是非常複雜的。

基於這四個原則,矩陣元希望成爲技術運營部分,接入大量數據。但在網絡裏還需要有準入、交易、支付、清算、權益分配。我們和政府部門、國家機構在探討的時候提出了一個概念——貢獻度。各個委辦局、各個軍工種、各個行業都提供數據的時候怎麼算功勞?我怎麼知道我貢獻的算多少?這件事情要有權益的分配和定價基準,用區塊鏈來做密態下基於合約的清算是非常有價值的,不能泛泛地說隱私計算+區塊鏈就可以做生意了,這是不對的。

數據價值體現還是要依賴生態系統出現,所以有比較長的過程。

這是基礎設施的技術架構,從最底層做硬件、密碼學技術,往上有聯盟鏈系統。最近在電子標準院的檢測驗證上 PlatONE 的 99 條標準通過了 93 項,另外 6 項是純業務,我們沒有進入具體的業務場景。93 項場景非常細,感謝標準院的支持。但遠遠不夠,從實際經驗來看至少還有 100 項標準沒有被測試。

從上到下的技術站是非常非常燒錢的,如果沒有足夠長期視野投入,沒有足夠耐心等待這件事情就不會有好的結果,它不是可以一蹴而就的事情。

老朋友都知道從 2017 年進入 MPC 領域,感謝戰友和股東們的信任,我們一直在這個戰場持續地投入科研。最近在某家金融基礎設施機構的測試裏,MPC 性能遠超所有同行業是,幾乎超過了 20 倍以上,在特定的業務場景超過 500 到 600 倍,以至於他們很經驗你的優勢過於明顯是不是假的?其實沒有真的假的,就是你要持續不斷地投入,如果只是拿開源代碼來改很難改出效果,就是從編譯器重新重寫,並且過程非常複雜。我們很鑑定地相信開源理念,所有的代碼、技術架構都是開源的。

最近在和 Google 進行非常好的探討,做的最重要的工作之一就是把系統完全拆掉,重構了系統讓所有 AI 的開發者可以完備地使用密態安全多方的系統、使用隱私計算。

技術前進是有過程的,早期的 3-5 年非常慢,一旦過了拐點加速會超出我個人的想象。希望跟大家分享我們對數據融合基礎設施的理解和實踐,供大家參考。

2016 年定的公司 Slogan 是「爲了數據的流動」,希望給各位一點點的啓發和幫助,也希望跟大家開展各種合作,謝謝大家!