數據產權界定是數據要素有效配置的基礎,區塊鏈技術用於數據存證和使用授權可以在數據產權界定中發揮重大作用。

原文標題:《鄒傳偉:對數據要素的特徵、價值和配置機制的初步研究 | 雲圖思潮》
撰文: 鄒傳偉,萬向區塊鏈與 PlatON 首席經濟學家
來源:PlatON

中共中央、國務院《關於構建更加完善的要素市場化配置體制機制的意見》首次將數據列爲要素之一。本文由萬向區塊鏈、PlatON 首席經濟學家鄒傳偉博士撰寫,主要結論是:數據是一個複雜概念,有多種類型和豐富特徵。對數據的理解離不開對信息和知識等相關概念的辨析,可以在 DIKW 模型的框架下進行。從數據中提煉出信息、知識和智慧,能幫助個人更好做出決策並提高效應,在宏觀上促進經濟增長,這是數據價值的體現。

但很多數據屬於公共產品或準公共產品,數據價值缺乏客觀計量標準,使得數據要素有多種配置機制。市場化配置不等於市場交易模式。數據產權界定是數據要素有效配置的基礎,可以通過密碼學、區塊鏈和制度設計來實施。對個人數據,控制權和隱私保護的重要性超過所有權。

鄒傳偉:對數據要素的特徵、價值和配置機制的初步研究 | 雲圖思潮

2020 年 4 月 9 日,中共中央、國務院發佈《關於構建更加完善的要素市場化配置體制機制的意見》,首次將數據與土地、勞動力、資本、技術等傳統要素並列爲要素之一,提出要加快培育數據要素市場,包括推進政府數據開放共享、提升社會數據資源價值和加強數據資源整合和安全保護等三方面工作。

數據作爲要素是一個新命題,有大量前沿問題需要研究。在文獻中,相關問題歸屬於數據經濟(Data Economy)範疇。數據經濟指數據收集、組織、使用、分享、流轉和管理等活動組成的經濟生態。

德勤和阿里研究院(2019)認爲數據資產不完全符合會計準則中對於「資產」及「無形資產」的定義。劍橋大學研究報告《數據的價值》(BIPP,2020)對數據經濟的理論、實踐和政策問題進行了全面綜述。李小加(2020)提出組建數據要素產業化聯盟,梳理數據經濟中八方面的重要問題。於施洋等(2020)分析了我國深化數據要素市場化配置面臨的挑戰,提出搭建公共平臺、完善市場條件、研究配套政策、推動協同聯動、優化市場結構等方面政策建議。但從國內外研究來看,數據經濟是一個方興未艾的領域,而且學術研究略顯落後於行業和監管實踐,有不少新概念、新問題和新機制值得梳理。

本文對以下三個問題進行了初步探討:第一,數據要素有哪些重要的技術和經濟學特徵?第二,數據價值的內涵和計量方法;第三,數據要素的配置機制

數據要素的技術和經濟學特徵

數據的技術特徵

什麼是數據?與通常認爲的不同,這是信息科學中一個基本但複雜的問題,沒有顯而易見的答案。對數據的理解離不開對信息和知識等相關概念的辨析。Ackoff (1989)提出了 DIKW 模型(圖 1),D 指數據(Data),I 指信息(Information),K 指知識(Knowledge),W 指智慧(Wisdom)。DIKW 模型在信息管理、信息系統和知識管理等領域有廣泛使用,不同研究者從不同角度給出不同解釋,Rowley (2007)進行了綜述。本文不深入討論 DIKW 模型,只在 Rowley (2007)的基礎上梳理數據的技術特徵中與經濟學分析最相關的部分。

鄒傳偉:對數據要素的特徵、價值和配置機制的初步研究 | 雲圖思潮圖 1:DIKW 模型

第一,智慧、知識、信息和數據之間依次存在從窄口徑到寬口徑的從屬關係。從數據中可以提取出信息,從信息中可以總結出知識,從知識中可以昇華出智慧。這些提取、總結和昇華都不是簡單的機械過程,依靠不同方法論和額外輸入(比如應用場景和相關學科的背景知識)。因此,信息、知識和智慧儘管也屬於數據的範疇,卻是「更高階」的數據。

第二,數據是觀察的產物。觀察對象包括物體、個人、機構、事件以及它們所處環境等。觀察是基於一系列視角、方法和工具進行的,並伴隨着相應的符號表達系統,比如度量衡單位。數據就是用這些符號表達系統記錄觀察對象特徵和行爲的產物。數據可以採取文字、數字、圖表、聲音和視頻等形式。在存在形態上,數據有數字化的(Digital),也有非數字化的(比如記錄在紙上)。但隨着信息和通訊技術(ICT)的發展,越來越多數據被數字化,在底層都表示成二進制。

第三,數據經過認知過程處理後得到信息,給出關於誰(Who)、什麼(What)、何處(Where)和何時(When)等問題的答案。信息是有組織和結構化的數據,與特定目標和情景有關,因此有價值和意義。比如,根據信息論,信息能削減用熵度量的不確定性。

第四,與數據和信息相比,知識和智慧更難被準確定義。知識是對數據和信息的應用,給出關於如何做(How)的答案。智慧則有鮮明的價值判斷意味,在很多場合與對未來的預測和價值取向有關。

接下來用計量經濟學爲例說明 DIKW 模型。計量經濟學是經濟學實證分析的主要方法。實證分析基於觀察,回答「是什麼」的問題。在計量經濟學中,觀察的對象通常被稱爲樣本,可以是個人、機構、地區甚至國家。從不同角度觀察樣本,對應計量經濟學中的變量概念。從不同角度觀察一組樣本得到橫截面數據,而在不同時點上持續從同一角度觀察得到時間序列數據,橫截面數據和時間序列數據的綜合則是面板數據。這些類型的數據都是結構化數據。隨着越來越多的數據被數字化,以及人工智能和大數據分析方法的發展,半結構化數據和非結構化數據在經濟學中也有越來越多應用,比如互聯網瀏覽、點擊等數據。

計量經濟學從數據中提煉信息,主要包括:一是發現數據中隱含的規律和模式;二是估計模型;三是檢驗假說。這對應着 DIKW 模型的信息層次。比如,對數據做描述統計,計算變量的平均值、標準差以及變量之間的相關係數等,是從數據中提煉信息的最簡單方式之一。計量經濟學經常假設數據遵循數據生成過程(Data Generation Process),但數據生成過程的模型形式和參數取值未知,並且隨機干擾會爲觀察帶來誤差。計量經濟學根據觀察到的數據,估計數據生成過程,再據此檢驗假說。人工智能和大數據分析方法對數據的處理更爲靈活,分爲預測型分析和描述型分析。預測型分析是根據某些變量的取值,預測另外一些變量的取值。描述型分析是導出、概括數據中潛在聯繫的模式,包括相關、趨勢、聚類、軌跡和異常等。兩類分析體現爲分類、迴歸、關聯分析、聚類分析、推薦系統和異常檢測等具體方法。

根據計量經濟學分析結果提出政策建議,對應着 DIKW 模型的知識層次。很多政策研究屬於規範分析,回答「應該是什麼」的問題。經濟學關於經濟均衡、經濟增長、宏觀調控、價格機制、微觀激勵和風險定價等方面的洞見,對應着 DIKW 模型的智慧層次。

一般而言,數據的技術特徵主要包括以下維度:

  • 數據的樣本分佈、時間覆蓋和變量 / 屬性 / 字段等。
  • 數據容量,比如樣本數、變量數、時間序列長度和佔用的存儲空間等。
  • 數據質量,比如樣本是否有代表性,數據是否符合事先定義的規範和標準,觀察的顆粒度、精度和誤差,以及數據完整性(比如是否有數據缺失情況)。
  • 數據的時效性。鑑於觀察對象的特徵和行爲可以隨時間變化,數據是否還能反映觀察對象的情況?
  • 數據來源。有些數據來自第一手觀察,有些數據由第一手觀察者提供,還有些數據從其它數據推導而來。數據可以來自受控實驗和抽樣調查,也可以來自互聯網、社交網絡、物聯網和工業互聯網等。數據可以由人產生,也可以由機器產生。數據可以來自線上,也可以來自線下。
  • 數據類型,包括是數字化還是非數字化的,是結構化還是非結構化的,以及存在形式(文字、數字、圖表、聲音和視頻等)。
  • 不同數據集之間的互操作性和可聯接性,比如樣本 ID 是否統一,變量定義是否一致,以及數據單位是否一致等。
  • 是否爲個人數據。個人數據在隱私保護上有很多特殊性,需要專門討論。

數據的經濟學特徵

與數據的技術特徵相比,數據的經濟學特徵要複雜得多。數據可以產生價值(見後文),因此具有資產屬性。數據兼有商品和服務的特徵。一方面,數據可存儲、可轉移,類似商品。數據可積累,在物理上不會消減或腐化。另一方面,很多數據是無形的,類似服務。數據作爲資產具有很多特殊性,可以從表 1 的視角分析:

鄒傳偉:對數據要素的特徵、價值和配置機制的初步研究 | 雲圖思潮表 1:公共產品、準公共產品和私人產品的分類

非競爭性指的是,當一個人消費某種產品時,不會減少或限制其他人對該產品的消費。換言之,該產品每增加一個消費者,所帶來的邊際成本等於 0。大部分數據可以被重複使用,重複使用不會降低數據質量或容量,並且可以被不同人在同一時間使用,因此具有非競爭性。

非排他性指的是,當某人在付費消費某種產品時,不能排除其他沒有付費的人消費這一產品,或者排除的成本很高。很多數據是非排他性的,比如天氣預報數據。但通過技術和制度設計,有些類型的數據有排他性。比如,一些媒體信息終端採取付費形式,只有付費會員纔可以閱讀。

根據表 1,很多數據屬於公共產品,可以由任何人爲任何目的而自由使用、改造和分享。比如,政府發佈的經濟統計數據和天氣預報數據。一些數據是俱樂部產品,屬於準公共產品,比如前面提到的收費媒體信息終端。大部分數據是非競爭性的,因此屬於私人產品和公共資源的數據較少。

數據的所有權不管在法律上還是在實踐中都是一個複雜問題,特別對個人數據。數據容易在未經合理授權的情況下被收集、存儲、複製、傳播、彙集和加工,並且數據彙集和加工伴隨着新數據的產生。這使得數據的所有權很難界定清楚,也很難被有效保護。比如,在互聯網經濟中,互聯網平臺記錄下用戶的點擊、瀏覽和購物歷史等,是非常有價值的數據。這些數據儘管描述了用戶的特徵和行爲,但不像用戶個人身份信息那樣由用戶對外提供,很難說由用戶所有。互聯網平臺儘管記錄和存儲這些數據,但這些數據與用戶的隱私和利益息息相關,很難任由互聯網平臺在用戶不知情的情況下使用和處置這些數據,所以互聯網平臺也不擁有完整產權。

因此,需要通過制度設計和密碼學技術等精巧界定用戶作爲數據主體以及互聯網平臺作爲數據控制者的權利,這會爲他們之間的經濟利益關係產生顯著影響。

很多文章把數據比喻成新經濟的石油。這個比喻實際上不準確。石油是競爭性和排他性的,產權可以清楚界定,作爲私人產品形成了現貨和期貨等複雜的市場交易模式。很多數據難以清晰界定所有權,作爲公共產品或準公共產品難以有效參與市場交易。因此,把數據比喻成陽光更爲合適。

數據價值的內涵和計量

數據價值的內涵

根據 DIKW 模型,從數據中提煉出信息、知識和智慧,這隱含着數據價值鏈的概念。原始數據經過處理並與其他數據整合後,再經分析形成可行動的洞見,最終由行動產生價值。

數據價值可以從微觀和宏觀兩個層面理解。在微觀層面,信息、知識和智慧既可以滿足使用者的好奇心(即作爲最終產品),更可以提高使用者的認知,幫助他們更好做出決策(即作爲中間產品),最終效果都是提高他們的效用。數據對使用者效用的提高,就反映了數據價值。在宏觀層面,信息、知識和智慧有助於提高全要素生產率,發揮乘數作用,這也是數據價值的體現。本文主要討論微觀層面的數據價值,有以下關鍵特徵。

1.同樣數據對不同人的價值可以大相徑庭

第一,不同人的分析方法不一樣,從同樣數據中提煉出的信息、知識和智慧可以相差很大。比如,在科學史上,很多科學家深入研究一些大衆習以爲常的現象並做出了重大發現。重物落地之於牛頓,閃電之於富蘭克林,海水的藍色之於拉曼,與它們對大衆的價值是完全不一樣的。再比如,在經濟學中,不同的經濟學家對同樣的經濟數據經常做出完全不一樣的解讀。

第二,不同人所處的場景和麪臨的問題不一樣,同一數據對他們起的作用也不一樣。同一數據,對一些人可能是垃圾,對另一些人則可能是寶藏。比如,考古發現對歷史研究者的價值很大,但對金融投資者則很可能沒有價值。比如,另類數據(Alternative Data)包括個人產生數據、商業過程數據和傳感器數據等。這些數據能幫助投資者做投資決策,但對非金融投資者則沒有太大價值。不同的人可以在不同時間維度上使用數據,比如有評估過去的,有分析當前的,有預測未來的,也有做回溯測試的。使用目的不同,對數據的要求不一樣,同一數據就意味着不同價值。

第三,不同制度和政策框架對數據使用的限定不一,也會影響數據價值。換言之,數據價值內生於制度和政策。比如,不同國家對個人數據的保護程度不一,個人數據被收集和使用的情況以及產生的價值在國家之間有很大差異。我國排名靠前的互聯網平臺基於用戶行爲數據推出了在線信貸產品,這在其他國家則不常見。互聯網平臺獲得用戶數據後,如果不恰當保護和使用,不尊重用戶隱私,將會影響其品牌形象和用戶信任,對數據價值和公司價值都會帶來負面影響。2020 年 4 月,美國聯邦法院批准 Facebook 與美國聯邦貿易委員會就劍橋分析醜聞的 50 億美元和解協議。

2. 數據價值隨時間變化

第一,數據有時效性。很多數據在經過一段時間後,因爲不能很好反映觀察對象的當前情況,價值會下降。這種現象稱爲數據折舊。數據折舊在金融市場中表現得非常明顯。比如,一個新消息在剛發佈時可以對證券價格產生很大影響,但等到證券價格反映這個消息後,它對金融投資的價值就急劇降到 0。在 DIKW 模型中,將數據提煉爲信息、知識和智慧,並且提煉層次越高,就越能抵抗數據折舊。

第二,數據有期權價值。新機會和新技術會讓已有數據產生新價值。在很多場合中,收集數據不僅是爲了當下的需求,也有助於提升未來的福利。

3. 數據會產生外部性

第一,數據對個人的價值稱爲私人價值,數據對社會的價值稱爲公共價值。數據如果具有非排他性或非競爭性,就會產生外部性,並造成私人價值與公共價值之間的差異。這種外部性可正可負,沒有定論。

第二,數據與數據結合的價值,可以不同於它們各自價值之和,是另一種外部性。但數據聚合是否增加價值,也沒有定論。一方面,可能存在規模報酬遞增情形,比如更多數據更好地揭示了隱含的規律和趨勢。另一方面,可能存在規模報酬遞減情形,比如更多數據引入更多噪聲。但總的來說,數據容量越大,數據價值不一定越高,數據內容也很重要。比如,1 小時的視頻監控數據,有價值數據可能僅有 1-2 秒。

數據價值的計量

1. 絕對估值

鑑於數據價值的三個關鍵特徵,數據的絕對估值比較難,沒有公認方法。目前行業實踐中有幾種主要方法,但都有缺陷(BIPP,2020;德勤和阿里研究院,2019)。

第一,成本法,也就是將收集、存儲和分析數據的成本作爲數據估值基準。這些成本有軟件和硬件方面的,也有知識產權和人力資源方面的,還有因安全事件、敏感信息丟失或名譽損失而造成的或有成本。數據收集和分析一般具有高固定成本、低邊際成本特徵,從而有規模效應。成本法儘管便於實施,但很難考慮同樣數據對不同人、在不同時間點以及與其他數據組合時的價值差異。另外,德勤和阿里研究院(2019)指出,一些數據爲企業生產經營的附加產物,獲取成本通常難以從業務中劃分出來而難以可靠計量。顯然,數據價值不一定高於成本,說明不是所有數據都值得收集、存儲和分析。

第二,收入法,也就是評估數據的社會和經濟影響,預測由此產生的未來現金流,再將未來現金流折現到當前。收入法在邏輯上類似公司估值中的折現現金流法,能考慮數據價值的三個關鍵特徵,在理論上比較完善,但實施中則面臨很多障礙。一是對數據的社會和經濟影響建模難度很大。二是數據的期權價值如何評估。實物期權估值法是一個可選方法,但並不完美。

第三,市場法,也就是以數據的市場價格爲基準,評估不在市場上的數據的價值。市場法類似股票市場的市盈率和市淨率估值方法。市場法的不足在於,很多數據是非排他性的或非競爭性的,很難參與市場交易。目前,數據要素市場有一些嘗試,但市場厚度和流動性都不夠,價格發現功能不健全。另外,一些公司兼併收購價格着包含着對數據的估值,但不易分離出來。

第四,問卷測試法。這個方法主要針對個人數據,通過問卷測試個人願意收多少錢以出讓自己的數據,或願意花多少錢保護自己的數據,從而評估個人數據的價值。這個方法應用面非常窄,實施成本較高。

2. 相對估值

數據相對估值目標是,給定一組數據以及一個共同的任務,評估每組數據對完成該任務的貢獻。與絕對估值相比,相對估值要簡單一些,特別針對定量的數據分析任務。

在數據相對估值中,常見數據分組方法包括:一是變量 / 字段一樣,但屬於不同的觀察樣本;二是同樣的觀察樣本,但變量 / 字段不同。對常見預測性任務和描述性任務,統計學和數據科學建立了量化評估指標。比如,對預測任務,需做樣本外檢驗,評估預測誤差。在預測變量是離散型時,常用準確率、錯誤率以及操作特徵(Receiver Operating Characteristic,ROC)曲線下方面積等指標。在預測變量是連續型時,常用標準誤差。對描述任務,需用樣本數據評估模型擬合效果,線性模型一般用 R 平方,非線性模型一般用似然函數(需對干擾項分佈做出假設)。

鄒傳偉:對數據要素的特徵、價值和配置機制的初步研究 | 雲圖思潮

使用 Shapley 值進行數據相對估值遵循以下步驟。第一步:定義數據集合及其元素。第二步:定義擬完成的任務。第三步:選擇完成任務所使用的模型及評估指標。第四步:對數據集合中元素形成的每一個數據子集(〡N〡個元素,意味着 2〡N〡個可能的數據子集),運行模型並獲得評估結果。第五步:根據 Shapley 值計算每個元素對完成任務的貢獻。此方法的主要不足是,隨着數據集合的元素數量上升,計算量將指數上升。主要優點是符合直覺,容易計算,而且源自經濟學的長期研究。Jia et al. (2019) 討論瞭如何優化使用 Shapley 值進行數據相對估值的計算過程。

數據相對估值說明,同一數據在用於不同任務,使用不同分析方法,或與不同數據組合時,體現出的價值是不同的。特別是,偏離數據集合「主流」的數據,在相對估值上可能比靠近數據集合「主流」的數據高,這顯示了「異常值」(Outlier)的價值。

數據要素的配置機制

在現實中,數據有多種類型和不同特徵,相應產生了不同的配置機制。因爲很多數據不適合參與市場交易,很多配置機制不屬於市場交易模式。換言之,市場化配置不等於市場交易模式。

這些機制都致力於解決數據要素配置中的兩個突出問題。第一,信息不對稱。數據要素配置機制涉及多個利益不一致的參與方。比如,數據主體往往不清楚自己數據在何時、因何目標或有何後果而被收集。數據生產者不清楚數據主體是否選擇性披露數據,以及在知道自己的數據被收集時是否會有針對性地調整行爲,也不清楚生產出的數據對不同數據使用者的價值。數據使用者在事前很難完全瞭解數據對自己的價值。比如,數據相對估值就是在事後進行的。

第二,非完全契約。數據要素配置機制都可以表示成一系列契約的組合。但數據應用有豐富場景,數據價值鏈有多個環節,數據價值缺乏客觀計量標準,這些因素使得數據要素配置機制很難在事前覆蓋事後所有可能出現的情況。這既會影響數據主體分享數據以及數據生產者生產數據的激勵,也會影響數據價值在數據價值鏈中不同貢獻者之間的合理分配。

接下來,按照數據的經濟學特徵以及應用場景,討論有代表性的數據要素配置機制。

作爲公共產品的數據

數據作爲公共產品時,由私人部門提供會有投資不足和供給不足的問題,一般由政府部門利用稅收收入提供。政府部門的數據開放和共享項目可以在這個框架下理解。政府部門應該在不涉密的前提下,儘可能向社會和市場開放政府數據,這樣才能最大化政府數據的公共價值。

2009 年,美國聯邦政府推出數據開放門戶網站 Data.gov,爲之前分散在聯邦政府不同機構的網站上數據統一提供託管平臺。2019 年,美國《開放政府數據法案》要求,除涉及國家安全和其他特殊原因的數據以外,聯邦政府應該在線發佈它們擁有的數據,並且這些公開數據採取標準化、機器可讀的形式。

2016 年以來,我國頒佈《政務信息資源共享管理暫行辦法》、《公共信息資源開放試點工作方案》等一系列文件,開啓政務數據共享開放進程。《關於構建更加完善的要素市場化配置體制機制的意見》提出的第一個工作方向就是推進政府數據開放共享。

作爲準公共產品的數據

作爲準公共產品的數據如果在所有權上較爲清晰,並且具有排他性,有以下三種主要的配置機制。

第一,作爲俱樂部產品的數據,可以採取付費訂購 模式,比如收費媒體信息終端。

第二,開放銀行模式。銀行通過應用程序界面(Application Programming Interface,API)將用戶數據開放給經授權的第三方機構,以促進用戶數據的開發使用。銀行既限定哪些用戶數據可開放,也限定向哪些機構開放。這實際上是部分實現用戶數據的可攜帶性。

第三,數據信託模式。根據 BIPP (2020)的介紹,數據信託可以採取不同形式,比如法律信託、契約、公司以及公共和社區信託等。數據信託的主要目標包括:一是使數據可被共享;二是促進公共利益以及數據分享者的私人利益;三是尊重那些對數據有法律權利的人的利益;四是確保數據以合乎倫理和數據信託規則的方式共享。

互聯網平臺的 PIK (Pay-in-kind)模式

前面已提到,在互聯網經濟中,如果個人數據不是由用戶對外提供,而是來自互聯網平臺對用戶特徵和行爲的觀察和記錄,那麼所有權就很難界定清楚。現實中,互聯網平臺經常爲用戶提供免費資訊和社交服務,目標是擴大用戶量,並獲得用戶的注意力和個人數據(比如用戶喜好、消費特徵和社會聯繫等)。在這個模式中,可以認爲是用戶用自己的注意力和個人數據換取資訊和社交服務,因此被稱爲 PIK 模式(圖 2)。互聯網平臺一方面是通過廣告收入變現用戶流量,另一方面基於用戶個人數據進行精準營銷和開發信貸產品等。

鄒傳偉:初步分析數據要素技術與經濟學特徵及配置機制圖 2:互聯網平臺的 PIK 模式

PIK 模式主要有三個弊端:第一,互聯網平臺與用戶之間地位不平等,容易在未經用戶授權的情況下收集用戶數據,或過度收集用戶數據,或把從甲業務中收集到的個人數據用於乙業務,從而造成隱私侵犯和數據濫用問題。第二,互聯網平臺如果形成捕獲性生態,會鎖定用戶,並在事實上控制用戶數據。用戶很難將自己數據開放給或遷移到互聯網平臺的競爭對手。互聯網平臺通過數據壟斷(Data-opoly)對競爭者構成不公平競爭。第三,難以保證用戶提供個人數據後獲得了合理報酬。比如,用戶是否爲不太有價值的資訊而揭示了重要個人信息?互聯網平臺與用戶之間的地位不平等,以及 PIK 模式中不存在市場定價機制,使得用戶權益很難被有效保護。

在 PIK 模式下,數據控制者(互聯網平臺)相對數據主體(用戶)處於主導地位,並且數據控制者往往也是數據使用者,而數據主體對自己數據缺乏控制,在數據產權上有很多模糊不清之處。如何糾正 PIK 模式的弊端,是個人數據管理中的一個核心問題。

數據要素市場

很多數據因爲有非排他性或非競爭性,參與市場交易都面臨限制。另一方面,非排他性或非競爭性造成的外部性,使得數據的私人價值與公共價值之間有差異,市場交易不一定能實現數據的最大社會價值。

在現實中,因爲數據類型和特徵的多樣性,以及數據價值缺乏客觀計量標準,目前並不存在一個集中化、流動性好的數據要素市場。但數據的點對點交易(類似場外交易)一直在發生,比如另類數據市場。這個市場中存在大量的另類數據提供商。它們對數據的處理程度從淺到深大致可分爲原始數據提供者、輕處理數據提供者和信號提供者。這個市場已發展出諮詢中介、數據聚合商和技術支持中介等,作爲連接數據買方(主要是投資基金)和數據提供方之間的橋樑。其中,諮詢中介爲買方提供關於另類數據購買、處理及相關法律事宜的諮詢,以及數據供應商信息。數據聚合商提供集成服務,買方只需和它們協商即可,無需進入市場與分散的數據提供商打交道。技術支持中介爲買方提供技術諮詢,包括數據庫和建模等。

可見,另類數據市場發展已很完善,形成了豐富的分工合作關係,但這個市場仍很不透明且非標準化。這是目前數據交易面臨的普遍問題。更不容忽視的是非法數據交易,比如交易個人隱私數據的「數據黑市」和「數據黑產」。2019 年以來,我國對「數據黑產」開展了集中整頓。

如何建立合規有效的數據要素市場?一個可行選項是使用密碼學技術,包括可驗證計算(Verifiable computing)、同態加密(Homomorphic encryption)和安全多方計算(Secure multi-party computation)等(PlatON,2018)。

對複雜的計算任務,可驗證計算會生成一個簡短證明。只要驗證這個簡短證明,就能判斷計算任務是否被準確執行,不需要重複執行計算任務。在同態加密和安全多方計算下,對外提供數據時,採取密文而非明文形式,從而使數據具備排他性。這些密碼學技術支持數據確權,使得在不影響數據所有權的前提下交易數據使用權成爲可能,從而構建數據交易的產權基礎,並影響數據主體和數據控制者的經濟利益關係。區塊鏈技術用於數據存證和使用授權,也在數據產權界定中發揮重大作用。後文將討論,除了技術以外,數據產權界定也可以通過制度設計來實施。

但即便如此,基於密碼學的數據要素市場也不同於傳統市場。首先,同一數據在加密後可以同時向多方提供,因此仍然是非競爭性的,除非數據使用者與數據控制者之間簽署保密協議,要求後者不得再將數據提供給其他人使用,或者數據有很強時效性,一經使用後很快失去價值。換言之,數據很難成爲私人產品,從而很難像私人產品那樣參與市場交易。其次,同一數據對不同人的價值可以差別很大。這使得在基於密碼學的數據使用權交易中,應用場景對數據價值的影響,可能超過了數據本身特徵和內容的影響,從而很難從數據交易價格中提煉出有價值的定價信息。因此,基於密碼學的數據要素市場不會採取「對同一商品,多個買方競價,價高者得」的要素配置模式。

需要說明的是,數據要素市場不一定是簡單的撮合買賣模式,可以存在其他複雜的模式。比如,Markit 公司(2016 年與 HIS 合併成 HIS Markit)建立 CDS (Credit Default Swap,信用違約互換)定價數據服務的模式值得研究。國際金融危機之前,CDS 是純粹的場外交易,信息披露很不完善。CDS 頭寸是金融機構重要的商業機密,很難與其他金融機構分享。參與 CDS 市場的金融機構只知道自己的 CDS 頭寸,但不知道市場的整體情況。CDS 市場沒有好的指數,信息不對稱程度很高。Markit 公司成立於 2003 年,其股東包含主要的 CDS 做市商。這些金融機構股東把自己的 CDS 數據上傳到 Markit,Markit 整合得到 CDS 市場數據後以收費方式對外提供,包括定價和參考數據、指數產品、估值和交易服務等。Markit 的股東金融機構在不泄露自己商業機密的情況下,不僅從 Markit 的工作中獲知 CDS 市場整體情況,還從 Markit 的業務增長中獲得投資收益。Markit 儘管沒有對數據進行顯式定價,但通過股權的利益綁定功能以及數據整合的「1+1>2」效應,解決了數據共享中的激勵相容問題。這是一個複雜而巧妙的數據交易模式。我國個人徵信市場的百行徵信公司也可以在類似框架下理解。

數據產權界定

從前面介紹的數據要素配置機制可以看出,數據產權界定是數據要素有效配置的基礎。數據產權主要分爲所有權和控制權。數據控制權包括誰能使用數據,如何使用數據,以及能否進一步對外分享數據等。在公司治理中,所有權和控制權是統一的——股東擁有公司,股東大會是公司的最高權力機關。但數據的所有權和控制權可以分離,特別是對所有權不清晰的個人數據。數據產權可以通過技術來界定,比如可驗證計算、同態加密和安全多方計算等密碼學技術。數據產權還可以通過制度設計來界定。

2018 年 5 月,歐盟開始實施《通用數據保護條例》(GDPR)。GDPR 給予數據主體廣泛權力:第一,被遺忘權,指數據主體有權要求數據控制者刪除其個人數據,以避免個人數據被傳播。第二,可攜帶權,指數據主體有權向數據控制者索取本人數據並自主決定用途。第三,數據主體在自願、基於特定目的且在與數據控制者地位平衡等情況下,授權數據控制者處理個人數據,但授權在法律上不具備永久效力,可隨時撤回。第四,特殊類別的個人數據的處理條件,比如醫療數據。

GDPR 還提高了對數據控制者的要求:第一,企業作爲數據控制者必須在事前數據採集和事後數據泄露兩個環節履行明確的告知義務。第二,數據採集與數據使用目標的一一對應原則,以及數據採集(範圍、數量、時間、接觸主體等)最小化原則。第三,個人數據跨境傳輸條件。總的來說,GDPR 引入了數據產權的精細維度,包括被遺忘權、可攜帶權、有條件授權和最小化採集原則等,建立了數據管理的制度範式。這些做法被歐盟以外的很多國家和地區所採納。2019 年 5 月,我國網信辦發佈《數據安全管理辦法(徵求意見稿)》。2019 年 12 月,國家網信辦、工信部、公安部和市場監管總局四部門聯合印發《App 違法違規收集使用個人信息行爲認定方法》。

個人數據管理的核心問題隱私保護。隱私涉及個人與他人、私有與公開的邊界,是個人尊嚴、自主和自由的重要方面(Acquisti et al., 2016)。隱私不排斥共享個人信息,而是要有效控制共享過程,在保護和共享個人數據之間做好平衡。對個人數據,控制權和隱私保護的重要性超過所有權。這一點在 GDPR 中有體現。

小結

本文對數據要素的特徵、價值和配置機制進行了初步研究,主要結論如下。

數據作爲信息科學中一個基本但複雜的概念,對其的理解離不開對信息和知識等相關概念的辨析,而 DIKW 模型爲此提供了一個合適的分析框架。根據 DIKW 模型,智慧、知識、信息和數據之間依次存在從窄口徑到寬口徑的從屬關係。數據是觀察的產物。數據經過認知過程處理後得到信息,給出關於誰(Who)、什麼(What)、何處(Where)和何時(When)等問題的答案。知識是對數據和信息的應用,給出關於如何做(How)的答案。智慧則有鮮明的價值判斷意味,在很多場合與對未來的預測和價值取向有關。

數據有多個維度的技術特徵,但數據的經濟學特徵更復雜。數據可以產生價值,因此具有資產屬性。數據兼有商品和服務的特徵。很多數據屬於公共產品,可以由任何人爲任何目的而自由使用、改造和分享。因爲大部分數據是非競爭性的,屬於私人產品和公共資源的數據較少。數據的所有權不管在法律上還是在實踐中都是一個複雜問題,特別對個人數據。因此,把數據比喻成石油,不如把數據比喻成陽光更爲合適。

數據經過處理並與其他數據整合後,再經分析形成可行動的洞見,最終由行動產生價值。數據價值在微觀層面體現爲對使用者效用的提高,在宏觀層面體現爲從數據中提煉出的信息、知識和智慧對全要素生產率的提高。然而,數據價值缺乏客觀計量標準,主要有三方面原因:一是同樣數據對不同人的價值可以大相徑庭;二是數據價值隨時間變化;三是數據會產生外部性。

數據價值的計量包括絕對估值和相對估值。數據絕對估值比較難,沒有公認方法。目前行業主要使用成本法、收入法、市場法和問卷測試法,但都有缺陷。數據相對估值是給定一組數據以及一個共同的任務,評估每組數據對完成該任務的貢獻。與絕對估值相比,相對估值要簡單一些。針對定量的數據分析任務,可以使用 Shapley 值進行相對估值。

數據有多種類型和不同特徵,產生了不同的配置機制。這些配置機制都致力於數據要素配置中的信息不對稱和非完全契約問題。本文主要討論了四種配置機制。

第一,作爲公共產品的數據,一般由政府部門利用稅收收入提供。政府部門應該在不涉密的前提下,儘可能向社會和市場開放政府數據,這樣才能最大化政府數據的公共價值。

第二,作爲準公共產品的數據如果在所有權上較爲清晰,並且具有排他性 ,可以採取俱樂部產品式的付費模式、開放銀行模式以及數據信託模式

第三,在互聯網經濟中,很多個人數據的所有權很難界定清楚,現實中常見 PIK (Pay-in-kind)模式,本質上是用戶用自己的注意力和個人數據換取資訊和社交服務,但 PIK 模式存在很多弊端。

第四,很多數據因爲有非排他性或非競爭性,不適合參與市場交易。換言之,市場化配置不等於市場交易模式。現實中並不存在一個集中化、流動性好的數據要素市場。數據的點對點交易(類似場外交易)儘管一直在發生,但很不透明且非標準化,並且非法數據交易是一個不容忽視的問題。

數據產權界定是數據要素有效配置的基礎。可驗證計算、同態加密和安全多方計算等密碼學技術支持數據確權,使得在不影響數據所有權的前提下交易數據使用權成爲可能,從而構建數據交易的產權基礎。區塊鏈技術用於數據存證和使用授權,也在數據產權界定中發揮重大作用。但即便如此,基於密碼學的數據要素市場也不同於傳統市場,不會採取「對同一商品,多個買方競價,價高者得」的要素配置模式。

除了技術以外,數據產權還可以通過制度設計來界定。GDPR 引入了數據產權的精細維度,包括被遺忘權、可攜帶權、有條件授權和最小化採集原則等,建立了數據管理的制度範式。這些做法被歐盟以外的很多國家和地區所採納。個人數據管理的核心問題隱私保護。對個人數據,控制權和隱私保護的重要性超過所有權。

參考文獻

Ackoff, R.L., 1989, 「From Data to Wisdom」, Journal of Applied System Analysis, 16: 3-9.

Acquisti, A., C. Taylor, and L. Wagman, 2016, "The Economics of Privacy", Journal of Economic Literature, 54(2): 442-292

Bennett Institute for Public Policy (BIPP), 2020, The Value of Data,

https://www.bennettinstitute.cam.ac.uk/research/research-projects/valuing-data/

Jia R., D. Dao, B. Wang, F. Hubis, N. Hynes, N. Gurel, B. Li, C. Zhang, D. Song, and C. Spanos, 2019, "Towards Efficient Data Valuation Based on the Shapley Value".

PlatON, 2018, "PlatON: A High-Efficiency Trustless Computing Network", https://www.platon.network/static/pdf/en/PlatON_A%20High-Efficiency%20Trustless%20Computing%20Network_Whitepaper_EN.pdf

Rowley, J., 2007, 「The Wisdom Hierarchy: Representation of the DIKW Hierarchy」, Journal of Information and Communication Science, 33(2): 163-180.

德勤和阿里研究院,2019,《數據資產化之路——數據資產的估值與行業實踐》

李小加,2020,《呼籲成立「數據要素產業化聯盟」》,香港交易所

於施洋、王建冬和郭巧敏,2020,《中國構建數據新型要素市場體系面臨的挑戰與對策》,《電子政務》2020 年第 3 期

來源鏈接:mp.weixin.qq.com