區塊鏈學術前沿:

1、IEEE 院士劉紹強等 3 人提出名爲 Q-learning 的多維強化學習算法,通過人工智能找到最優挖礦策略,稱比傳統的自私挖礦以及誠實挖礦更有利可圖;

2、卡耐基梅隆大學等研究者提出名爲 SquirRL 的深度強化學習算法,進行區塊鏈激勵攻擊的自動化發現,但實驗表明在多個攻擊者存在的情況下會失去效力。

節選自《灑脫喜一週評丨 AI 算法跨界參與比特幣挖礦?以太坊成功完成伊斯坦布爾升級》
作者:灑脫喜

我們知道,激勵機制是無許可區塊鏈(公鏈)的核心:它們激勵參與者運行和保護基礎共識協議。

然而,設計與激勵相容的激勵機制,實際上是非常具有挑戰性的。具體而言,用戶要麼是拜占庭式的,要麼是誠實的,而具有強大理論安全保證的系統,也常常會排除對理性用戶的分析,而他們可能會因爲激勵而偏離誠實行爲。

因此,如今大多數公鏈所使用的激勵機制,它們的安全屬性並非是絕對的,而且很多都未經過考驗。

礦工們投入計算資源來解決 PoW 問題,在早期的時候,人們認爲最有利可圖的挖礦策略就是誠實挖礦,其中礦工一旦解決了 PoW 問題,其就會盡快廣播這個新生成的區塊。

後來,在 13 年的時候,康奈爾大學的 Emin Gün Sirer 教授和 Ittay Eyal 助理教授提出了一種稱爲自私挖礦(selfish mining)的挖礦策略,這種策略在一定條件下可以實現比誠實挖礦更高的回報。此後,關於激勵攻擊的研究如雨後春筍般涌現出來。

採用自私挖礦的礦工不會立即廣播其挖得的區塊,其通過祕密地將其未來挖得的區塊與其扣留的區塊連接起來,然後實施一次扣塊攻擊。

到了 2015 年,微軟研究院以及以色列耶路撒冷希伯來大學的研究者 Ayelet Sapirshtein 等人將挖礦問題描述爲具有大狀態行爲空間的一般馬爾可夫決策過程(MDP),然而,挖礦 MDP 的目標並不像標準 MDP 那樣是獎勵的線性函數,因此,無法使用標準 MDP 解碼算法解決挖礦 MDP。爲了解決這個問題,研究者首先將具有非線性目標的挖礦 MDP 轉化爲具有線性目標的 MDP,然後在這個 MDP 上使用標準的 MDP 解碼算法來尋找最優的挖掘策略。

而這種方法,在建立 MDP 之前,必須要知道各種參數值,而在真實的區塊鏈網絡中,精確的參數值是很難獲得的,並且可能隨着時間的推移而改變,從而阻礙了這種解決方案的實際採用。

論文 1: 《當區塊鏈遇到 AI:基於機器學習的最優挖礦策略》

而香港中文大學教授、IEEE FELLOW (院士)劉紹強,深圳大學助理教授、博士後王滔滔以及深圳大學教授、博導張勝利則在最近提出了一篇新的研究論文。

論文鏈接:https://arxiv.org/pdf/1911.12942.pdf

在這篇名爲《當區塊鏈遇到 AI:基於機器學習的最優挖礦策略》的論文中,研究者使用到了強化學習(RL)算法,通過觀察和與網絡交互,動態學習一個性能接近最優挖礦策略的挖礦方式。

強化學習(RL)算法是一種機器學習範式,在這種範式中,代理學習成功的策略,並從與環境的反覆試驗中獲得最大的長期回報。

目前,Q-learning 是最流行的強化學習(RL)算法,它可以通過更新一個狀態動作值函數來學習一個好的策略,而不需要環境的操作模型,強化學習(RL)算法已成功地應用於許多具有挑戰性的任務中,例如玩電子遊戲、圍棋以及控制機器人的運動。

但是,原有的強化學習(RL)算法並不能處理挖礦問題的非線性目標函數。

因此,論文作者們提出了一種新的基於 Q-learning 的多維 RL 算法,而這種算法能夠成功地找到最優挖礦策略。

區塊鏈學術前沿:AI 算法挑戰自私挖礦策略,攻擊區塊鏈激勵機制

經過模擬實驗顯示,通過這種強化學習(RL)算法的挖礦方式,要比傳統的自私挖礦以及誠實挖礦更有利可圖。

灑脫喜簡評:這又是跨學科研究的最新例子,它也提醒了加密貨幣世界的原住民,新技術的發展也會引發新的問題,那我們是否要因此而過於擔心呢?不急,我們先看下一份研究論文。

論文 2 :《SquirRL: 運用深度強化學習技術實現區塊鏈激勵攻擊的自動發現》

來自美國卡耐基梅隆大學、北京大學、康奈爾理工學院、斯坦福大學的多位研究者於近日發表了一篇題爲《SquirRL: 運用深度強化學習技術實現區塊鏈激勵攻擊的自動發現》的論文。

論文鏈接:https://arxiv.org/pdf/1912.01798.pdf

標題似乎有點拗口,大致意思就是:使用深度強化學習(Deep-RL)算法,實現對區塊鏈激勵攻擊的自動化發現。

在上一篇論文中,我們提到了強化學習(RL)算法,那深度強化學習(Deep-RL)算法又是什麼呢?

深度強化學習是一類使用神經網絡學習策略的強化學習(RL)算法。

而深度強化學習(Deep-RL)算法在解決具有以下兩個性質的問題上是特別成功的:

  1. 規則定義良好;
  2. 狀態空間極大(難以控制)。

而區塊鏈激勵機制,就符合上面的性質,實際上,區塊鏈激勵機制問題還有一個額外的優勢,那就是區塊鏈獎勵是連續處理的。
下面是這篇論文的重點摘要:

  1. 這篇論文提出了一個利用深度強化學習(Deep-RL)算法發現區塊鏈激勵攻擊的框架,它旨在爲區塊鏈開發人員測試脆弱性的激勵機制提供通用方法,但不提供理論保證(注:所謂理論保證是指,研究者沒有在現實中運用該框架發現相關的攻擊,因爲激勵攻擊本身就是很難實現的)。
  2. 該框架可應用於各種區塊鏈協議,並且能夠 recover 比特幣協議中已知的理論自私挖礦攻擊問題,同時也將最新的結果擴展到以前難以處理的領域(例如多代理設置、更大的狀態空間以及其它協議)。
  3. 研究表明,在比特幣協議中,隨着代理數量的增加,自私挖礦及其變體攻擊的利潤會逐漸減少,這與現實情況中自私挖礦現象並未被發現的情況是一致的,儘管尚不清楚這種觀察或其他外部因素是否是原因。
  4. 最後,論文證明了該框架還可適用於自私挖礦以外的激勵攻擊。

論文作者:Charlie Hou、Mingxun Zhou、Yan Ji、Phil Daian、Florian Tramèr、Giulia Fanti、Ari Juels

實驗的一些細節

研究者使用其提出的 SquirRL 框架,對比特幣、以太坊以及 GHOST 的區塊鏈激勵機制進行了實驗比較,他們對每個區塊鏈協議分別進行了 100 次試驗,其中每個試驗包含 10000 次狀態轉換以及主鏈中至少 5000 個區塊,然後又分爲單個代理和多個代理進行評估。

下面是該實驗涉及的 4 個組成部分:

  1. 誠實挖礦(Honest):遵守協議的礦工;
  2. 最優自私挖礦(OSM);
  3. SM1:Emin G¨un Sirer 教授提出的自私挖礦策略;
  4. RL:也就是研究者提出的 SquirRL 系統;

下面是單個代理的實驗結果可視化圖形:

區塊鏈學術前沿:AI 算法挑戰自私挖礦策略,攻擊區塊鏈激勵機制

我們可以看到,當攻擊者持有的算力(或權益)α小於 25% 時,SquirRL 並不是採取“自私挖礦”策略,而是 recover 誠實挖礦策略,而在攻擊者算力(或權益)α大於 25% 時,SquirRL 都勝過了其他方案。

最後,SquirRL 得出的結果表明,針對比特幣的經典自私挖掘攻擊,會在多個攻擊者存在的情況下會失去效力。

這些結果揭示了,爲何自私挖礦在理論上存在,但它在現實世界中可能是糟糕的攻擊策略。

灑脫喜簡評:同樣是運用 AI 算法的區塊鏈主題研究,與上一篇論文不同的是,這份研究的目的是識別出相關的區塊鏈激勵攻擊,同時它也證明了當網絡當中有多個代理(即攻擊者時),相關的激勵攻擊效果就會減弱,也就是說網絡最終還是會達到平衡的狀態,因此我們不需要過於擔心。

來源鏈接:www.8btc.com