通過媒體和社交網站等開源信息追蹤可疑加密貨幣活動,能一定程度識別風險事件。

原文標題:《硬核丨如何利用機器學習識別加密項目風險?》
撰文:Pengtai Xu
翻譯:Sherrie

加密貨幣是一種存在於數字世界的交易媒介(另一種支付形式),依靠加密技術使交易安全。加密貨幣背後的技術允許用戶直接向他人發送貨幣,而不需要通過第三方,如銀行。爲了進行這些交易,用戶需要設置一個數字錢包,而不需要提供身份證號碼或信用評分等個人細節,因此可以讓用戶僞匿名。

對於普通的加密貨幣用戶來說,這種匿名性可以讓他們放心,因爲他們的個人信息或交易數據不會被黑客竊取。然而,這種交易匿名性的提高,也容易被犯罪分子濫用,進行洗錢、恐怖融資等非法活動。這種非法活動給區塊鏈錢包用戶以及加密貨幣實體都造成了巨大的損失。雖然金融行動特別工作組(FATF)等監管機構已經在這些實體的監管中引入了標準化的指導方針,但由於每天都有大量的加密貨幣實體和交易發生,監控加密貨幣空間是一項具有挑戰性的任務。

解決方案

加密貨幣安全事件頻發,如何用機器學習監控項目風險?圖片來源: https://dribbble.com/shots/2723032-Needle-in-a-Haystack

因此,人們有興趣利用開源信息,例如新聞網站或社交媒體平臺,來識別可能的安全漏洞或非法活動。在與 Lynx Analytics 的合作中,我們(來自新加坡國立大學的一個學生團隊)已經致力於開發一個自動工具,以刮取開源信息,預測每篇新聞文章的風險分數,並標記出風險文章。這個工具將被整合到 Cylynx 平臺 中,這是 Lynx Analytics 開發的一個工具,用於幫助監管機構通過使用各種信息源監控區塊鏈活動。

開源信息的數據獲取

我們確定了 3 類開源數據,這些數據可以提供有價值的信息,幫助檢測加密貨幣領域的可疑活動。這些類別是:

  1. 傳統的新聞網站,如谷歌新聞,它將報告重大的黑客事件。
  2. 加密貨幣專用新聞網站,如 Cryptonews 和 Cointelegraph,它們更有可能報道小型實體和小型安全事件的新聞。
  3. 社交媒體網站,如 Twitter 和 Reddit,在官方發佈黑客新聞之前,加密貨幣所有者可能會在那裏發佈有關黑客的消息。

加密貨幣安全事件頻發,如何用機器學習監控項目風險?

檢索文章和社交媒體帖子的內容,然後建立情緒分析模型。該模型爲文章中提到的實體分配了一個風險活動的概率。

情緒分析模型

我們嘗試了四種不同的自然語言處理工具進行情緒分析,即 VADER、Word2Vec、fastText 和 BERT 模型。在通過選定的關鍵指標(召回率、精度和 F1)對這些模型進行評估後,RoBERTa 模型(BERT 的一個變種)表現最佳,被選爲最終模型。

加密貨幣安全事件頻發,如何用機器學習監控項目風險?圖片來源: https://www.codemotion.com/magazine/dev-hub/machine-learning-dev/bert-how-google-changed-nlp-and-how-to-benefit-from-this/

RoBERTa 模型對新聞文章(標題和摘錄)或社交媒體帖子的文本進行處理,併爲特定文本分配一個風險分數。由於該文本在數據收集過程中已經被標記爲實體,我們現在已經有了加密實體的相關風險指標。在後期,我們將多個文本的風險分數結合起來,給出一個實體的整體風險分數。

RoBERTa 原本是一個使用神經網絡結構建立的情感分析模型,我們將最後一層與我們標註的風險分數進行映射,以適應風險評分的環境。爲了提高模型在未來文本數據上的通用性,我們進行了幾種文本處理方法,即替換實體、刪除 url 和替換 hash。然後我們使用這個表現最好的模型進行風險評分。

風險評分

現在,每篇文章都有一個相關的來源(news/reddit/twitter),一個風險概率和一個計數,指的是文章被轉發、分享或轉發的次數。爲了將這些風險概率轉換爲加密貨幣實體的單一風險得分,我們首先將文章的概率值縮放到 0 到 100 的範圍內,並獲得每個來源的加權平均值,結合文章的風險得分和計數。加權平均數用於對計數較高的文章給予更大的重視,因爲份額數量很可能表明文章的相關性或重要性。

加密貨幣安全事件頻發,如何用機器學習監控項目風險?

在計算出各來源的風險得分後,我們對各來源的風險得分進行加權求和,得到綜合得分,公式如下:

加密貨幣安全事件頻發,如何用機器學習監控項目風險?

傳統的新聞來源被賦予了更高的權重,因爲這些來源更有可能報道重大的安全漏洞(相對於單個用戶的黑客事件)。

該解決方案的有效性

我們在 2020 年 1 月 1 日至 2020 年 10 月 30 日的 174 個加密貨幣實體的名單上測試了我們的解決方案,並將結果與該時間段內的已知黑客案例進行了比較。我們發現,我們的風險評分方法表現相當出色,在 37 個已知的黑客案例中識別了 32 個。我們還分析了我們的解決方案對單個實體的有效性。下圖顯示了 Binance 從 2020 年 1 月 1 日至 2020 年 10 月 30 日的風險評分。虛線紅線代表已知的黑客案例。從圖中我們觀察到,我們的解決方案報告了 5 個已知黑客中的 4 個黑客的風險得分增加。也有幾個峯值與已知黑客案例不一致。然而,這並不構成一個主要問題,因爲對我們的模型來說,更重要的是識別儘可能多的黑客,減少未識別的黑客數量。

加密貨幣安全事件頻發,如何用機器學習監控項目風險?

有趣的發現

在風險評分過程中,我們注意到,與規模較小的實體相比,規模較大的實體的風險評分往往有較大比例的假陽性記錄。這是因爲大型實體被談論得更多,因此會有更多的負面帖子和虛假謠言,從而導致更高的不準確率。

另一個值得強調的有趣趨勢是,圍繞着黑客攻擊通常有幾個明顯的高峯。這是由於不同數據源的反應時間不同。社交媒體網站 Twitter 和 Reddit 通常是第一個看到高風險事件發生時的高峯,因爲用戶會發帖提出他們觀察到的異常情況,比如一個實體的網站在沒有事先通知用戶的情況下宕機。官方消息一般是在官方聲明之後,稍後纔會發佈。

侷限性

我們發現,我們的解決方案有兩個潛在的侷限性,首先是需要不斷地維護收集器。網站設計可能會隨着時間的推移而改變,這些網站的刮擦器需要更新,以確保相關信息仍能被檢索到,從而達到風險評分的目的。

第二個限制是,驗證一篇文章是否已被正確地標記爲加密貨幣實體是具有挑戰性的。例如,一篇報道 Bancor 可疑活動的文章可能也會因爲一個不相關的事件提到 Binance。我們的解決方案會錯誤地將新聞標記爲兩個實體,並將 Binance 標記爲風險,即使它不是文本中的關鍵主題。然而,這並不是一個主要的限制,因爲我們只使用新聞文章的標題和摘錄來進行風險評分,這通常只包含文章的關鍵信息。

結語

加密貨幣安全事件頻發,如何用機器學習監控項目風險?

我們的項目讓監管機構可以輕鬆挖掘開源信息,更好地識別加密貨幣領域發生的風險事件。我們提供了一個分析文章並預測風險分數的語言模型,以及根據實體和來源信息彙總這些分數的方法。這些方法都被編織成一個可以端到端運行的自動化流水線。將該項目整合到 Cylynx 平臺中,將對其現有功能進行補充,併爲監管機構識別高風險加密貨幣實體提供巨大的幫助。