文 |王兆宇 趙文榮 馬普凡 張依文

新聞數據蘊含大量的信息,對投資具有極高的價值,但由於其非結構化的特徵,且缺乏較好的技術手段,利用程度一直有限。本篇報告採用 2018 年 Google 團隊在“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”中提出的 BERT 模型實現了對新聞信息的度量與提煉,繼而構建了情緒指標,並嘗試應用於短期風險防範、槓桿增強策略和行業熱點發現等領域。

投資聚焦:

伴隨互聯網的快速發展,信息傳播效率大幅提升,而新聞作爲信息傳播網絡中一個關鍵節點,對於引導和反映社會輿論的作用顯著增加。把握住了新聞輿情,即可監測社會思想和情緒的變遷,有助於掌握投資的先機。本文采用自然語言技術處理新聞數據,可實現對信息的準確度量與提煉,同時大幅提升處理效率。

海內外機構廣泛關注另類數據。

1)國際諮詢事務所格林威治聯營公司 2018 年的調查表明,爲另類數據每年花費在 10 萬美金到 100 萬美金的機構佔 41%,高於 100 萬美金的佔比爲 22%。

2) 2015 年,歐洲央行的一份研究報告指出,通過檢索 Twitter 和 Google 中“牛市”和“熊市”兩個詞出現的頻數作爲投資者的情緒指標,能夠有效預測道瓊斯、標普 500 等指數的未來收益率。

3)國內資產管理機構也已開始佈局基於另類數據的金融產品。

模型篇:情緒識別模型與情緒指標構建。

傳統的情緒模型依賴於情緒詞庫的建立,不但工程量巨大,而且容易斷章取義,而本文使用的 BERT 模型能夠有效解決這些問題。BERT 模型的構建主要包含大數據集預訓練和目標數據集微調參數兩個步驟。前者的主要原理是通過預測句子中被遮掩的字來學習語言的規律;對於後者,我們根據股票本身的收益率來構建情緒標籤。訓練完成後,BERT 模型可以輸出每條新聞的情緒分數,然後對當天所有股票的情緒分數取算術均值來構建當天的情緒指標。

觀察篇:情緒指標具備領先性與顯著性。

從情緒指標和中證全指的歷史走勢來看,情緒指標具有一定的領先作用。經測算,情緒指標相對 5 日均值的變化值與指數未來 1 日、3 日的在測試數據上的相關係數分別達到 0.07 和 0.09,且正線性關係具有 90% 的置信概率。

應用篇:避險、槓桿增強和熱點發現。

1)短期風險防範:情緒指標在歷史中風險極大的一些時點,例如 2015 年牛熊轉換拐點和 2020 年 1 月 23 日都呈現明顯的悲觀情緒。

2)基於情緒指標的槓桿增強策略:在情緒指標相對 5 日均值變化高於上閾值時做多,低於下閾值時做空。今年以來(截至 4 月 30 日),槓桿增強策略相對滬深 300 指數實現了 10.35% 的超額收益;

3)科技板塊熱點發現:將行業內成分股的情緒分數加總,能夠得到行業級別的情緒熱度指數,對於科技板塊有良好的熱點發現功能。例如在電子行業,從 2019 年 5 月開啓了一段小牛市,以情緒指標作爲觀察窗口,可以發現在啓動階段,稀土、5G 等相關板塊的新聞層出不窮且表現出強烈的正面情緒。

風險因素:

模型過擬合;識別結果與真實情緒出入較大;輿情數據的可得性與連續性風險。

量化|量化新聞情緒,把握投資先機

量化|量化新聞情緒,把握投資先機

中信證券研究

提供行業資訊,讓您方寸間知天下!

量化|量化新聞情緒,把握投資先機量化|量化新聞情緒,把握投資先機

來源鏈接:mp.weixin.qq.com