文 |王兆宇 赵文荣 马普凡 张依文

新闻数据蕴含大量的信息,对投资具有极高的价值,但由于其非结构化的特征,且缺乏较好的技术手段,利用程度一直有限。本篇报告采用 2018 年 Google 团队在“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”中提出的 BERT 模型实现了对新闻信息的度量与提炼,继而构建了情绪指标,并尝试应用于短期风险防范、杠杆增强策略和行业热点发现等领域。

投资聚焦:

伴随互联网的快速发展,信息传播效率大幅提升,而新闻作为信息传播网络中一个关键节点,对于引导和反映社会舆论的作用显著增加。把握住了新闻舆情,即可监测社会思想和情绪的变迁,有助于掌握投资的先机。本文采用自然语言技术处理新闻数据,可实现对信息的准确度量与提炼,同时大幅提升处理效率。

海内外机构广泛关注另类数据。

1)国际咨询事务所格林威治联营公司 2018 年的调查表明,为另类数据每年花费在 10 万美金到 100 万美金的机构占 41%,高于 100 万美金的占比为 22%。

2) 2015 年,欧洲央行的一份研究报告指出,通过检索 Twitter 和 Google 中“牛市”和“熊市”两个词出现的频数作为投资者的情绪指标,能够有效预测道琼斯、标普 500 等指数的未来收益率。

3)国内资产管理机构也已开始布局基于另类数据的金融产品。

模型篇:情绪识别模型与情绪指标构建。

传统的情绪模型依赖于情绪词库的建立,不但工程量巨大,而且容易断章取义,而本文使用的 BERT 模型能够有效解决这些问题。BERT 模型的构建主要包含大数据集预训练和目标数据集微调参数两个步骤。前者的主要原理是通过预测句子中被遮掩的字来学习语言的规律;对于后者,我们根据股票本身的收益率来构建情绪标签。训练完成后,BERT 模型可以输出每条新闻的情绪分数,然后对当天所有股票的情绪分数取算术均值来构建当天的情绪指标。

观察篇:情绪指标具备领先性与显著性。

从情绪指标和中证全指的历史走势来看,情绪指标具有一定的领先作用。经测算,情绪指标相对 5 日均值的变化值与指数未来 1 日、3 日的在测试数据上的相关系数分别达到 0.07 和 0.09,且正线性关系具有 90% 的置信概率。

应用篇:避险、杠杆增强和热点发现。

1)短期风险防范:情绪指标在历史中风险极大的一些时点,例如 2015 年牛熊转换拐点和 2020 年 1 月 23 日都呈现明显的悲观情绪。

2)基于情绪指标的杠杆增强策略:在情绪指标相对 5 日均值变化高于上阈值时做多,低于下阈值时做空。今年以来(截至 4 月 30 日),杠杆增强策略相对沪深 300 指数实现了 10.35% 的超额收益;

3)科技板块热点发现:将行业内成分股的情绪分数加总,能够得到行业级别的情绪热度指数,对于科技板块有良好的热点发现功能。例如在电子行业,从 2019 年 5 月开启了一段小牛市,以情绪指标作为观察窗口,可以发现在启动阶段,稀土、5G 等相关板块的新闻层出不穷且表现出强烈的正面情绪。

风险因素:

模型过拟合;识别结果与真实情绪出入较大;舆情数据的可得性与连续性风险。

量化|量化新闻情绪,把握投资先机

量化|量化新闻情绪,把握投资先机

中信证券研究

提供行业资讯,让您方寸间知天下!

量化|量化新闻情绪,把握投资先机量化|量化新闻情绪,把握投资先机

来源链接:mp.weixin.qq.com