下面是小编为大家整理的量化新闻情绪,把握投资先机(范文推荐),供大家参考。
目录
投资聚焦
....................................................................................................................................... 1
海内外机构广泛关注另类数据
................................................................................................... 1
海外金融机构投入高成本布局另类数据
.................................................................................... 1
海外对新闻数据投资价值的探索
................................................................................................ 2
国内部分机构也已开始布局基于另类数据的金融产品
............................................................ 3
模型篇:情绪识别模型与情绪指标构建
................................................................................... 4
BERT
模型:深度提取情绪信息
................................................................................................ 5
文本语言的编码
........................................................................................................................... 5
BERT
模型的基本原理
................................................................................................................ 6
以市场为指导:借用收益率作为标签
........................................................................................ 7
情绪指标构建
............................................................................................................................... 8
观察篇:情绪指标的领先性与显著性
....................................................................................... 9
情绪指标具有短期领先效应
........................................................................................................ 9
情绪指标在两次拐点行情中的走势展示
.................................................................................. 11
应用篇:避险、杠杆增强和热点发现
..................................................................................... 12
情绪指标应用一:短期风险防范
.............................................................................................. 12
情绪指标应用二:基于情绪指标的杠杆增强策略
.................................................................. 13
情绪指标应用三:科技板块热点发现
...................................................................................... 14
结论
............................................................................................................................................. 16
风险因素
..................................................................................................................................... 16
插图目录
图
1 :
2018
年投资机构在另类数据上预算的分布
................................................................... 1
图
2 :
2018
年不同管理规模的投资机构在另类数据上的平均预算
........................................ 1
图
3 :
2018
年投资机构对各类投资研究的使用占比
............................................................... 2
图
4 :
2018
年投资机构对各类投资研究方式未来变化的预期
................................................ 2
图
5 :从模型训练到应用指标的处理流程
................................................................................. 4
图
6 :预训练和参数微调示意图
................................................................................................ 5
图
7 :词向量表示原理图
............................................................................................................ 6
图
8 :
BERT
模型的原理图
......................................................................................................... 7
图
9 :分年度的新闻数目统计
.................................................................................................... 8
图
10 :情绪指标
20
日均线和中证全指走势
............................................................................ 9
图
11 :
2018
年情绪指标和中证全指走势
.............................................................................. 10
图
12 :
2019-2010
年情绪指标和中证全指走势
.................................................................... 10
图
13 :牛熊转换时的情绪指标变化
........................................................................................ 11
图
14 :情绪转暖指数止跌转升
................................................................................................ 11
图
15 :
2011
至
2018
年情绪指标变化值与中证全指下期收益的关系
................................ 12
图
16 :
2019
至
2020
年情绪指标变化值与中证全指下期收益的关系
................................ 12
图
17 :杠杆增强策略的净值趋势
........................................................................................... 13
图
18 :电子行业相对情绪指数
vs
电子行业指数相对表现
.................................................. 15
图
19 :
2019
年电子行业相对情绪指数
vs
电子行业指数相对表现
..................................... 15
图
20 :通信行业相对情绪指数
vs
通信行业指数相对表现
.................................................. 15
图
21 :
2012-2013
通信行业相对情绪指数
vs
通信行业指数相对表现
.............................. 15
图
22 :计算机行业相对情绪指数
vs
计算机行业指数相对表现
.......................................... 16
图
23 :
2013
年计算机行业相对情绪指数
vs
计算机行业指数相对表现
............................. 16
表格目录
表
1 :国内已发行的大数据基金
................................................................................................ 3
表
2 :情绪指标公式汇总
............................................................................................................ 9
表
3 :情绪指标的相关性测试
................................................................................................. 10
表
4 :情绪指标的显著性测试
................................................................................................. 10
表
5 :
2015
年
6
月
4
日至
6
月
12
日的极负面的新闻
.......................................................... 11
表
6 :
2019
年
8
月
1
日至
8
月
12
日的极正面的新闻
......................................................... 12
表
7 :春节前后疫情相关新闻
................................................................................................. 13
表
8 :杠杆增强策略的历史表现
............................................................................................. 13
表
9 :
2019
年
5
月至
2019
年
9
月的电子行业典型正面新闻
............................................. 14
表
10 :
2012
年
11
月至
2013
年
3
月的通信行业典型正面新闻
......................................... 15
表
11 :
2013
年
9
月至
2013
年
12
月的计算机行业个股典型正面新闻
............................. 16
▍ 投资聚焦
据第
44
次《中国互联网络发展状况统计报告》(中国互联网络信息中心),截至
2019
年
6
月,我国网民规模达
8.54
亿,互联网的普及率达
61.2% ,网络新闻用户规模达
6.86亿,占网民整体
80.3% 。
IDC
预测, 2025
年全世界每个联网的人每天平均将有
4785
次数据互动,是
2020
年的
8
倍多,相当于每
18
秒产生
1
次数据互动。
伴随互联网的快速发展,信息传播效率大幅提升,而新闻作为信息传播网络中一个关键节点,对于引导和反映社会舆论的作用显著增加。
把握住了新闻舆情,即可监测社会思想和情绪的变迁,有助于掌握投资的先机。
然而,面对日益增长的数据量,目前的处理方法则显得捉襟见肘。
新闻数据有着高度非结构化的特点,传统的基于规则的处理技术很难应对,人工处理的瓶颈也逐渐显现。随着信息化程度进一步提高、上市公司数量增多,这一情形会变得更加严峻。
为了解决这一问题,本文采用最新的自然语言技术
BERT
来处理新闻数据,可实现对新闻情绪的准确度量与提炼,同时大幅提升处理效率。另外,本文根据模型对新闻的评分构建了情绪指标,可有针对性地应用于避险、杠杆增强和热点发现等领域。
▍ 海内外机构广泛关注另类数据
海外金融机构投入高成本布局另类数据 2018
年,国际咨询事务所格林威治联营公司( Greenwich
Associates )采访了资管机构、对冲基金和自营公司的管理人或经理人以期了解他们对另类数据的使用情况。调查表明,每年为另类数据花费在
10
万美金到
100
万美金的机构占
41% ,高于
100
万美金的占
比为
22% 。按管理规模来看,在
20
亿以下的资管机构平均花费为
35.7
万美金,而管理资
产大于
250
亿的大型机构,每年的平均预算高达
147
万美金。
图 1:2018 年投资机构在另类数据上预算的分布
图 2:2018 年不同管理规模的投资机构在另类数据上的平均预算
$1,600,000 <$10万
$10万- $1百万
$1百万- $5百万
>$5百万 $1,400,000 $1,200,000 $1,000,000 $800,000 $600,000 $400,000 $200,000 $0
资料来源:greenwich.com,
资料来源:greenwich.com,
7 15 37 41 $1,472,22 2 $1,056,25 0 $607,143 $357,143
57
21
411 43
44
格林威治联营公司
2018
年的另一项调查显示,投资机构参考的主要投资研究是来自内部研究、会议、投行研究等。另类数据的使用相对小众,分别有
3% 、 14% 和
21% 的机构将其作为主要来源、第二来源和第三来源。然而,受访者对另类数据的占比增长有较高的预期,有
50% 的受访者认为另类数据未来会呈增长态势。
图 3:2018 年投资机构对各类投资研究的使用占比
主要来源 第二来源 第三来源 0% 20% 40% 60% 80% 100% Proprietary internal research Investment bank research Roadshows
48 45 34
31
24
90
24 21
24
14
3
14 7
10
38
3
14
Public records data (e.g., EDGAR) 21 14
21 24
10
14
Industry research providers (e.g., Gartner,…
14
21
Alternative data sources 10 3 3 17 14
14 10
21
17
Financial publications (e.g., Barron’s) 21 10
24
资料来源:greenwich.com,
图 4:2018 年投资机构对各类投资研究方式未来变化的预期
Investment bank research Expert networks Financial information systems (e.g.,… Industry research providers (e.g., Gartner,… Conferences Academic research Financial publications (e.g., Barron ’s ) Roadshows Investment newsletters Public records data (e.g., EDGAR) Alternative data sources Proprietary internal research Independent research providers Other
32
7
29
18
36
7
减少保持增加
50
43
39
资料来源:greenwich.com,
海外对新闻数据投资价值的探索 另类数据中的典型代表就是互联网的文本数据。
大量的信息都是以文本的形式在互联网进行传播,如公司公告新闻资讯论坛讨论等。
然而,这些文本数据大多为高度非结构化的数据,使用基于规则的方法提取信息十分困难。
计算机技术尤其是自然语言处理技术的
进步,使得文本处理工具越来越强大和丰富。新的工具可以更好地提取信息,甚至简化处理步骤,例如省略分词处理。
2010
年一份研究表明 1 ,在推特( Twitter )平台中,用户在投资领域的集体倾向和道琼斯指数的...
推荐访问:量化新闻情绪,把握投资先机 先机 量化 情绪