下面是小编为大家整理的基于新闻舆情数据选股因子【优秀范文】,供大家参考。
一、新闻舆情对股价的影响
..................................................................................... . - 6 - 1. 1
舆情对股价的影响................................................................................. - 6 -
1. 2
通联数据情感因子库介绍...................................................................... - 7 - 二、新闻情绪因子构建...................................................................................... - 11 - 2. 1
新闻情感平均值因子........................................................................... - 11 -
2. 2
新闻热度因子...................................................................................... - 12 -
2. 3
新闻情绪因子...................................................................................... - 14 -
2. 4
新闻类型改进的新闻情绪因子 ............................................................ - 15 -
2. 5
包含基本面信息的强相关新闻情绪因子.............................................. - 16 - 三、新闻情绪因子在不同市值下表现................................................................ - 18 - 四、新闻舆情因子的其他刻画方法.................................................................... - 22 - 4. 1
新闻情绪差值因子............................................................................... - 22 -
4. 2
新闻情绪分歧度因子........................................................................... - 23 - 五、新闻舆情多头策略...................................................................................... - 25 -
图表目录 图表
1 :通联新闻数据对 A
股覆盖率
................................................................... . - 7 - 图表
2 :通联数据库新闻情感数据生成流程 ........................................................ - 8 - 图表
3 :通联数据库新闻标签类型
.................................................................... - 10 - 图表
4 :新闻情感平均值因子分档回测 ............................................................. - 11 - 图表
5 :新闻情感平均值因子多空回测 ............................................................. - 11 - 图表
6 :新闻情感平均值因子收益表现 ............................................................. - 12 - 图表
7 :新闻数量因子分档回测 ........................................................................ - 13 - 图表
8 :新闻数量因子多空回测 ........................................................................ - 13 - 图表
9 :新闻数量因子收益表现 ........................................................................ - 13 - 图表
10 :新闻情绪因子分档回测 ...................................................................... - 14 - 图表
11 :新闻情绪因子多空回测 ...................................................................... - 14 - 图表
12 :新闻情绪因子收益表现 ...................................................................... - 14 - 图表
13 :不同新闻类型下的强相关新闻情绪因子多空回测 .............................. - 15 - 图表
14 :包含基本面信息新闻下不同相关度情绪因子最高组表现 ................... - 17 - 图表
15 :包含基本面信息新闻下不同相关度的情绪因子多空回测 ................... - 17 - 图表
16 :包含基本面信息的强相关新闻情绪因子分档回测 .............................. - 17 - 图表
17 :包含基本面信息的强相关新闻情绪因子多空回测 .............................. - 17 - 图表
18 :包含基本面信息的强相关新闻情绪因子收益表现 .............................. - 18 - 图表
19 :新闻情绪因子分市值多空净值 ........................................................... - 19 - 图表
20 :包含基本面的强相关新闻情绪因子分市值多空净值
.......................... - 19 - 图表
21 :超大市值组新闻情绪因子分档回测 .................................................... - 20 - 图表
22 :超小市值组包含基本面的强相关新闻情绪因子分档回测 ................... - 20 - 图表
23 :基本面信息下强相关新闻情绪因子分市值收益表现
.......................... - 20 - 图表
24 :强相关新闻情绪差值因子分档回测 .................................................... - 22 - 图表
25 :强相关新闻情绪差值因子多空回测 .................................................... - 22 - 图表
26 :强相关新闻情绪差值因子收益表现 .................................................... - 22 - 图表
27 :低情绪下新闻情绪变化因子分档回测 ................................................ - 23 - 图表
28 :高情绪下新闻情绪标准差因子分档回测
............................................ - 24 - 图表
29 :包含基本面的强相关新闻情绪分歧度因子分档回测
.......................... - 24 - 图表
30 :包含基本面的强相关新闻情绪分歧度因子多空回测
.......................... - 24 - 图表
31 :包含基本面的强相关新闻情绪分歧度因子收益表现
.......................... - 25 - 图表
32 :三种新闻情绪多头策略净值曲线
....................................................... - 25 - 图表
33 :三种新闻情绪多头策略表现 ............................................................... - 26 -
图表
34 :高情绪、低标准差、高正向情感占比多头组合
................................ . - 27 - 图表
35 :高情绪、低标准差、高正向情感占比多头组合表现
.......................... - 27 -
一、新闻舆情对股价的影响 1.1 舆情对股价的影响
舆情对股价的影响是近年来行为金融学热点研究领域之一 ,
在大数据的支持下,我们可以通过文本挖掘技术发现新闻信息的背后情绪 , 并作为分析股价涨跌的新视角。
通常认为,股价主要受业绩和估值两方面因素驱动。而新闻中体现的市场情绪一方面影响中短期的估值水平,一方面也反应了市场对公司未来业绩的预判,因而把握舆情对预测股价收益有重要影响。
在因子模型中,新闻舆情因子属于另类
A l pha
因子的一种。相比于传统的业绩因子,新闻舆情因子能够以更加高频的动态来捕捉影响因素的变化情况,在选股周期上更加灵活;相对于同样高频的量价因子,新闻舆情因子的逻辑意义则更加直观。
新闻舆情对股价的影响可以从两个方面刻画:舆情的热度(新闻数量)和舆情的评价度(新闻情感)。两者相对来说,新闻数量对股价的影响可能更偏短期;而新闻情感由于包含了对公司业绩、经济环境的中长期展望,对股价可能产生持续的影响。
通过爬取新闻数据并对新闻中体现的情感进行标准化打分,我们不仅可以定量刻画新闻的热度,也可以定量把握新闻的情感。
1.2 通联数据情感因子库介绍
1)
数据覆盖率
当前
A
股上市公司共有
3876
家,其中在通联数据库中有新闻数据的个股共 3848
只,覆盖率为
9 9. 86 % 。根据历史数据统计,通联新闻数据对
A
股的月频覆盖率保持在
98. 8% 以上,覆盖情况较为充足稳定。
图表
1 :通联新闻数据对
A
股覆盖率
来源:通联数据,中泰证券研究所
2)
新闻情感生成规则
通联新闻数据来源于
1500 + 个新闻源,包括常见的财经网站、官方网站、以及有影响力的公众号等自媒体,交易日平均新闻数量在
2
万条左右,单条新
闻发布后平均在
3
分钟内完成数据库收录以及相关参数计算。
通联新闻数据从
2014
年开始实时更新,数据内容包括:新闻标题、新闻来源、发布时间、关联公司、关联度、情感得分以及新闻标签等。其中, 新闻情感得分是通联数据库中的特色数据,以取值在 [ - 1,1] 之间的标准化得分形
式来定量刻画每条新闻的情感倾向。
新闻情感的标准化得分主要基于
N LP
语义分析和机器学习算法生成。
单条新闻收录后,首先识别新闻中关联的上市公司,并通过新闻类型与上下文内容给出新闻与个股的相关程度,分为
0 / 1 / 2
三个等级,其中
2
表示强相关, 1
表示弱相关, 0
表示不相关。其次,使用
NL P
模型进行语义分析,并将分
析结果输入机器学习模型,输出正向情感( 1 )
/
负向情感( - 1 )
/
中性情感
( 0 )三个分类的概率,最终加权得到该条新闻对关联个股的情感得分。情感得分为 [ - 1,1] 之间取值的标准化分数,分数越大表示新闻情感越正面。
新闻情感的机器学习训练数据的时间覆盖区间为
2014
年
7
月至
2019
年
1
月,其中
2018
年之后比重较大,既保证模型对最新的新闻有较强的拟合能力,又保证模型对长尾新闻有一定的泛化能力。同时历史新闻数据为千万量级,训练数据为万级,避免了机器学习算法中对数据过拟合的问题。
图表
2 :通联数据库新闻情感数据生成流程
来源:通联数据,中泰证券研究所
例如,在
2020
年
6
月
28
日发布的新闻《贵州国威酒业携手中国食品发酵
工业研究院共建绵柔酱香型白酒技术标准体系》中提到 “ 通过与中国食品发酵工业研究院的合作,将大大加快国威酒业酱香型白酒生产标准跨入标准化体系的进程,意味着绵柔酱香型白酒的研究进入了新的里程。同时,也为酱酒大家庭中增加了一个更具典型特点和健康属性的明珠 ” 。通联新闻数据库对该新闻提取的相关上市公司为贵州茅台,相关度为
2 (强相关),情感得分较高为
0. 65
分。
2020
年
6
月
29
日发布的新闻《端午节白酒小高峰未到
动销两极分化,难
倒
8
成中小酒商》主要对白酒行业进行整体分析,提到贵州茅台、五粮液等多个上市公司,新闻中既表示高端白酒销量更好,又对疫情影响下后续消费力度表示担忧。通联新闻数据库对该新闻与贵州茅台的相关度评为
1 (弱相关),情感得分为相对中性的
0.03
分。
3)
新闻标签类型
另外, 通联数据对新闻的类型也进行了标记 ,主要包括:新闻是否包含基本面信息、新闻是否包含数据、是否长新闻、是否来源于专业网站、是否短新闻、是否为月度数据、是否国家发布的政策、是否图片式新闻、以及是否定期报告等。
新闻类型标签以及分类规则见图表
3
所示。这里需要注意,由于新闻中经常引用和转发证券公司的研究报告,因此新闻数据中也包含研究报告数据。研报数据多被归至包含基本面信息的新闻、月度数据新闻、以及定期报告新闻中。
举
图表
3 :通联数据库新闻标签类型
通联数据对
例如, 2020
年
6
月
29
日发布的《智飞生物:融资余额
19 .7 1
亿元,创历史新高( 06 - 24 )》被划归为不包含基本面信息新闻、包含大量数据信息新闻、以及来源于非专业网站新闻(新闻发布于东方财富网)。
和讯研报网
2018
年
10
月
8
日发布的《智飞生物:看好公司业绩持续高增长
买入评级》被划归为包含基本面信息新闻、来源于专业网站新闻(新闻为转载研报)。但由于新闻并非以数字为主,故被划归为非大量数据信息新闻。
是否月度数据
是否国家发 布 的政策
是否定期报告
来源:通联数据,中
券研究所 )泰证一般包括证券公司研究报告/国家统计局报告。
是否包含图片式信息。
型
是否图片式 新 闻
是否与国家政策相关。
类
新闻主要对某个月进行总结(一般新闻标题中会点名月份,如某地 9
月份房价变化)。
新闻字数不超过 200
个字。
闻
是否短新闻
是否来源于 专 业 网 站
新
其中共分为 3
类:标记 1
代表专业新闻,来源一般为证券公司官网/公司官网/报纸(如证券时报)/财经新闻(如和讯/搜狐)/财经论坛(如证券之星/金融界);标记 0
代表非专业新闻,来源一般为财经论坛(如东方 财富网/新浪财经);标记 2
代表来源于微信。
(
是否长新闻
新闻字数超过 2000
字。
新闻中是否包含大量数字。
息
例
是否包含数 据 信
新闻是否包括宏观/行业/公司基本经济与财务信息。
是否包含基 本 面信息
标签解释
新闻标签
二、新闻情绪因子构建 2.1 新闻情感平均值因子
国内外学术研究都表明,新闻情绪可以影响上市公司的股票价格,正面情绪会导致股票价格上涨,负面情绪会引发股价下跌。从经济意义上来说,新闻中体现的情感越正向,代表市场对上市公司或股价走势的前景更有信心,因此可能对应股价未来更好的表现。
考虑到日频数据的换手成本过高,我们计算月度数据作为新闻情感因子。在每月末计算每只股票当月所有新闻的情感分数的平均值,来刻画个股当月的新闻情感度,并以此作为次月持仓个股的筛选条件。
按每...
推荐访问:基于新闻舆情数据选股因子 舆情 因子 选股