当前位置:舍宁秘书网 > 专题范文 > 公文范文 > 融合注意力机制的多通道CNNs-BiLSTM情感极性分析方法

融合注意力机制的多通道CNNs-BiLSTM情感极性分析方法

时间:2024-10-18 10:30:03 来源:网友投稿

谢玉惠,肖桂荣

(福州大学 数字中国研究院(福建),福州 350108)

(福州大学 空间数据挖掘与信息共享教育部重点实验室,福州 350108)

当重大公共卫生事件爆发时,民众的生理和心理健康均受到不同程度的威胁,突发公共卫生事件的不可预测性、破坏性和演化的不确定性容易导致人们产生极端的负面情感并导致一系列严重的社会和经济问题,随着移动互联网的飞快发展和网络社交媒体的兴起,微博等社交媒体则是了解公众想法的有效渠道之一[1].

社交媒体作为人们沟通交流、表达观点的讨论平台,积累了海量具有用户痕迹数字化信息,为文本情感分类和话题抽取提供了强大的数据基础.近年来,微博、抖音、微信等移动交流终端成为民众网络沟通和情感表达的重要途径,使用者进而成为信息的生产者和消费者,可以在短时间内就不同主题发表和分享意见、兴趣和情感,如居住意见[2]、灾害研究[3]等领域微博数据已应用甚广.2020年初新冠肺炎爆发,对居民的生命健康与国民经济的有序发展产生了极大的影响,疫情相关信息得到高度关注,以微博为代表的社交媒体,成为当前疫情期间我国民众获取疫情进展状况、分享信息和情绪宣泄的首选平台[4].通过分析疫情期间的民众微博信息,挖掘文本信息中用户的情感极性,有助于了解公众对于疫情的情感状态和价值取向,从而使得有关部门能够动态了解民众心理倾向,准确把握事件相关舆论的发展动态.

本文基于情感分析,对新型冠状病毒疫情期间的网络舆论情感态势进行研究.文本情感分析最早由Nasukawa提出,是指通过自然语言处理实现文本情感色彩的挖掘、分析、归纳和推理.本文的研究内容是对疫情期间我国民众在微博平台上所发布的疫情相关信息的博文进行情感极性分析.微博短文本信息包含大量的网络用语、表情符号等,并且由于疫情的时间跨度长,人们所发布的博文的情感极性往往会因为时间或某些特殊事件的发生而改变,因此传统的情感分析方法并不适用于该任务.本文提出了一种融合注意力机制(attention)的CNNs-BiLSTM情感极性分析方法,将卷积神经网络和双向长短期记忆网络结合起来,通过注意力机制获取文本中的关键词信息,高效准确实现数据时序和语义信息挖掘.

现阶段情感分析主要有3种方法,首先是基于情感词典获取情感词的情感强度或者极性加权计算文本的情感倾向.Hung等[5]和Hung等[6]基于情感词典对评论数据进行情感分类,但由于情感词典中情感强度值不灵活,后者以客观词出现在正面和负面酒店评论文本中的频率高低为依据重新定义客观词的情感值来改进情感分类.并且通用情感词典不能完全覆盖所有的情感词[7],应用于不同领域时也存在着明显的局限性.网络流行语言情感词典、表情词典的构建[8]有利于微博文本情感分析,并且否定词和修饰词对情感分析也起到重要作用[9].利用机器学习方法进行情感分析的精准性、扩展性与可重复性皆优于情感词典的方法,后来越来越多的学者将目光投入关于情感分析的机器学习方法研究中.曾子明等[10]构建了XGBoost的集成情感分析模型框架,取得了不错的效果.Yao等[11]基于城市Twitter数据进行公众情绪分析,对比了三种传统机器学习模型,但是结果皆不尽人意,分类精度不能满足后续分析.随着数据量的激增,文本信息的特征越来越复杂,深度学习的出现为自然语言处理任务提供了新的手段.CNN模型最早应用于自然语言处理任务,Wu等[12]通过CNN模型自动挖掘相关特征来进行情感分析,但是单一的卷积模型往往不能考虑上下文关系[13].Hossain等[14]发现BiLSTM技术对上下文关系的探索相对优于其他机器学习算法精度,Dashtipour等[15]也发现双层BiLSTM模型具有较高的准确率,LSTM和CNN组成的神经网络架构也有不错的分类效果[16],徐绪堪等[17]利用BiLSTM与多个CNN叠加的混合模型在微信推文评论的情感分类中取得理想效果.同时融合注意力机制的情感分析模型也得到了越来越多研究者的关注[18,19].

本文将基于情感分析,对新型冠状病毒疫情期间的网络舆论情感态势进行研究,以疫情期间我国民众在微博平台上所发布的疫情相关信息的博文为研究对象进行情感极性分析.提出了一种融合注意力机制的CNNs-BiLSTM情感极性分析方法,将卷积神经网络和双向长短期记忆网络结合起来,通过注意力机制获取文本中的关键词信息,高效准确实现数据时序和语义信息挖掘.

3.1 舆情数据集构建

本文使用的原始微博舆情语料数据来自于Hu等[20]提供的社交媒体数据集(Weibo-COV V2),该舆情数据含有大规模的疫情相关微博,主要以微博活跃用户作为爬取对象,活跃用户更倾向于以微博作为网络交流讨论的工具,因此,所获取的微博信息相对于非活跃状态的微博用户发表的博文更具实时性,情感状态也更加丰富.该数据集中包括微博内容数据和用户信息数据,为了满足实验需求,先将这两份数据根据用户名称信息进行合并,再将数据集中关于抽奖、某些娱乐明星超话、以及微博信息不完整、内容相同的微博数据删除,再以这份数据集为基础构建一份新的微博情感极性数据集.从数据集中选取了部分微博文本数据,通过人工标注方式进行情感极性标注,标记小组一共7人,为保证数据标注的质量,采用了交叉重复标记,删除了两轮标记不一致的文本,共整理了63975条数据.为了避免因为样本数量不均衡而导致实验结果不理想,其中情感表达为正向的文本数据一共31987条,情感表达为负向的数据一共31988条,标签语料数据集达到样本的正负情感极性均匀分布.最终得到的情感标注示例如表1所示.

3.2 舆情数据集预处理

数据预处理是文本情感极性分析不可缺少的前期工作,主要内容包括数据过滤、文本分词、去除停用词.在所构建的标签语料数据集中,包含许多非文本数据、标签、以及‘@#//【】’等特殊字符,考虑到优化效率节省存储空间以及词向量表示准确性,所以需要将这些无用的信息清除掉,主要通过正则表达式匹配来过滤信息.

文本分词采用jieba分词工具进行处理,jieba分词是以基于Trie树结构实现高效的词图扫描,生成有向无环图显示所有可能的分词情况,以基于前缀词典的词频高低作为分词的依据,对于未登录词则是通过加载HMM概率模型图,使用Viterbi算法动态规划取得分词结果.由于jieba工具分词词库本身的局限性,可能并未涵盖新冠疫情期间的某些热词,比如“逆行者、检测率”等.因此,本文以疫情相关热词构建了用户自定义词典,从而对jieba分词语料库进行优化,经过对文本分词后,再使用哈工大停用词表对停用词进行过滤.同时,考虑到年轻人的符号表达方式,如“!!!”、“???”,在本文的语料库中保留了“!?”符号.

本文基于卷积神经网络CNN和双向长短期记忆网络BiLSTM构建了COVID-19疫情舆情微博情感极性分类模型.在BiLSTM和CNN的基础上引入了注意力机制,提出了一种适用于微博文本情感极性分析的卷积网络与双向长短期网络相结合的多通道模型(Multi-Channel-CNNAtt-BLSTMAtt,MCCB),具体结构如图1所示.

图1 卷积网络与双向长短期网络相结合的多通道模型结构(MCCB)

4.1 词向量表示层

文本数据在经过预处理后,通过向量化后输入情感分析模型进行下一步处理,本文以清洗后的微博疫情舆情语料数据进行词向量训练.该语料数据大小约4.3GB,采用Word2Vec工具进行大规模文本训练,将文本转化为低稠密的向量空间.本文选择Word2Vec工具Skip-gram模型训练词向量,Skip-gram模型将语料中的所有词语作为中心词,通过中心词与上下文对应关系的条件概率分布来预测其上下文的词汇信息.表达公式如下:

(1)

其中i=t-1,t-2,t+1,t+2,Wi为上下文也就是周围词汇的表示向量,Wt则代表为中心词.而训练得到的词向量表示为[W1,W2,…,Wn],其中n为文本单词总数,经过词嵌入层转换后,文本则表示为[x1,x2,…,xn].Word2Vec模型具体训练参数如表2所示.

表2 Word2Vec模型参数

4.2 CNN网络

CNN作为一种特殊类型的前向神经网络,近年来被学者广泛应用于自然语言处理领域,基本结构分为3个部分,输入层、卷积层与池化层、全连接层[21],如图2所示.卷积层提取特征首先是以词向量矩阵形式表示文本,再通过不同大小的卷积核对矩阵进行扫描,在扫描的过程中,卷积核所组成的滤波器的参数值固定不变,过滤后映射出新的特征图,该特征图上的所有元素都来自于参数一致的滤波器.

图2 CNN网络结构示例

4.3 BiLSTM神经网络

LSTM是一种特殊的循环神经网络(RNN),由一个个细胞单元与3个门组成,细胞单元是核心计算能力,记录当前计算状态,而遗忘门、输入门和输出门调节进出存储单元的信息流,遗忘门清除存储单元中的无用信息,输入门选择当前存储单元的输入信息,输出门决定信息的最终输出.

在对微博文本进行情感分析时,往往需要考虑到上下文语义特征对文本整体情感状态的影响,但一般的LSTM模型语义捕获只针对于文本中单向的语义关系,也就是忽略了下文语义特征对整体状态的影响.而BiLSTM模型由正反两个方向的LSTM网络构成,基于两个不同的顺序充分捕获上下文信息,可以挖掘更为全面的文本语义,如在图3所示,h1是经过两个LSTM层输出的正向的隐藏状态和反向的隐藏状态拼接后得到相应的句子特征向量.

图3 BiLSTM网络结构示例

4.4 注意力机制

由于长距离依赖性问题,CNN或RNN对于句子的整体特征提取结果不尽如人意,而对于微博语料而言,并非所有的词汇都对句子含有语义表达作用,因此本文通过融入注意力机制来提取句子中的重要信息,计算注意力概率分布,相对重要的部分给予更大的权重值,权重越大的特征在整个文本中越重要,以此机制把握文本总体特征.注意力机制主要结构如图4所示.

图4 注意力机制结构示例

主要公式如下:

(2)

(3)

(4)

4.5 MCCB模型

本文提出的MCCB模型中,Input输入层为第1层,读取经过清洗后的数据集.经过分词处理的微博文本数据传入第2层Embedding层,向量化过程中使用Word2Vec模型,Embedding层根据传入的词嵌入相应的向量,将该向量传输进多通道模型中.模型的第3层为多通道特征提取层,进入BiLSTM模型通道,可通过正负两个方向同时捕获语义信息.多个CNN模型则是为了提取句子不同尺度下的局部特征,使用不同大小的卷积核可提取不同维度的特征更好地实现语义信息的提取.利用Word2Vec模型所训练的词向量维度为350,3个卷积通道的过滤器分别为1×350,2×350,3×350,池化层采用了Max Pooling操作,摒弃弱特征.BiLSTM模型通道采取L2正则化处理,进而控制模型复杂度尽量避免过拟合发生.在第4层中引入注意力机制,提取各个通道更重要的特征信息;拼接层将所有通道输出的特征汇总,获取更为丰富的特征信息;汇总后的特征传入全连接层,添加了随机失活机制以减少冗余,并提高模型泛化能力.最后根据输出层的Softmax分类器判断文本所属的情感极性类别.

本文实验环境如下:操作系统为Window10,CPU是Intel(R) Core(TM) i7-7700,采用Python语言,深度学习框架为TensorFlow,GPU为NVIDIA GeForceRTX 2080ti.

5.1 评估指标

本文采用精确率(Precision,P)、召回率(Recall,R)、F1值(F-score)作为情感极性分类的评价指标.精确率(P)表示所预测出所有情感极性标签为正的样本中被正确分类的情绪样本占所有预测标签为正的样本比重,召回率(R)为所有情感极性标签为正的样本样例中,标签被正确识别为正样本的比例,F1值为精确率(P)与召回率(R)的调和平均数.公式如下所示:

(5)

(6)

(7)

5.2 评估指标实验参数设置

为进一步提升本文模型的性能需要对超参数进行优化,对所构建的MCCB模型的滤波器的窗口高度、滤波器数量、BiLSTM隐藏层单元数、随机失活率超参数进行了调节实验.

由图5可以看出,随着各通道滤波器高度的增加,模型的性能反而下降,这表明当各通道滤波器高度设置为[1,2,3]时,模型性能最佳.当各通道滤波器数量增多时,模型性能也随之上升,各个通道滤波器数量设置为[64,128,256]时模型表现最优,之后开始回落.数量相对较多时模型特征提取能力增强,所提取的特征过多可能导致过拟合.当BiLSTM隐藏层单元数为150时,精确率最高,隐藏层单元数较大会导致模型参数增加,过拟合的风险也随之增大.当随机失活率大于0.4时,模型的整体性能有所下降,随机失活的比例越大,训练过程中引入的噪声就越多,特征信息不足或导致模型识别精度下降.

图5 不同影响因素对实验结果的影响

5.3 实验结果与分析

为评估本文提出的MCCB模型预测效果,将选取一些基准模型在同等实验环境下进行对比.本文选取的基准模型具体如下:

1)逻辑回归模型(LR)[22]:主要解决二分类问题,是经典的机器学习分类模型.

2)支持向量机(SVM)[23]:使用TF-IDF来表示文本词语,通过SVM算法进行情感情感极性判断.

3)LSTM和BiLSTM模型[24]:利用LSTM捕获单向语义或BiLSTM抽取句子上下文特征,通过softmax分类器进行情感分析.

4) CNN-Att[25]和BiLSTM-Att模型[26]:CNN提取文本局部特征信息,或是利用BiLSTM获取上下文语义信息,再以Attention计算模型输出特征的注意力权重,最终进入全连接层与分类器进行输出.

5)CNN-BiLSTM模型:将分词后的句子经过词嵌入进行向量化,再输入CNN中,所抽取的局部特征进一步输入BiLSTM中,最后通过分类器得到最终结果.

本文用所提出的MCCB模型与其他几种神经网络模型方法在疫情情感数据集的实验结果如表3所示.由实验结果可知,LR与SVM这类传统机器学习模型实验效果不佳,LR模型相对简单,其模型本身无法进行特征筛选,所拟合的数据效果欠佳;而SVM模型分类效果虽然优于LR模型,但针对句中的词向量信息也只是进行了单一的加权平均,因此传统的机器学习方法不适用于现阶段的需求.在微博情感极性分析实验中可明显看出,深度学习模型的测试结果优于传统机器学习模型.BiLSTM模型的实验结果相较于LSTM模型具有更高的准确率,可见双向单元在序列化数据处理中具有明显优势.在CNN网络中融入注意力机制后,其分类效果优于LSTM模型,CNN网络通过卷积窗口的滑动学习文本的词向量表征,能够有效提取句子的局部特征,并且注意力机制可以在陈述性记忆中重点关注且定位到语义相关的词汇上,能够更好地捕获情感词赋予其较高的权重值.CNN-BiLSTM模型的分类结果相对于以上几种模型更佳,结合了CNN和BiLSTM模型两方面的优点,考虑到了局部信息与上文信息的整合,但是测试结果仍稍逊于MCCB模型,通过CNN获取局部信息后再传递到BiLSTM网络中,但是以这种递进结构进行特征传输会导致特征信息不完整.可见,MCCB模型相对于传统机器学习模型相对于文本特征的把握更具优势,通过多通道的卷积网络和双向长短时记忆神经网络提取文本特征,比单一的CNN和BiLSTM网络捕获的信息更加全面,注意力机制的引入使模型更加关注于文本的情感部分,通过权重信息的分配使得文本表示更富有情感特征信息,这一优势同样体现在BiLSTM和BiLSTM-Att模型的对比中,文本表示一致,但是模型在注意力机制的作用下得到了有效提升.

表3 实验对比结果

为进一步探究本文所提出的MCCB模型各部分设计的优点,开展了消融实验.将MCCB模型进行了分解,分别移除了BiLSTM网络、多通道CNN网络、Attention机制,以此验证被去除部分的有效性,为控制参数对实验的影响,每组实验超参数设置相同.实验结果如表4所示(w/o代表 without).

表4 消融实验结果

从实验结果可以看出模型的每一部分结构对于模型的性能均有明显提升,在相同条件下,词嵌入层使用Word2Vec所训练的词向量相比采用随机初始化字向量的方法F值有所提升,可见Word2Vec对词向量的训练有良好效果.未加入attention机制时,模型只利用CNNs和BiLSTM的特征提取优势也能取得不错的效果,但是attention机制能够在最终结果上放大了文本特征的差异,实现了文本特征的进一步挖掘.CNNs与BiLSTM的嵌入均有利于模型性能的提升,BiLSTM模型的引入可以增加语义信息的丰富程度,有效捕获文本中的长距离依赖与上下文信息;而移除多个通道的CNN网络后,多尺度的文本局部特征被忽略导致F值显著降低,这也表明了增加CNNs结构对情感极性分析模型有积极作用.

因此,本文MCCB模型的分析结果相对于其他模型更佳,一方面充分发挥了CNN和BiLSTM模型各自的优势,可以在提取文本中多尺度局部特征信息的同时解析上下文语义信息;另一方面通过构建注意力机制获得更多隐含信息,减少了非重点词汇对于模型的影响,以多通道形式融合多种特征,实现了词向量的情感增强,使得语义特征与情感极性标签更具相关性,从而获得最好的情感分类效果.

基于CNN、BiLSTM以及注意力机制,提出了基于MCCB模型的疫情微博情感极性分析方法,该方法聚焦于多尺度的文本输入特征,通过注意力机制实现不同维度文本特征的重要度分配.实验结果证明,基于注意力机制的多通道CNNs-BiLSTM情感极性分类模型在疫情微博数据集上的实验结果较其他基准模型性能更优,能够有效识别和分析网络舆情中网民微博博文的情感极性.本研究在数据与方法上还存在一定的不足,研究数据仅限于微博短文本,未讨论模型对长文本数据的分类效果,同时未考虑加入中性文本,下一阶段的研究工作是将模型部署至长文本分类中以及探讨3分类情感分析的效果.

猜你喜欢 极性注意力卷积 让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02跟踪导练(四)时代英语·高一(2019年5期)2019-09-03从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21表用无极性RS485应用技术探讨电测与仪表(2016年11期)2016-04-11一种新型的双极性脉冲电流源电源技术(2015年5期)2015-08-22一种基于卷积神经网络的性别识别方法电视技术(2014年19期)2014-03-11

推荐访问:极性 注意力 融合

猜你喜欢