知识增强的交互注意力方面级情感分析模型

时间：2023-12-17 15:30:02 来源：网友投稿

韩虎，郝俊，张千锟，孟甜甜

兰州交通大学电子与信息工程学院，兰州730070

随着社交网络的快速发展，用户拥有广阔平台来发表观点和言论，通过情感分析获取评论文本的情感倾向，已经成为研究人员关注的热点[1]。区别于普通情感分析，方面级情感分析（aspect-based sentiment analysis，ABSA）[2]可以挖掘出句子中不同方面的情感极性，例如句子“This bracelet is simple to use,but it costs too much！”，对于方面“use”是积极的，而方面“cost”是消极的。不同的方面对应的情感极性可能完全相反，可见方面级情感分析能提高模型对句子中多个方面情感极性的判定能力。

早期，一些学者将传统的机器学习方法引入来处理情感分析问题，Boiy 等人[3]通过人工标注一部分数据作为训练集，然后利用训练集来构建模型，最后利用模型对测试集的数据进行预测，这类方法通常需借助复杂的人工规则和特征工程。近年来，深度学习的应用使情感分析领域取得了显著的进展。Kim[4]采用卷积神经网络（convolutional neural network，CNN）通过识别目标所在子句的情感来推断目标的情感，取得了优异的性能。Wang 等人[5]提出了一种基于注意力的LSTM（long short-term memory）模型，当以不同的方面作为输入时，注意力机制可以集中在句子的不同部分。Ma 等人[6]提出了交互式注意力网络（interactive attention networks，IAN）来进行交互学习，得到上下文和方面的注意力，并分别生成方面和上下文的表示。通过这种设计，IAN 模型能够很好地表示方面及其对应的上下文。融入注意力机制的网络模型能够有效关注到与方面相关的特征，并可以针对不同方面调参，进而挖掘更多的隐藏特征，但是这类方法通常在训练过程中仅考虑方面本身，无法有效地识别长句中复杂的语言关系。

在一个句子中通常存在词的频繁搭配，例如：“food was okay,nothing special”，单词对“nothing special”在数据集中出现了5 次，而此单词对是消极的，如果没有该消极信息来抵消“okay”带来的积极作用，模型可能会对“food”做出错误的预测。Tay 等人[7]提出了一种将特征信息集成到神经模型中的新方法，通过建模词-方面关系，将方面信息融入到神经模型中。Yao 等人[8]考虑到词的共现关系和文档-词的关系，对照语料库建立单一的文本图，然后为其构建文本图卷积网络。同时，合理利用句法信息可以有效解决单词间长距离依赖问题。Shafie 等人[9]提出通过挖掘评论中词语之间的句法依存关系，来识别评论中的多个方面及其对应的情感。Zhang 等人[10]提出基于特定方面的图卷积网络（aspect-specific graph convolutional network，ASGCN）利用依赖树捕获长期的上下文语义信息，从而获得较为精确的方面情感极性。

虽然这些模型基于深层神经网络，能够很好地捕捉上下文和目标之间的语法和语义信息，但是它们在有效地整合外部知识以帮助理解文本方面存在不足，特别是利用神经网络处理之前未知的单词时，例如句子“The safari opened so fast that I couldn’t see it clearly”，传统的模型可能把safari 当作新词，无法判断出safari为浏览器以及单词“fast”的情感倾向，而这恰恰是分辨出方面情感的关键。因此学者们尝试利用知识图谱中的先验知识为模型提供监督信号，提高模型语义解析能力。Chen 等人[11]通过引入知识图谱来解决不同语境下的“一词多义”问题。Bian 等人[12]使用多头注意机制来表示目标和上下文，并与从外部知识库中提取的概念知识融合来增强上下文和目标的语义表示。

受上述工作的启发，本文通过融合知识图谱和词共现信息、句法信息构建知识增强图注意力网络模型，以交互注意力网络为基础，通过词共现信息、句法特征等隐性知识和知识图谱概念信息增强文本表示，从而达到语义消歧和特征融合的效果。本文的贡献如下：

（1）提出将知识增强后的方面和经过句法、词汇图处理后的上下文进行有效的结合，不仅能学习到语言知识（词共现信息、句法信息），还能够充分融合概念知识。

（2）模型使用交互注意力机制建模方面与上下文词之间的语义关系，完成方面与上下文的协调优化。

（3）在五个公开数据集上评估模型的性能，实验结果表明，该模型对不同数据集的准确率（accuracy，Acc）与宏平均F1 值（macro averageF1，MF1）均有所提升，并进一步证明了知识引入对于模型的重要性。

1.1 方面级情感分析

基于方面的情感分析是情感分析中的一项细粒度情感分类任务，其目的是识别句子对方面表达的情感极性，通常有两种方法用于方面级情感分析：（1）采用传统机器学习方法，依赖人工构建的特征和规则，不过该类方法非常耗时、耗力。（2）采用深度学习方法，将神经网络引入情感分类研究领域，其可以对特征进行自动选择而不需要人工干预，大大缓解了模型对特征工程的依赖，使模型用更低的代价取得更好的分类效果。如文献[4]利用预训练的词向量，将CNN 应用于文本分类任务中。文献[13]中的模型使用LSTM 网络对文本序列进行语义建模，通过LSTM 建模后的句子表达能体现文本上下文的语义联系。然而，基于神经网络的方法不能有效地区分句子中每个单词的重要程度，而且句子的情感极性不仅由内容决定，还与所涉及的方面密切相关。为此，一些学者将注意力机制引入来重点关注句子中的重要信息。如文献[14]提出两种不同的基于注意力机制的双向长短时记忆网络模型用于目标相关的情感分类。文献[15]使用一种基于注意力机制的深层记忆网络用于基于方面的情感分析任务中。

研究表明，上述方法利用词嵌入技术仅编码了文本语义信息，忽略了句法结构信息和词频信息，而这些信息对保存结构信息有重要作用，并有助于缩短方面词和意见词之间的距离。且若不能正确利用句法路径上的依存关系，句法结构的作用就不能得到充分发挥。最近，一些学者使用基于图的模型来整合句法结构，比如Sun 等人[16]将依存关系树转化为图，然后将GCN（graph convolutional network）在依存树上学习来建模句子的结构，将信息从句法邻域意见词传播到方面词。

虽然这些模型在情感分析任务上有较好的表现，但只用仅有的句子信息，而未考虑到单词在多种语境下的“一词多义”问题，极大影响了情感分析任务的预测性能。外部知识在情感分析任务中至关重要，因此，本文提出了一种交互注意力网络模型，在利用词汇、句法图合并关系类型的同时融入知识来指导方面级情感分析任务。

1.2 外部知识

1.2.1 局部层次句法、层次词汇图

句子中蕴含丰富的信息，如何有效利用文本自身的语法知识也受到了广泛关注。例如融入词汇信息、句法依存关系来提高情感分析结果的准确度。然而上述方法性能虽有一定的提升，但并未考虑关系类型的影响。Zhang 等人[17]在句法、词汇的基础上构造概念层次，以区分不同类型的依存关系或词对共现关系，提升了模型在方面情感分类任务上的性能。Tian 等人[18]有效融入依存句法信息并设计在各种语境下为不同的关系类型加权，从而有效识别句法信息中的噪音。因此，本文考虑借助具有概念层次结构的局部层次句法图和层次词汇图，来区分不同类型的依存关系和词对共现关系，利用这些词性、句法等文本内部知识增强评论文本特征表示，提高模型分类能力。

局部层次句法图（hierarchical syntactic graph，HSG）[17]可以区分各种类型的依赖关系，如图1 所示，每条边均附有表示关系类型的标签，多种依赖关系共分为五种关系类型，包括“noun”“verb”“adverb”“adjective”“others”，表示为S1,S2,…,S5。具体地，HSG 表示为{Vs,Es,Rs}，其中Vs、Es和Rs分别是节点集、边集和句法关系类型集，Es中的每条边现在都附加有一个标签，代表Rs中的依赖关系类型。例如，acomp关系“was-nothing”和amod 关系“nothing-special”组合成一种形容词关系类型，而nsubj 关系“food-was”将形成另一种名词关系类型。

图1 局部层次句法图Fig.1 Hierarchical syntactic graph

层次词汇图（hierarchical lexical graph，HLG）[17]用概念层次来捕捉各种单词的共现关系，如图2 所示，用d1和d2表示频率为20和21的词对关系，用d3,d4,…,d7表示频率落在[2k+1,2k+1](1 ≤k≤5)区间内的词对关系，d8表示所有频率大于26的词对的词汇关系。最后基于词汇概念层次构造一个层次词汇图HLG，记为{Vd,Ed,Rd}，其中Vd、Ed、Rd分别是节点集、边集和词汇关系类型集。

图2 层次词汇图Fig.2 Hierarchical lexical graph

1.2.2 知识图谱

知识图谱作为一种重要的外部知识来源，它可以提供丰富的背景信息，基于知识图谱的文本表示方法可以有效地提升各项自然语言处理任务的性能。如Hu 等人[19]提出了一种基于知识库构造的异质图神经网络，利用知识库中的知识增强文本语义表示，提高短文本分类效果。

大型的知识图谱系统——Microsoft概念图谱[20]，其拥有对海量的网页和搜索日志进行学习后掌握的常识性知识，以实例、概念和关系三元组的形式表示。通过将文本中的方面映射到不同的语义概念，在实际应用中为计算机提供有助于文本理解的先验知识，具体功能如下：

（1）提供了常识计算功能，概念化将实例或短文本映射到概念空间，可以将其视为人类可理解的文本和机器可理解的文本嵌入。

（2）提供了文本概念标记的功能，用于理解文本的短文本语义相似度计算等。

（3）可以使各种文本处理应用程序受益，包括搜索引擎、自动问答、在线广告、推荐系统和人工智能系统。

本文将方面及其概念信息结合构成方面实体嵌入，有效充实方面的概念知识。

知识增强的交互注意力图卷积网络模型（knowledge enhanced attention graph convolution network，KEAT-GCN）如图3 所示，该模型同时融合两方面外部知识，一是语言知识（句法、词汇关系），二是先验知识（概念图谱）。文本上下文首先通过嵌入层获得上下文词向量矩阵，然后通过KGBiGCN（knowledge graph bi-level interactive graph convolution network）模块与词汇图、句法图进行融合得到语言知识处理映射矩阵，方面与其知识图谱中对应的概念集结合后得到方面概念嵌入表示，再通过交互注意力层将两部分表示进行交互操作得到注意力表示矩阵，最后到输出层进行分类，KEAT-GCN 模型主要由以下四部分组成：

图3 模型整体结构Fig.3 Overall structure of model

（1）概念化编码。通过调用微软概念图谱的API，得到方面对应的概念集并向量化，将方面和方面对应的概念进行拼接，获得实体概念化嵌入表示。

（2）语言化编码。通过将初始处理后的上下文表示输入到KGBiGCN 层中进行多次变换，得到语言知识处理表示。

（3）交互注意力层。通过对两种处理后的表示分别计算注意力得分，然后进行多次不同的线性变换，捕获上下文和方面之间的依赖关系。

（4）输出层。将处理后的两部分表示拼接，使用Softmax 函数得到输出结果，最终获得方面对应的情感极性。

2.1 语言化编码

2.1.1 嵌入层和Bi-LSTM层

给定包含n个词的句子s=(w1,w2,…,wa+1,…,wa+m,…,wn-1,wn)，其中a=(wa+1,wa+2,…,wa+m)表示有m个词的方面（可以是方面词或方面短语），首先每个单词映射到低维实值向量空间中得到低维的实数向量，即词向量。通过该操作，得到词向量表示(w1′,w2′,…,wn′)，然后将词向量输入BiLSTM 中，以生成句子的隐藏状态向量H=(h1,h2,…,hn)。

2.1.2 位置嵌入层

位置嵌入层（position embedding，PE）采用方面与上下文词之间的距离来衡量二者的相关性，距离分为语法距离和相对距离。语法距离可由句法依存树得到，设方面词a与上下文词H之间的语法距离为di，将di定义为二者在依存树中的路径长度，语法距离特征计算公式如下：

通过计算式（1）可以得到句子中方面与上下文词之间的语法距离特征向量S=(s1,s2,…,sn)，其中，dmax表示路径长度的最大值，si表示方面与上下文词之间的语法距离特征。若方面为短语，则以该短语中距离依存树根节点最近的一个单词作为方面词，相对距离可由方面与上下文词在句子中的路径长度得到，相对距离特征计算公式如下：

通过式（2）可以得到句子中方面与上下文词之间的相对距离特征向量R=(r1,r2,…,rn)，其中ri表示方面与上下文词H之间的相对距离特征。然后，结合语法距离特征和相对距离特征生成新的距离特征表示：

其中，pi表示句子中方面与上下文词之间的距离特征。最后，通过引入距离特征更新句子的隐藏状态，新生成的句子特征表示包含了单词的语义信息和位置信息，更新公式如下：

2.1.3 KGBiGCN层

利用局部层次词汇图和层次句法图获得句子的更好表示，基本思想是让两个图与经过Bi-LSTM（bidirectional long short-term memory）加工后的上下文嵌入进一步交互。由于局部句法图和词汇图包含概念层次结构，而普通GCN无法在带有标记边的图上卷积，因此利用可以合并不同关系类型的双层GCN，在给定上下文信息后进行两个合并操作执行双层卷积。

（1）合并相同关系的节点到虚拟节点，然后在GCN 中使用相同的归一化隐藏特征总和作为聚合函数来获取虚拟节点嵌入，每一种关系类型r对应的表示为，其中，l是层号，i是聚合的目标节点。

（2）合并所有虚拟节点及其特定关系，使用平均聚合函数针对不同关系类型（虚拟节点）更新目标节点i的表示形式：

其中，⊕r表示不同关系类型对应表示的连接，Wl表示第l层中的权重矩阵。

2.2 概念化编码

文本概念化常用知识图谱有Yago[21]、WordNet[22]、Microsoft Concept Graph，本文使用微软发布的Concept Graph 知识图谱对方面进行概念化，获取方面相关概念集合K=(k1,k2,…,kn)，ki表示概念集中的第i个概念向量。概念集往往存在多个概念，不恰当的概念可能会对方面造成错误的影响，因此在概念集内部加入自注意力机制并进行注意力计算，以获取每个概念ki在整个概念集中的重要性权重：

其中，αi为概念集中的第i个概念向量的注意力权重，W∈为权重矩阵，v∈为权重向量，da为超参数，b为偏置。注意力机制赋予重要概念较大的权重，赋予不重要的概念极小的权重（接近于0），以突出概念集中的重要概念。

获取每个概念向量的注意力权重后，对每个概念向量进行加权计算，获取最终的概念表示：

然后，把方面向量a与其对应的概念向量p相连接，得到了方面的概念化向量ap。

2.3 交互注意力层

给定的句子方面和上下文分别经过概念化编码和语言化编码后得到上下文语言化编码表示和方面概念化嵌入表示，然后在交互注意力层，对两部分表示进行交互建模，利用注意力机制来捕获上下文和方面中的重要信息。对隐藏状态向量取平均，得到上下文的初始表示。

（1）方面-上下文注意力计算

γ函数的计算形式为：

（2）上下文-方面注意力计算

同理，对于方面表示，使用上下文表示cavg来计算其注意力向量：

经过上述计算后，得到上下文和方面表示：

通过这种设计，方面和上下文可以交互地影响其表示的生成，将方面表示ar和上下文表示cr连接作为最终表示：

其中，z∈R4dh。

2.4 模型训练

利用交互注意力层的输出z作为全连接层输入，通过一个Softmax 函数输出最终情感极性，即：

其中，W为全连接层权重矩阵；
B为全连接层偏置项矩阵；
模型的损失函数采用交叉熵损失函数，通过标准的梯度下降算法训练模型来完成分类任务：

其中，J为所有的训练数据的个数；
yi和分别是训练集的基本事实和预测标签，θ代表所有可训练参数，λ是L2 正则化系数。

3.1 数据集和设置数据集

本文使用5个基准数据集（Twitter、Lap14、Rest14、Rest15、Rest16）来进行评估，上述数据集均来自Twitter[23]、SemEval（SemEval14[2]、SemEval15[24]、Sem-Eval16[25]），样本就极性分为积极、消极和中性，具体如表1 所示。

表1 数据集Table 1 Datasets

3.2 评价指标

模型采用准确率（Accuracy，Acc）和宏平均值（macro averageF1，MF1）作为评价指标。

其中，T表示正确预测的样本数量；
N表示样本总数；
F1 是分类问题的衡量指标，是精确率和召回率的调和平均数；
Precision表示预测出来为正类中真正的正类所占的比例；
Recall表示预测出来正确的正类占所有真实正类的比例。

3.3 实验参数

本文利用Glove[26]来初始化词嵌入向量，为了获取模型最优的性能，经过多次实验，超参数设置如表2 所示。

表2 实验参数Table 2 Experimental parameters

3.4 对比实验

将本文提出的KEAT-GCN 模型与以下几种方面级情感分析方法进行比较。

（1）LSTM：文献[27]利用LSTM 编码上下文信息，将其最后一层隐藏向量作为文本特征表示输入到分类器中。

（2）IAN：文献[6]提出的IAN 模型利用注意力机制对上下文和目标交互学习，得到最终的表示。

（3）ASGCN：文献[10]利用依赖树上的GCN 来挖掘句法信息和单词依赖，并结合注意力机制进行情感分类。

（4）BiGCN：文献[17]提出了一种结合层次句法和词汇图的新型网络结构，更好地利用语料库级别的单词共现信息以及不同类型的句法依存关系。

3.5 实验结果与分析

本文在Twitter、Lap14、Rest14、Rest15、Rest16 数据集上进行了5 组模型的对比实验，实验结果如表3所示。

从表3 的实验结果可以看出，本文提出的KEATGCN 模型与最新对比模型BiGCN 相比，在Lap14、Rest14、Rest15、Rest16 数据集上MF1 值分别提升了1.37 个百分点、0.58 个百分点、1.11 个百分点、3.97 个百分点，并且仅在Twitter 数据集存在0.01 个百分点的差值，在Twitter、Lap14、Rest16 数据集上Acc值分别提升了0.41 个百分点、2.06 个百分点、0.49 个百分点，并且在Rest14 数据集上与BiGCN 表现相当，进一步验证了本文方法的优越性。

对比引入注意力机制的LSTM 和IAN 模型的实验数据，相比仅将独立句子作为输入的LSTM 模型，IAN 模型采用交互机制建模其内部关系，在5 个数据集上显著优于LSTM模型。这是因为LSTM没有考虑到上下文与方面之间的交互作用，所以分类效果不好，这表明句子中的方面与上下文交互需要得到关注。然后，由表3可知，未利用GCN的基础模型分类结果都不理想，在分类效果最好的Rest16 数据集上的Acc值也只有86.80%，而利用了GCN 的ASGCN、BiGCN、KEAT-GCN 模型在Rest16 数据集上的Acc值相比LSTM 和IAN 两个模型提升了多个百分点，这充分说明句子中语法知识对提升模型的分类性能的重要性。

表3 实验结果对比研究Table 3 Comparison of experimental results 单位：%

此外，相较4 个对比模型，本文提出的KEATGCN 模型性能进一步提高。这是因为文本较短，包含的信息有限，对于文本背后的知识缺乏较多，而KEAT-GCN 模型可以有效地融入先验知识来丰富表示。尤其在Lap14、Rest16 数据集上的Acc值较BiGCN 提升了2.06 个百分点、0.49 个百分点，在Lap14、Rest16 数据集上的Acc值较IAN 提升了4.60个百分点、4.71 个百分点。由实验结果可以看出，外部知识对精确表示文本语义信息的重要性，本文的模型可以通过外部知识增强方面词的语义信息，加强评论文本表示，提高模型分类能力。

3.6 消融实验

为了进一步检查KEAT-GCN 的每个组件对性能的影响，对KEAT-GCN 进行了消融研究，各个模型的描述如下：

BiLSTM+Att：模型由LSTM 层和交互注意力层组成，LSTM 层用来学习句子的语义特征表示，Att 层用来建立方面和上下文之间的语义关系。

BiLSTM+KGBiGCN+Att：模型仅添加KGBiGCN模块来融入局部层次句法图和局部层次词汇图，用来将语言知识（句法结构与词对之间的共现关系）融入到特征表示中。

BiLSTM+KG+Att：模型仅在LSTM 层后新增了知识图谱的概念信息，用来使方面的概念知识更充分。

KEAT-GCN：完整的模型，同时考虑了概念知识和语言知识。

各个模型的性能对比如表4 所示，可以看出，BiLSTM+Att 模型在5 个数据集的Acc与MF1 值整体不及其他模型，这表明句子中的方面和上下文的相关知识背景和交互是不可忽略的。BiLSTM+KGBiGCN+Att 的性能整体上优于BiLSTM+Att 模型，但和KEAT-GCN 相比仍有差距，这表明虽然句法结构和词汇信息对于方面级情感分析有利，但也不可以忽略概念知识的影响。BiLSTM+KG+Att 模型的性能在Lap14、Twitter、Rest14、Rest15 上比KEAT-GCN 要差，但在Rest16 数据集上优于KEAT-GCN，这也许和数据集的特点有关。在Rest15 数据集上，BiLSTM+KG+Att 的性能接近KEAT-GCN，这表明相对于概念信息，Rest15 数据集对于语言知识更敏感。由此可见，KGBiGCN 层对KEAT-GCN 模型的贡献最大，其次是交互注意力层，但也不能忽略知识图谱嵌入层的影响。

表4 消融实验研究Table 4 Ablation experiment study 单位：%

本文提出一种融合知识图谱、注意力机制和双向GCN 的方面级情感分析模型，通过对齐方面及方面在知识图谱中的概念表示，解决了方面词在不同语境下的一词多义问题。利用评论文本句法图和层次词汇图有效识别评论文本的语法、词汇关系，解决了因为错误整合关系导致的噪声问题。使用交互注意力机制加强上下文与方面的交互，使上下文和方面进一步协调优化，在五个公开数据集上的实验结果表明本文模型在方面级情感分析的有效性。未来研究将尝试使用近年来发布的新知识库来解决新词无法查询的问题，完善文本中单词不同类型的句法关系、概念的属性，后期将在上述方面进一步改进。

猜你喜欢句法注意力向量向量的分解新高考·高一数学(2022年3期)2022-04-28让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09句法与句意（外一篇）中华诗词(2021年3期)2021-12-31述谓结构与英语句法配置大连民族大学学报(2021年2期)2021-07-16聚焦“向量与三角”创新题中学生数理化(高中版.高考数学)(2021年1期)2021-03-19句法二题中华诗词(2018年3期)2018-08-01诗词联句句法梳理中华诗词(2018年11期)2018-03-26“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21向量垂直在解析几何中的应用高中生学习·高三版(2016年9期)2016-05-14