融合字形特征的中医医案命名实体识别研究

时间：2024-08-17 12:15:02 来源：网友投稿

胡为刘伟盛威卢彦杰石玉敬

关键词：中医医案；
命名实体识别；
汉字字形；
BERT模型；
BiLSTM

0 引言

中医医案记录了患者症状、病因、治法和方药[1]，研究从医者望闻问切的诊疗机理可辅助医生进行临床决策。如何从海量的中医医案临床诊断信息中准确的抽取症状实体是挖掘中医辨证规律的重要基础。

文献[2]采用基于统计学的条件随机场CRF 方法，对名老中医临床肺癌中症状实体抽取F1 值均达92%。近年来，大量研究者将神经网络用于信息抽取领域取得了不错的效果。文献[3]对于中医医案临床症状术语提取构建了一种基于长短期记忆网络和条件随机场相结合的方法，该方法的F1值达78%。文献[4]利用BiLSTM-CRF 模型对中医医案进行命名实体识别F1值达89.8%。在上述的中医医案研究中，输入普遍采用的是字向量，常用的中文字向量表示方法Word2Vec[5]，BERT[6]等都没有考虑汉字的字形结构所包含的语义信息，如在中医医案中表示疾病的实体通常都有“疒”部首，如“痛”、“疟”等，包含身体部位的实体通常包含“月”部首如“胸”、“肺”[7]。汉字起源于象形文字，汉字的结构由词根组成，而词根由笔画组成[8]，利用汉字字形的笔画、部首、词根信息，可以学习到汉字整体字形结构所隐含的语义信息，提高命名实体识别的准确率。本研究将汉字的字形特征融入到中医医案症状实体抽取研究中，设计了一种基于汉字笔画+部首+词根的中医医案命名实体识别方法，并在中医医案数据集上和其他研究者采用的方法进行对比，证明了该方法的优越性，可为中医医案准确的抽取症状实体提供参考。

1 数据集及相关处理

1.1 数据集来源

数据来自人民卫生出版社出版的经典中医医案丛书《中国现代名中医医案精粹》，该丛书有6 集，分三批共收录434 位名中医的5172 例医案。

1.2 数据集筛选标准

纳入标准：至少包含患者的主述、医生对患者的辨证、医生开的处方的医案。

排除标准：数据不完整的医案。

1.3 数据预处理

根据筛选标准从《中国现代名中医医案精粹》的5172 例医案中甄选了1000 条优质医案。围绕患者的症状和医生的辨证方法并参考了《中医临床症状术语规范》等国家规范，将每条医案划分为辨证实体、症状实体、功效实体、方药实体、治则实体、人群实体6 类不同的标签。与疾病无关的医案信息划分为非命名实体标签。为了提高数据集的质量，本数据由多位经验丰富的中医专家和学者共同进行数据集的人工标注和校对。采用BIO 标注法，其中实体开头用B-X 表示，实体的中间和结尾用I-X 表示，非实体及标点符号用O 表示。详细的标注信息见表1，最终的标注的数据集共有104，785 字，最后将数据集按照7：2：1 的比例划分为训练集、验证集和测试集。

1.4 融合字形特征中医医案命名实体识别模型构建

在中文的主流命名实体识别方法中，通常利用汉字的字嵌入特征[9]，通过神经网络对其编码后再通过条件随机场的解码分类器来标记出具体的实体类别。但由于汉字本身的结构多样性和复杂性，汉字的笔画、部首和词根本身也包含了大量的语义信息，目前的中医医案命名实体方法都未很好的解决汉字潜在的字形表征不足的问题[10]，对此，本文提出一种融合汉字笔画、部首和词根的汉字字形特征的中医医案命名实体识别方法即Strokes-Radical-Root-Word-BERTBiLSTM-CRF（简称SRRW-BERT-BiLSTM-CRF）模型。模型的整体示意图如图1 所示。本模型主要包含了Embeddings 层、BiLSTM 层和CRF 层。

Embeddings 层：每个字向量的输入特征由四部分组成。①每个字符的筆画特征经过BiLSTM 神经网络后得该字符的笔画特征输入向量esi。②每个字符的部首特征经过BiLSTM 神经网络后得该字符的部首特征输入向量eri。③每个字符的词根特征经过BiLSTM 神经网络后得该字符的词根特征输入向量eci。④通过BERT 模型得到该字符的字向量表示ewi。最终每个字符的嵌入向量ei 可以表示为：

笔画特征：汉字笔画是指组成汉字且不间断的各种形状的点和线，如横（一）、竖（丨）、撇（丿）、捺（?）、折（）等，它是构成汉字字形的最小连笔单位。本文按照《现代汉语通用字表》规定的五类基本笔画：横类（包括所有形式的长横、短横、横钩、横提）、竖类（包括所有形式的长竖、短竖、竖钩）、撇类（包括所有形式的向左撇出去的点）、点类（包括捺和所有向右写出去的点）、折类（包括所有的横折、竖折、折钩、折撇），如表2所示，对于笔画编码1 到5。

汉字笔画语义提取，主要是通过BiLSTM 网络来获取，将笔画的输入特征经过BiLSTM 网络后通过softmax层来标准化权重，以组合不同的笔画输出表示。图2 显示了笔画的特征输入结构图。

1.5 模型对比实验设计

本研究设计了6 组对照模型。①基于双向长短记忆神经网络和条件随机场的BiLSTM-CRF 模型。②在BiLSTM-CRF 模型上加入预训练模型BERT 的BERT-BiLSTM-CRF 模型。③仅加入笔画和字融合的Strokes-BERT-BiLSTM-CRF 模型。④仅加入部首和字融合的Radical- BERT-BiLSTM-CRF 模型。⑤仅加入词根和字融合的Root-BERT-BiLSTM-CRF 模型。⑥设计了融合字形的笔画、部首、词根SRRWBERT-BiLSTM-CRF 模型。

本研究实验使用PyTorch 1.12 版本、Python3.7 版本的环境，BERT 预训练模型采用Google 官方的Bert_Base_Chinese 版本。模型的批处理大小（batchsize）为32，学习率（Learning rate）为1e-5，BERT 的参数最大句子长度设置为256，dropout 参数为0.5，BiLSTM 中隐藏层的维度为128，每个模型训练的轮数为30。

1.6 模型评价指标

本研究使用精确率（P）、召回率（R）和F1 测度值（F1）值三个评价指标来评估模型在命名实体识别抽取任务中的性能。假设Tp表示模型预测正确识别的实体个数，Fp表示模型识别错误实体个数，FN为模型没有识别出的实体个数。三个指标具体公式如下：

2 实验结果

2.1 对比实验结果

根据研究的数据集在选取的六组对照模型进行测试，分别观察各模型对数据集划分的辨证实体、症状实体、功效实体、方药实体、治则实体、人群实体等六类实体的精确率（P）、召回率（R）和F1 测度值（F1）测试结果，模型结果见表3。从表3 的结果可知，在中医医案症状实体抽取模型中，在BiLSTM-CRF 模型上加上预训练模型BERT 在一定程度上可以提高模型的各项评估指标，在预训练模型上单独加入笔画、部首和词根都可以提升模型的评估指标，其中加入笔画的提升效果最为明显，将笔画、部首和词根都加入可以最大程度上提升模型的效果。将笔画、部首和词根都加入的SRRW-BERT-BiLSTM-CRF 模型取得了最佳的精确率93.2%，最佳的召回率92.8% 和最佳的F1 值92.9%。

SRRW-BERT-BiLSTM-CRF 模型得到的各类症状实体评价指标如表4 所示，从表4 的结果看出，SRRW-BERT-BiLSTM-CRF 模型在不同的症状实体标签评价指标结果上有一定的差异，“辨证实体”、“治则实体”、“功效实体”比其他的实体得分低，分析其原因是这些实体在概念相似，人工标注时对这三类实体比较难界定其边界。

2.2 SRRW-BERT-BiLSTM-CRF模型字向量维度实验

为了进一步探究模型输入的四个向量即字向量、笔画向量、部首向量、词根向量的维度对模型结果的影响，本研究对四个向量选取了不同维度进行的实验，实验结果如图3 所示。

从实验结果可以看出当字向量维度为768 时模型取得的效果最好，笔画向量维度为64 时取得最好的效果，部首向量在维度为512 时取得最佳效果，词根向量在维度为384 時取得最佳效果，因为字向量采用的BERT 预训练模型作为输出，需要较大的维度才能学到更多的语义信息，笔画向量本身所需要编码的信息较少，故不需要太大的维度，部首和词根都是基于字编码得到的，但本身所包含的字编码又没有字向量多，故其需要的向量维度也无需字向量那么高。

2.3 实验结果讨论

本研究对辨证实体、症状实体、功效实体、方药实体、治则实体、人群实体等六类实体进行了实验验证，取得了精确率93.2%，召回率92.8% 和F1 值92.9% 的结果，该结果证明本研究提出的方法的优越性，同时也说明在中医医案中大量的症状实体与汉字本身的字形如笔画、部首和词根有密切关系，将这些信息加入到模型中，能有效学习到中医医案的语义信息。结果中的人群类实体、方药类实体的F1 值都超过了90%，而辨证实体、治则实体、功效实体的F1 值比人群类实体、方药类实体低了近10%，其原因可能是在医案数据集中，不同的从医者对医案的记录习惯存在一定的差异，辨证实体、治则实体、功效实体差异性较大故而影响最终的识别结果，辨证实体、治则实体、功效实体概念上较为相似，在人工标注数据时未明确三类实体的边界对识别结果也有一定的影响，在后续的研究中将会进一步优化数据集。

与其他的中医医案症状实体模型方法如文献[3]的方法对比结果表明，在模型中加入笔画、部首和词根都能对中医医案症状实体的结果有提升，将笔画、部首和词根都加入对模型的F1 提升达3%，说明本模型能提高中医医案症状命名实体方法的准确率及提高中医临床信息的自动化抽取程度。在BiLSTM-CRF模型中加入预训练模型BERT 效果提升也比较明显，本模型实验结果表明，模型输入向量的维度会影响最终模型的结果说明笔画、部首和词根选择合适的维度能够学到更多字形所隐含的语义信息。

3 结束语

本文研究设计了一种融合字形特征的中医医案命名实体识别方法，利用汉字的笔画、部首和词根来提高文本的语义信息，结合BERT 预训练模型强大的文本特征表征能力，通过BiLSTM 神经网络学习上下文信息的以及条件随机场CRF 提取全局最优标注序列最终输出中医医案的症状实体。通过实验证明了该方法优于其他同类中医医案命名实体识别方法。本文方法在一定程度上提升了中医医案实体识别的效率，为分析和挖掘中医医案文本提供技术支撑。本研究后续将训练一个面向中医医案领域专有的预训练模型来替换本研究算法中的通用领域的BERT 模型，进而进一步提高模型识别的准确性。