孙成玉,焦 龙*,闫春华,王彩玲,王 薇,张晟瑞,王 芹
(1.西安石油大学 化学化工学院,西安 710065;2.西安石油大学 计算机学院,西安 710065;3. 陕西中医药大学 药学院,咸阳 712046;4.陕西理工大学 化学与环境科学学院,汉中 723000)
丹参是目前治疗心血管疾病的常用药物,具有多种显著的医学作用[1-3],如抗氧化、抗动脉粥样硬化、抗肿瘤、预防脑卒中、降低血糖等。不同来源的丹参因生长环境、栽培措施、采收时间、加工方法等各不相同而导致药材质量差异较大。根据形态主观判断或进行活性成分含量对比是鉴定丹参来源的主要传统方法,但丹参的形态或活性成分含量相似时,这些方法的准确度则会受到影响。此外,通过活性成分的差异鉴别,常需要经过复杂的样品制备及预处理[4],效率不高。因此,需要构建一种鉴别不同来源丹参样品的快速有效、准确可靠方法。
高光谱技术具有快速、实时、无损检测等优点[5-7],可用于地质勘查[7]、工业过程分析[8]、科学考古[9]、医学诊断[10]、农业及环境监测[11-12]等领域。高光谱技术已被成功应用于栀子、红参、甘草等中药材的分析鉴别(如产地鉴别等)[13-15]。人工神经网络法(ANN)具有强大的输入输出非线性映射能力、自我适应能力和学习能力[16]。采用高光谱技术结合ANN[17]建模的定性分析,已被应用于诸如杭白菊、阿胶、缬草等中药材的产地识别[18]、掺假鉴别[19]及元素检测[20]等方面。
因此,本工作将反向传播-人工神经网络法(BP-ANN)与高光谱技术相结合,提出了不同来源丹参饮片的鉴别方法,并研究了不同光谱预处理方法对模型的影响。
1.1 样品制备
9批不同来源的丹参饮片样品,均以中药饮片的形式从西安医药市场购买。其中,1#、2#样本(Shandong A,Shandong B)产自山东省,3#~5#样本(Hebei A,Hebei B,Hebei C)产自河北省,6#样本(Henan)产自河南省,7#样本(Shanxi)产自山西省,8#样本(Shaanxi)产自陕西省,9#样品(Anhui)产自安徽省。所有试验样品均由陕西中医药大学药学院王薇教授鉴定为丹参(SalviaMiltiorrhizaRadix et Rhizoma)饮片。
1.2 高光谱试验
使用FieldSpec4型便携式地物光谱仪进行丹参样品的高光谱采集。将丹参饮片置于地物光谱仪的样品夹中并夹紧,保持样品夹密闭,防止环境光干扰,并利用样品夹中自带的光源进行高光谱采集。测试之前,仪器先预热30 min,然后使用标准白板对其进行校正;每个光谱数据的采集时间为0.2 s,波长范围为350~2 500 nm,分辨率1 nm,共2 151个输出波长。为提高光谱的稳定性,以平行采集3次的平均光谱作为样品的光谱,从每批丹参饮片中选择120个样品进行光谱采集,共得到1 080组光谱。
1.3 BP-ANN原理
BP-ANN是单向传播的多层前向网络,由输入层、隐含层和输出层组成,利用该网络可以实现输入-输出的非线性映射。BP-ANN模型的学习过程由正向传播和反向传播组成,正向传播计算如公式(1)、(2)所示:
(1)
(2)
式中:i、j、k分别表示输入层、隐含层、输出层的神经元个数;yh表示隐含层的输出;f1表示输入层到隐含层的Sigmoid传递函数;wij表示输入层与隐含层间的权值;li表示输入层的数值,即为丹参高光谱;Cj表示输出层的输出值,即为不同来源丹参饮片;f2表示隐含层到输出层的线性传递函数;wjk表示隐含层与输出层的权值。
反向传播公式为
Ep=(tpj-ypj)2
(3)
式中:Ep表示输出值的误差;tpj表示期望输出值,ypj表示实际输出值。li通过f1的非线性变换处理,再经过线性变换传入输出层,如果输出层没有达到期望值,则把Ep反向传播回去,以此对各层神经元之间的权值进行迭代调整,直至Ep减小到设定的范围内,然后即可按照新的权值来完成神经网络的测定。
1.4 软件及计算
BP-ANN建模采用Matlab(2019b)中的Neural Network Pattern Recognition工具箱。全部计算在配置为Intel(R) Core(TM) i7-6500U CPU的计算机中进行。
1.5 评价指标
表1所示为说明分类模型准确度的混淆矩阵,其中TP表示真实正例样本被正确分类为正例样本的数目,TN表示真实负例样本被正确分类为负例样本的数目,FP表示真实负例样本被错误分类为正例样本的数目,FN表示真实正例样本被错误分类为负例样本的数目。
表1 混淆矩阵
准确率(记为A1)、真正率(S1)、命中率(P1)和特异度(S2)可分别表示为公式(4)~(7)。
(4)
(5)
(6)
(7)
2.1 丹参饮片样品的高光谱
图1展示了代表性丹参饮片样品的高光谱。通过对比图1可以看出,不同来源丹参饮片的谱线强度存在着差异,这可能是由于不同来源丹参药材的种植环境因素(如气候、土壤、水和光照等)以及人为因素(如栽培技术、采收方法及时间、加工及炮制技术等)的影响,导致不同来源的丹参饮片样品中各种元素含量存在一些差异,同时丹参中各种元素含量的差异也导致了丹参药材的质量存在差异。通过以上分析可以看出,不同来源丹参饮片的高光谱确实存在差异,但是仅凭人眼很难区分这些样品;同时,面对大量光谱数据集时,仅靠人力对于谱线进行区分工作量繁重。因此,有必要采用高光谱结合化学计量学方法对不同来源丹参饮片进行鉴别。
图1 代表性丹参样品的高光谱
2.2 光谱预处理
对于高光谱数据,除了丹参样品的特征信息外,还可能有光谱采集过程中产生的背景噪声辐射以及信号转换程中产生的附加噪声[21]。通常需要使用光谱预处理方法来消除冗余信息,提高ANN模型的训练效果。因此,分别采用最大最小归一化(MMN)、均值中心化(MC)、标准正态变量变换(SNV)、Savitzky-Golay平滑滤波(SG)以及多元散射校正(MSC)等5种方法对高光谱进行预处理。5种预处理方法结合ANN建立分类模型,通过对比1.5节中的各项评价指标,选择最佳预处理方法。
2.3 人工神经网络分类模型
以丹参的9种不同来源为分类标签,高光谱数据为输入数据,建立BP-ANN模型。采用随机划分的方法,将高光谱数据集按70%…15%…15%的比例划分为训练集、验证集和测试集。用测试集验证BP-ANN模型的分类准确率。
基于丹参高光谱的特点,BP-ANN模型的输入层为光谱数据,隐含层为神经网络模型的神经元,输出层为丹参分类标签。使用Matlab中自带的Scaled conjugate gradient backpropagation(Trainscg)算法对BP-ANN模型进行学习训练。Trainscg算法根据缩放共轭梯度法更新权重和偏差值,同时占用更少的内存,适用于高光谱数据等一维数据,Trainscg算法中迭代次数(epoch)阈值为1 000,交叉熵损失值(performance)范围为0~0.410,梯度(gradient)范围为1.00×10-6~2.50,验证检查(validation check)的范围为0~6。BP-ANN模型的训练流程如图2所示。
图2 BP-ANN训练流程图
以10~20作为隐含层节点数变量选择范围,以原始光谱BP-ANN模型为例,探究不同隐含层节点数对BP-ANN模型分类准确率的影响,验证集分类准确率如表2所示。
表2 隐含层节点数对ANN模型的影响
由表2可知,当隐含层节点数设置为17时,BP-ANN模型的性能达到最优,验证集分类准确率为95.06%,且具有较少的迭代次数,即训练时间较短,因此后续试验选择17作为BP-ANN模型的隐含层节点数。
结合2.2节中的5种不同预处理方法,建立BP-ANN模型,探究不同预处理方法对BP-ANN模型分类准确率的影响,隐含层节点数设置为17,测试集分类准确率如表3所示。此外,每种样品的真正率、命中率和特异度也在表3中列出。
表3 不同预处理模型获得的丹参样品的判别结果
从表3中可以看出,原谱BP-ANN模型测试集分类准确率为94.44%,基于5种预处理方法所构建的ANN模型与原谱相比,测试集分类准确率均有不同程度的提升,MC-ANN模型取得最佳的判别效果,测试集分类准确率为98.77%。此外,与其他5种判别模型相比,MC-ANN模型对每种丹参样品都取得了良好的判别结果,其中,1#~7#(Shandong A,Shandong B,Hebei A,Hebei B,Hebei C,Henan,Shanxi)等7种丹参样品的判别结果最好,真正率、命中率和特异度均达到100.00%;其余两种丹参样品8#、9#(Shaanxi,Anhui)的真正率、命中率和特异度也不小于90.00%。
本工作采用高光谱仪对9种不同来源的丹参饮片样品进行高光谱采集;分别使用MMN、MC、SNV、SG和MSC 5种光谱预处理方法,结合ANN建立了不同丹参饮片来源判别模型。MC-ANN模型判别效果显著,测试集分类准确率为98.77%。由此可见,高光谱技术结合ANN应用于不同产地丹参饮片的判别具有良好的可行性,更加简便、可靠,为中药材定性分类研究提供了一种新的方法。
猜你喜欢 饮片丹参预处理 丹参“收获神器”效率高今日农业(2022年4期)2022-11-16基于电子舌的白及及其近似饮片的快速辨识研究世界科学技术-中医药现代化(2021年5期)2021-11-05不同等级白芷饮片HPLC指纹图谱中成药(2019年12期)2020-01-04丹参叶干燥过程中化学成分的动态变化中成药(2019年12期)2020-01-04丹参叶片在快速生长期对短期UV-B辐射的敏感性中成药(2018年11期)2018-11-24基于预处理MUSIC算法的分布式阵列DOA估计制导与引信(2017年3期)2017-11-02浅谈PLC在预处理生产线自动化改造中的应用工业设计(2016年11期)2016-04-16络合萃取法预处理H酸废水环境科技(2015年6期)2015-11-08基于自适应预处理的改进CPF-GMRES算法电网与清洁能源(2015年2期)2015-02-2822省市柏子仁饮片应用现状中国现代中药(2012年6期)2012-10-30