雷 伟,李智伟,芮东升,张 眉,郭玉娟,摆文丽,王 奎
急性髓系白血病(acute myeloid leukemia,AML)是成人最常见的白血病类型之一,在各类急性白血病中,AML患者生存率最低[1]。流式细胞术(flow cytometry,FCM)被广泛的应用于AML的诊断、免疫分型和微小残留病监测等方面[2]。在FCM应用过程中会产生高维数据,传统数据分析方法通常由分析者根据经验在可视化软件中进行设门操作,得到细胞亚群信息后结合相应标准诊断AML[3]。这种依靠人工设门的数据分析方法存在主观性强、效率低、分析维度局限等问题,已经成为FCM应用中的瓶颈[4],因此,提出FCM数据的自动分析方法辅助临床诊断AML具有实用价值。卷积神经网络(convolutional neural network,CNN)常用于医学图像的分类问题,可以代替医师进行重复的视觉工作,成为了某些疾病自动化诊断的最好方法[5]。该研究旨在提出一种基于图像矩阵原理的FCM数据结构,并建立CNN模型,实现对AML的自动识别,证明CNN应用在FCM数据分析中的可行性。
1.1 资料来源本研究使用两组数据:数据1来源于FlowRepository数据库[6],编号为FR-FCM-ZZYA,包括359例骨髓FCM数据,其中正常人316例,AML患者43例。数据2来源于2016-2017年新疆维吾尔自治区人民医院临床检测中心存档数据,纳入的病例组为临床上按照MIC分型标准[7]确诊的AML初诊患者,对照组为非白血病贫血患者或健康志愿者,排除白血病以外所有患有与免疫系统相关疾病或其他重大疾病的参与者。数据为骨髓FCM数据,由专家分析后给予诊断结果,其中正常人50例,AML患者22例。两组数据中,每个数据均为8管,数据格式为FCS,并且在专家分析阶段完成了粘黏细胞、死细胞等非有效数据的清除。本项目已获得石河子大学医学院伦理委员会批准(批准号:2018-015-01),参与者已签署知情同意书。
1.2 数据读取采用R中Bioconducter-flowcore工具包读取FCS文件和补偿矩阵,对各抗体荧光强度进行补偿。分别对侧向散射光(side scatter,SSC)和各抗原表达水平进行对数和双指数转化提高数据对称性[8]。提取SSC及各管中与AML初诊相关的抗原表达水平[9],包括CD45、CD34、CD117、HLA-DR、CD13和CD33,将各变量以CSV格式存储。
1.3 归一化为了更好实现归一化,定义数据中各变量处于极端为异常值,设定异常值细胞占各管总细胞的0.1%,将异常值去除。对纳入的变量进行离差标准化,处理后变量会被映射到[0,1]之间(公式1)。
(公式1)
式中,vmin和vmax分别表示一组变量的最小值和最大值;x和x*分别表示处理前后的变量值。
1.4 数据重构在AML流式诊断中,对SSC和CD45的设门通常作为一种初始策略,为区分主要的造血细胞提供一个起点,再结合其他标志物进一步分析。基于以上原则,本研究提出一种数据结构(图1A),以图像数据结构作为参照,定义SSC和CD45作为图像矩阵像素的定位点,将数据中SSC和CD45的值分别乘以矩阵宽度(w)和高度(h)后取整,以SSC和CD45为坐标可将二维空间划分为w×h个区域,对其余5个抗原表达分别构建图像矩阵的颜色通道。本研究中矩阵的尺寸为32×32×5(对应深度学习经典图像数据集Cifar-10数据尺寸:32×32×3)。该数据结构的特点是在不改变原模型架构的情况下能够直接作为图像CNN的输入,因而可以兼容目前多数CNN模型。
图1 CNN自动分析FCM数据流程图A:数据结构示意图;B:FCM数据写入过程;C:LeNet-5架构
1.5 数据集建立将数据1中AML组和正常组按照6 ∶2 ∶2划分数据集,包括训练集215例(AML 25例,正常人190例),验证集72例(AML 9例,正常人63例),测试集72例(AML 9例,正常人63例),数据划分按照FlowRepository数据库中给定的顺序进行。数据2中的72例数据全部作为测试集(AML 22例,正常人50例)。在训练集上,从同一个人的各管数据中随机抽取细胞,各抗原表达水平按照SSC/CD45为定位写入矩阵的对应通道内(图1B),当矩阵中对应位置已被写入,则此次细胞抽取无效,进行下一次抽取,直至矩阵中的全部位置被写入,抽取将停止,该矩阵作为一个训练样本。重复上述过程,可以持续产生训练样本,以满足CNN对大样本的需求。为尽可能保证训练集中正负样本均衡,对25例AML和190例正常人数据分别进行190轮和25轮抽取,最终得到25×190+190×25=9 500 个训练样本。为增强CNN模型的泛化能力,防止过拟合,对所有训练样本进行数据增强,随机进行各方向上20%的平移和缩放。在验证集和测试集上,从同一个人各管数据依次选择全部细胞,将抗原表达信息按照SSC/CD45为定位写入矩阵的对应通道内,对矩阵中相同位置的抗原表达水平取均值,该矩阵作为一个验证或测试样本。
1.6 模型的构建本研究中CNN模型选择LeNet-5架构,该架构是现代CNN的起源架构之一,具有代表性(图1C)。为保证客观性,除调整模型的输入和输出尺寸外,不改变模型其他参数。训练时,用训练集和验证集分别进行模型的训练和调参,损失函数选择交叉熵函数(公式2)。
(公式2)
式中,N代表样本总数;yi表示样本i的标签,正类为1,负类为0;pi表示样本i预测为正类的概率。
采用随机梯度下降法(stochastic gradient descent,SGD)作为优化器在训练中更新参数,训练完毕后模型以h5格式存储。测试时,将测试集输入模型,信号在模型中向前传播后通过sigmoid函数(公式3)计算得到二分类概率值,模型定义0.5为截断值以区分AML和正常人。
(公式3)
式中,x为分类器前网络的输出,S(x)取值范围在[0,1]之间,当x=0时,S(x)=0.5。
对模型在测试集上的性能进行评价,评价指标包括准确率、灵敏度(查全率)、特异度、查准率和F1分数(公式4)。
(公式4)
式中,P表示查准率,R表示查全率,F1分数取值范围在[0,1]之间,是用来综合评价二分类模型精确度的指标。
1.7 统计学处理采用R 4.0.2 软件中Bioconducter-flowcore工具包实现FCS数据的信息提取。采用Python 3.7.1软件中sklearn、numpy工具包实现数据集的建立,模型框架的搭建及训练和测试的全过程均使用keras工具包实现,文中与模型相关但未说明的参数均为keras中的默认参数。采用matplotlib工具包绘制受试者工作曲线(receiver operator characteristic curve,ROC),计算曲线下面积(area under curve,AUC)评价模型的优劣。
2.1 FCM数据各抗原表达水平单因素分析对FCM数据各抗原表达水平进行单因素分析,见表1。在数据1中,正常人和AML患者在CD33、HLA-DR、CD117、CD34抗原表达水平差异有统计学意义;在数据2中,正常人与AML患者在CD45、HLA-DR、CD117、CD34抗原表达水平差异有统计学意义。
表1 各抗原表达水平与AML患者的关系
2.2 CNN模型训练过程设置初始学习率为0.005,训练轮次为30,在CNN模型的训练过程中(图2),训练集上损失函数不断下降并趋于平缓,表明模型能够从训练集上学习到特征。以验证集损失函数作为模型泛化性能评价指标,为避免模型出现过拟合,在验证集损失函数达到最低点时终止训练,训练时验证集损失函数在第18轮训练时达到最低点,将训练完成后的模型保存。
图2 CNN训练中损失函数变化图
2.3 CNN模型性能评估运用多个指标评价模型在测试集上的性能(表2),在数据1、数据2和合并后数据的AUC分别为0.940(0.922~0.958)、0.917(0.885~0.949)和0.932(0.916~0.948),见图3。
表2 CNN在测试集上的性能
图3 CNN模型在测试集上的ROC曲线
AML的精确诊断是其治疗和预后判断的关键,目前MICM分型依据是国际上通用的诊断方法,即细胞形态学、免疫学、细胞遗传学和分子生物学分型,其中免疫学分型是由FCM来实现的。随着对疾病的认识逐渐加深,越来越多的生物标志物被应用于AML的流式诊断中,给数据分析工作带来更大挑战,探究FCM数据自动分析成为近年来的研究热点[10-12]。Cheung et al[13]对现有的自动分析方法进行了使用调查后指出,虽然一些方法已经被证明有不错的效果,但仍然存在问题。例如许多软件通常只针对特定来源的数据进行自动分析,软件的跨平台使用问题依然难以解决,并且目前还没有针对白血病诊断的软件出现,已提出多数自动分析方法以无监督的机器学习为主,得到的结果需要人工进行二次分析,难以实现完全的自动化。因此尚没有任何一种自动分析方法能够被普遍接受,在实际临床工作中仍以人工分析为主。
传统的数据分析方法已经证明了将FCM数据转化为图像是一种切实可行的策略,其局限性产生原因是人类视觉的限制,而CNN模型已经成为代替人类视觉进行图像分析的最好方法,被广泛的应用于医学图像分类和识别方面,并证明在很多问题上与专业医师相当[14-15]。本研究针对AML提出了一种FCM数据结构,该结构参考了图像数据的存储方式,以常作为骨髓细胞类型判断依据的SSC和CD45作为像素的定位点,将其余与AML初步诊断相关抗原的表达水平写入图像数据的颜色通道。这种结构的优点是显而易见的,首先,该结构能够将FCM多管数据整合在同一矩阵中,可以通过调整矩阵的尺寸改变分辨率和纳入抗原的数量,有利于形成统一的标准;其次,该结构可以体现各抗原表达水平间的交互关系,有助于发现人工设门中可能遗漏的信息;另外,该结构可以在不改变模型参数的情况下兼容多数CNN架构,便于后续的自动化研究。本研究中选择了两组不同来源的数据,用公开数据进行建模后直接对本地数据进行测试,在本地数据上的测试结果与公开数据相似,均具有较高准确率,证明模型不仅能够准确识别AML,还具有很强的鲁棒性,可以解决软件跨平台使用的问题,相较于其他算法更具有临床应用价值。
同时,本研究还存在一些局限性。由于本研究中使用的数据仅提供了AML患者和正常人的标签,缺乏更详细的疾病信息,因此仅探讨了CNN模型在AML初步诊断中的应用,对于免疫分型和微小残留病等问题并未提及。本研究仅纳入7个参数,且数据为二分类,因此选择了结构相对简单的LeNet-5架构,如果后续需要纳入更多变量或解决更加复杂的多分类问题,也可以选择深度更大的CNN模型。在本研究中对训练集采用了细胞随机抽样和数据增强,虽然一定程度上能弥补小样本对模型的不良影响,但是无法从根本上解决数据缺乏导致的模型训练中有效特征遗漏问题,如需进一步提高模型性能,扩大数据量是必须的途径。为了保证结果的客观性,本研究没有深入探讨模型参数的选择,而是尽可能的选择工具包默认参数,可能导致得到的模型并不是最优的,可在将来实用过程中进一步完善。
综上所述,本研究提出了一种FCM数据结构,并用CNN模型实现了AML的自动识别,表明CNN在FCM数据分析中具有一定的应用价值。
猜你喜欢正常人集上抗原Cookie-Cutter集上的Gibbs测度数学年刊A辑(中文版)(2020年2期)2020-07-25链完备偏序集上广义向量均衡问题解映射的保序性数学物理学报(2019年6期)2020-01-13复扇形指标集上的分布混沌数学物理学报(2017年5期)2017-11-23靠脸吃饭等爆笑show(2016年4期)2016-06-17史上最强虐心考眼力科技知识动漫(2016年3期)2016-03-22正常人视交叉前间隙的MRI形态特征磁共振成像(2015年5期)2015-12-23正常人大脑皮层言语分区结构性不对称研究磁共振成像(2015年2期)2015-12-23梅毒螺旋体TpN17抗原的表达及纯化西南医科大学学报(2015年1期)2015-08-22结核分枝杆菌抗原Lppx和MT0322人T细胞抗原表位的多态性研究医学研究杂志(2015年6期)2015-07-01APOBEC-3F和APOBEC-3G与乙肝核心抗原的相互作用研究癌变·畸变·突变(2015年3期)2015-02-27