陈天成,刘祎,潘炜华,廖万清
随着美国斯坦福大学论文“深度神经网络(deep neural networks, DNN)在皮肤癌诊断上达专家水平”的报道[1],人工智能再一次引起各界广泛关注。陆前进等设计的皮肤病人工智能辅助诊疗综合平台开启了人工智能在我国皮肤病辅助诊断的先河[2]。全玻片数字扫描技术(whole slide imaging, WSI)[3]和卷积神经网络(convolutional neural networks, CNN)算法的出现,为皮肤病理的人工智能诊断提供了有力支撑。
在过去几年中,人工智能在数字组织病理图像(digital histopathology images)诊断上取得了重大进展[4]。虽然组织病理数据分析的人工智能仍处于研究阶段,但最近欧洲和美国监管机构批准了人工智能用于前列腺癌和乳腺癌的辅助诊断,预示着人工智能将更广泛地进入组织病理学的临床诊断领域,包括皮肤病理学。如果人工智能能够作为皮肤病理诊断辅助工具应用到临床,不仅可以减轻皮肤病理医师的工作量,也能解决皮肤病理医师资源稀缺的现状。然而,在将人工智能从研究转化为临床实践方面仍存在重大挑战,它在真实世界的性能是否能够满足临床需求、是否符合伦理、是否能够实现经济成本与效益的转化仍是值得研究的问题[5]。本文阐述人工智能在皮肤病理诊断中的优势及其在基底细胞癌、鳞状细胞癌、黑素瘤、脂溢性角化、痣等皮肤肿瘤疾病中的实际应用,指出了人工智能应用于皮肤病理领域可能的发展方向。
广义的人工智能是指计算机算法对复杂任务的表现力,它能够接收数据,将其进行分析后输出一个答案[5]。机器学习(machine learning, ML)是人工智能的分支,它允许计算机通过识别模式对结果做出预测并在出错后进行自我纠正。机器学习被应用于病变的检测和分类、自动图像分割、数据分析、放射特征提取等医学活动中[6-8]。深度学习是机器学习的分支,它能够利用神经网络算法,准确识别图像、声音和语言等数据信息。同时深度学习能够对数据信息进行分类,发现相关性,生成新的数据信息,以便做出决策[9-10],因此其在医学影像分析、健康管理、评估癌症预后等医学活动中具有很高价值[11-13]。
深度学习主要有三种学习方法:①基于卷积运算的神经网络系统,即卷积神经网络;
②基于多层神经元的自编码(autoencoder)神经网络;
③以多层自编码神经网络的方式进行预训练,并结合鉴别信息进一步优化神经网络权值的深度置信网络(deep belief network, DBN)。
卷积神经网络受到生物学上多层感知器受体(variants of multi-layer perceptrons)启发而产生,倾向于识别原始图像,是一种专门对视觉刺激做出响应的神经网络,在二维图像分类和目标检测中非常有用。同时由于卷积神经网络能够提取复杂的图像特征,并在无需人工干预的情况下进行结果预测,因此它是皮肤病理诊断的理想选择[14-15]。
皮肤病理高度依赖形态学特征,疾病的诊断主要基于视觉图像,而人工智能在皮肤病理诊断上的优势也主要在于图像识别。首先人工智能不会像人一样被感官差异所影响。病理学家通过肉眼对不同的图像展开对比分析,从中直接获得相应的信息要素,但在一些表现相似的皮肤病理切片中,读片时容易出现误判的情况。而人工智能将大量的图像集中存储起来,通过排列对比分析,获得最为直观的数据信息,之后将这些数据信息存储在系统中,当需要识别结果的时候,能够直接从中获得参考。与此同时,人们肉眼识别图像的过程往往都是极为短暂的,并不能长期记忆图像信息数据,而人工智能却能够长久保存数据并不断获取新的数据[16-17]。
此外,人工智能可以减少病理诊断周转时间。例如当负责活检的医生和负责病理诊断的医生不在同一地点时,活检医师可以通过全玻片数字扫描技术将病理切片信息快速传递给病理医师,加快了病理诊断速度[18]。
人工智能还可以提高诊断的准确率。在甲真菌病中,即便组织切片来自病变的趾甲(指甲),菌丝和孢子在显微镜下通常也是少见的。皮肤科医生或者检验技师对可能是菌丝或孢子的图像区域进行仔细检查,以确定它们是否确实含有菌丝或孢子,但即使是有经验的医师(技师)也存在一定的漏诊率[19]。而人工智能可以对整张图像进行反复检查,提高准确率。
第一个被用于皮肤病理诊断的人工智能产生于1987年,名为TEGUMENT,它能够辅助诊断包括基底细胞癌、Spitz痣在内的数十种皮肤病,诊断准确率达到了91.8%。但由于捕获整张切片图像所需的大量内存需求,以及皮肤病理的形态学多样性,TEGUMENT的应用较为局限[20]。目前有较多人工智能用于皮肤病理诊断的文献报道,但局限于基底细胞癌、鳞状细胞癌、黑素瘤、脂溢性角化、痣等少数皮肤肿瘤。
3.1基底细胞癌 Cruz-Roa等[21]开发出了一套基于深度学习的人工智能,用来诊断基底细胞癌。这套系统集合了图像学习、图像分类、结果表述三个部分。这套系统的一个新特点是它扩展了深度学习体系结构,加入了一个可解释层。该层的加入有助于区分癌组织和正常组织,类似于数字染色,可以聚焦对诊断决策重要的图像区域。对于BOF(bag of features)、DCT(discrete cosine transform)、Haar(Haar-based wavelet transform)、proposedlearned-from-data representations四种图像表示策略的比较结果表明,proposedlearned-from-data representations方法产生的图像表示策略具有最佳的整体性能。
Jiang等[22]开发出一个基于MOIs(smartphone-captured microscopic ocular images)的模型,能够识别手机拍摄的基底细胞癌的病理图像,其诊断能力与用全玻片数字扫描技术图像训练出的卷积神经网络相当,这点提示在皮肤病理图像的采集上,手机拍摄是一种方便可行的方式。
Olsen等[23]开发出一套基于视觉几何组网络(visual geometry group, VGG)的神经网络模型,用来分别诊断结节型基底细胞癌、痣和脂溢性角化。在人工智能诊断时,使用了5种常见肿瘤和炎症疾病的数据图像。人工智能诊断的准确率分别为结节型基底细胞癌99.45%、痣99.4%、脂溢性角化100%,平均诊断时间仅为40 s。这种方法的局限在于只能实现二分类决策。
3.2鳞状细胞癌 Thomas等[24]率先使用可注释的深度学习系统(interpretable deep learning systems)用于鳞状细胞癌的诊断,图像分类的精确度达到了93.6%~97.9%。这套系统的主要特点在于其将组织分为包括毛囊、汗腺在内的12个有意义的皮肤类别。虽然该方法需要进行密集的数据标记,费用也消耗巨大,但该方法可以很容易地扩展到执行其他基本任务,如评估分化程度、评估淋巴血管和神经周围浸润的存在等。
Ianni等[18]研究出一套名为PDLS(pathology deep learning system)的系统,能够将临床疑似皮肤肿瘤的HE染色标本分为鳞状细胞癌等4类,分类的准确性达到了78%。同时他们发现:未经处理的原始图像数据虽然很重要,但带有印记的原始图像数据会影响神经网络的预测结果。例如带有墨汁的图像在诊断结果上会被识别为肿瘤。因此Ianni等认为,用于训练神经网络的数据需要经过测试和筛选,尽量减少病理学中的假相关性。
3.3黑素瘤和痣 Hart等[25]开发出一套基于卷积神经网络的人工智能系统,能够将痣区分为传统型和Spitz型,诊断的敏感性达到了85%,特异性达到了99%。该人工智能虽然提高了准确性,过程却过于繁琐(不仅需要识别整张切片信息,而且在识别切片边缘时需要仔细排除微小干扰)。同时他们也得出一条重要经验:在开发算法时要让病理学家参与分析设计,这样可以更好地优化模型。Hekler等[26]开发出一套基于深度神经网络的人工智能系统,用来区分黑素瘤和痣。结果显示,在诊断的一致性上,人工智能要优于皮肤病理专家,人工智能的不一致性为18%~20%,而皮肤病理专家的不一致性达到20%~25%。但由于参与模型训练的皮肤病理专家本身的不一致性较大,训练出来的模型有着较大的提升空间。
Brinker等[27]利用卷积神经网络训练出一套能够用来区分黑素瘤和痣的系统。与Hekler等不同,Brinker邀请了18名国际知名的病理学专家对原始图像进行标记,病理学家间的不一致性仅有13.5%,由此训练出来的模型的诊断灵敏度达到了98%,特异性达到了88%,实现了使用少量图片(HE染色的痣和黑素瘤图像各50张)训练就能产生出具有高准确度的人工智能。
Sturm等[28]开发出一套基于有丝分裂算法的人工智能系统,用来将黑素细胞病变区分为痣、交界性病变和黑素瘤。但该算法应用时需要排除大量假阳性有丝分裂(真正有丝分裂,主要是角质形成细胞和炎性细胞的有丝分裂。假阳性有丝分裂包括黑色素、皮脂腺核、梭形细胞核,如基质细胞和神经样分化黑素细胞)。同时由于用于训练的样本量过少,识别的准确性不高。
目前人工智能在皮肤病理诊断上已出现了较多应用,但局限于基底细胞癌、鳞癌、黑素瘤、痣、脂溢性角化等少数疾病,其他常见疾病如银屑病等,尚未出现相应的人工智能。而皮肤病的种类多达3 000余种,常见皮肤病也有数十种之多,因此人工智能在皮肤病理诊断中存在很大的发展潜力。笔者认为有以下几个发展方向:一是实现皮肤病理诊断的多分类决策;
二是将低分辨率的数据信息及手机采集的数据用于模型训练;
三是将人工智能应用于大部分常见病、高发病,甚至推广至少见病、低发病。