基于改进Faster,R-CNN的CRTSⅡ型轨道板裂缝检测方法

时间：2024-01-08 15:45:02 来源：网友投稿

许贵阳，张诗泉，白堂博

（1.北京建筑大学机电与车辆工程学院，北京 100044；
2.北京建筑大学城市轨道交通车辆服役性能保障北京市重点实验室，北京 100044）

目前，我国是高铁运营里程最长、在建规模最大、运营动车组最多、商业运营速度最快的国家。在此背景下，针对铁路基础设施的检测极为重要，轨道板是列车运行的基础，其健康状态直接影响运营安全、养修成本及乘客舒适度［1］，确保轨道板的安全状态对铁路正常运行有重要意义。轨道板的裂缝分布整体呈现一定的随机性，但其分布与桥梁、公路等裂缝相比则更有规律，其位置主要分布在轨枕边缘以及轨道板连接处，并且裂缝检测工作在夜晚进行，导致检测质量更易被积水、亮度等因素影响。近年来，国内外学者在裂缝检测领域做了深入研究，但在轨道板裂缝检测领域使用机器视觉的方法较少。王登涛等［2］基于热成像原理进行轨道板表面裂缝的检测，该检测手段受环境温度影响较大，环境温度越高、裂缝检测效果越好。Li等［3］基于红外热像仪对最常见的裂纹进行检测，当温度大于15 ℃时，可以很好地检测出宽度不小于0.2 mm 的裂纹。这些研究结果表明，基于热成像的裂缝检测精度依赖于检测温度，对温度的抗干扰性较弱。

采取图像处理的方式可以避免温度对检测结果的影响，寇东华［4］基于图像识别和线结构激光测量技术研制了一种轨道板裂缝自动检测装置，该装置对采集到的轨道板离缝点云数据进行分析，提高了检测效率。薛峰等［5］提出一种图像处理方法，对采集到的图片通过二值化、裂缝合并、噪声剔除等手段处理后，对裂缝位置进行定位。许薛军等［6］研究了基于数字图像的桥梁裂缝检测方法，深入分析评价了图像灰度化、棋盘格角点求解像素率、滤波除噪、边缘检测等图像处理算法，实现了基于视频或图像的桥梁裂缝宽度计算，并用15 幅桥梁裂缝图像验证了其裂缝检测精度。肖创柏等［7］对钢轨裂缝进行检测，对目标区域进行分析后，通过系列操作提取单像素宽缝隙目标，并通过计算像素点数得出裂缝长度，试验在钢轨裂缝数据集上平均准确率达到63.87%。李良福等［8］提出一种分类模型，用于桥梁裂缝的识别，将模型结合改进的滑动窗口算法对裂缝进行诊断，结果显示该算法有更好的识别效果与泛化能力。Wang等［9］根据裂缝的宽度信息对不同程度的裂缝进行分类，使用正交投影法对训练数据进行预处理，根据严重程度对裂缝图像分为3个不同的严重等级，其结果对不同光强具有很高的适应性。Liu 等［10］研究了基于图像处理的板坯连铸纵向裂纹视觉检测方法，结果表明纵向裂纹引起的异常区域呈线性和垂直分布。该方法为检测纵向裂纹提供了一种直观、简便的方法。王磊［11］研究了HOP+LBP组合的特征参数用于路面劣化等的分类识别算法，同时引用了YO⁃LOv3 模型，进一步提升了路面裂缝目标识别定位的准确率。

目前针对轨道板裂缝的传统图像处理方法受亮度、拍摄角度等外部因素影响，存在错检、漏检、裂缝定位不够准确等问题。

本文结合裂缝的特征情况，提出一种基于改进Faster R-CNN 的CRTSⅡ型轨道板裂缝检测方法，通过对Faster R-CNN 网络［12］进行针对性改进，将改进后的Faster R-CNN 网络应用于无砟轨道板的裂缝检测试验，提高了轨道板裂缝检测的定位精度以及识别准确率。该方法满足轨道板表面裂缝检测的要求。

轨道板裂缝位置分布随机，检测目标较小，而Faster R-CNN 算法以其针对小物体高精度的特性在工业实践上广泛应用，所以本文采用Faster RCNN 算法并对其进行针对性改进。Faster R-CNN网络主要分为3 个部分：基于残差网络［13］的特征提取网络、区域候选网络及Fast R-CNN网络。

1.1 整体网络结构

改进后的Faster R-CNN 结构如图1 所示。首先经过主干网络提取输入图像的特征图，该特征图应用于后续的区域候选网络和全连接层。提取后的特征图进入用于生成区域建议的区域候选网络。在原始特征图的基础上，使用位置预测分支和形状预测分支分别对锚框的位置和形状进行预测，将位置和形状信息结合得到锚框；
然后对特征图进行裁剪过滤后通过Softmax 判断锚框属于前景或者后景；
同时，另一个回归分支修正锚框边界，形成较精确的区域建议；
最后进入检测网络，该层将区域建议与特征提取网络最后一层提取的特征图叠加，得到带有区域建议的特征图，并利用全连接操作来进行目标识别和定位，利用Softmax 进行具体类别的分类，同时完成回归操作获得物体的精确位置。

图1 改进的Faster R-CNN结构

1.2 区域候选网络改进

区域候选网络（Region Proposal Network，RPN）的作用是在特征图上生成推荐裂缝，使用滑动窗口在特征图上进行滑动将其映射到低维特征，这个低维特征被输入到2 个分支：边框回归分支（Bounding Box regression，bbox reg）及分类分支（Classification，cls）。reg 的卷积输出是检测裂缝的回归偏移量，预测裂缝坐标需要利用回归偏移量进行调整。cls 的输出为裂缝区域是前景或背景的概率得分，在后续过程中将Softmax 函数与这个得分结合在一起进行二分类操作，然后输出结果。

RPN 会产生多个推荐区域，将滑动窗口产生的推荐窗口数量记作k个锚框，边界回归分支需要4k个输出用来记录回归信息，分类层需要2k个输出记录分类信息，整个网络的损失由分类损失和回归损失2部分构成，RPN结构整体损失L计算式为

式中：i为锚点索引；
pi为锚点i被预测为目标的概率；
为对应的标注窗口预测概率；
ti为预测得到的边框坐标；
ti*为真实的边框坐标；
Ncls为最小的批处理数量；
Nreg为锚框位置的数量；
λ为加权求和参数，控制Ncls和Nreg在式中的比重；
Lcls为ti和ti*的对数损失；
Lreg为回归损失函数。

若第i个锚点与标注窗口间的阈值小于0.2，则认为该锚点为负，值为0。相反地，若第i个锚点与标注窗口间的阈值大于0.8，则认为该锚点为正，值为1。

针对RPN 做2 种改进：①对锚框生成算法进行调整，选用引导锚框（Guided Anchor）以适应尺寸差异较大的裂缝并提高检测效率；
②为提高重叠处裂缝的检测效果，对非极大抑制（Non-Maxi⁃mum Suppress，NMS）算法做出调整。

改进后的RPN 网络结构如图2 所示。图中：dw为像素的横向偏移量；
dh为像素的纵向偏移量。

图2 改进的RPN网络结构

1.2.1 融合引导锚框的区域候选网络

轨道板裂缝对象与常规检测目标相比，横纵比更加不固定，根据该情况对锚框的改进采用2 种方法：其一是预定义更多不同横纵比和比例尺的锚框以提高锚框整体数量，但这会导致RPN 网络运行效率大幅下降，因为其中有大量锚框未使用却消耗了大量的计算资源；
其二是采取引导锚框的方法，在本文中引导锚框即为可根据裂缝特征而自动做出调整的锚框，该方法在达到上述效果的情况下具有更高的效率，减少无用锚框的同时能够做到精准定位。

为适应尺寸差异较大的裂缝并增强算法的鲁棒性，在此引入引导锚框（Guided Anchor［14］），其可由裂缝的位置以及上下文信息学习得到。改进后的RPN 网络生成1 个预测图，图中每个点只生成1个锚框，其中每个点代表对应特征图上的点存在裂缝的概率，改进后的RPN 网络坐标定位分支对特征图使用1 个1×1 卷积，然后在每个像素上使用sigmoid 函数得到裂缝的概率值。RPN 网络中的形状预测分支输出dw和dh，然后根据映射式（2）和式（3）的非线性变换映射到（w，h），并将偏移量输出到回归分支，利用该方法回归得到锚框的坐标和形状，与预先设置的锚框相比，极大地提高了裂缝检测精度以及裂缝检测效率。

式中：σ为经验比例因子；
s为步幅度。

1.2.2 采用Soft-NMS算法解决裂缝重叠问题

在试验前期网络测试过程中发现，Faster RCNN 在处理部分图片时检测准确率下降严重。分析得到，当CRTSⅡ型轨道板上裂缝出现交叉时会导致该情况发生，而这种交叉的多自由度裂缝会严重危害轨道安全。结合该问题对Faster R-CNN 网络进行分析发现，RPN 结构中的NMS 算法将锚框按照概率得分从大到小进行排列，选中得分最高的锚框并对与该框重叠的其他框进行抑制，该过程不断地被递归应用于剩余锚框，这就导致原有网络在处理相接近的检测目标时总会对一部分进行抑制从而无法产生良好的检测效果。根据数据集上的轨道分布特点可知，CRTSⅡ型轨道板裂缝多为横纵纹路，但在轨道板宽接缝处多呈现为不规则状裂缝，部分裂缝集中分布，且有交叉现象，所以NMS 算法会将与检测裂缝所在锚框的重叠度（Intersection over Union，IOU）大于某个阈值的其他目标全部舍弃，从而出现当裂缝密集分布或产生交叉时往往只能识别出其中1条的情况。

为解决该问题，将RPN 网络中裂缝提议阶段的NMS 算法调整为Soft-NMS［15］，该算法不会简单地滤掉所有大于阈值的目标，而是基于重叠部分的大小为相邻检测框设置1个衰减函数，把该目标的置信度降低并代替原有分数，取代NMS 算法的舍弃操作。即当2 个检测框重叠时，置信度会随着重叠面积增大而降低，当2 个检测框只有小部分重叠，原有检测框概率得分几乎不变，从而针对重叠裂缝提高检测效率，改进后的网络综合考虑了先验框的得分与IOU。

Soft-NMS算法采用的计算式为

式中：Si为第i个建议框的概率得分；
I为检测裂缝所在锚框的重叠度值；
D为经过Soft-NMS 抑制后的建议框坐标集合；
M为按照得分从高到低排列的建议框集合；
bi为待处理框，其存储的信息为待处理的建议框坐标。

计算机硬件环境为GTX3090 显卡，32 GB 内存，CPU 为Core i7-10700，软件运行环境为py⁃thon3.6，pytorch1.7.0以及Open CV 4.5.1。

2.1 数据采集

采用的图像采集设备为北京某公司设计制造的新型轨道巡检仪，训练数据为夜间采集到的某高速铁路CRTSⅡ型轨道板图像，采集分辨率为（4 096×4 096）像素，图像通过激光线阵相机于夜间连续拍摄，并对左右轨图像进行了拼接。

2.2 数据集构建

本文检测裂缝为单一检测目标，所需数据集的最小数目较易实现。模型训练前对数据集进行初步分析，通过分析后发现存在图像亮度分布不均、图像大小不一致及数据重复等问题，因此对数据集进行了二次筛选并采用，从中挑出500 张具有裂缝的CRTSⅡ型轨道板图片，将数据按照训练集和测试集7∶3 的比例进行划分，训练集中的30%作为验证集。

初始训练集中有350 幅缺陷样本，这些缺陷样本的标注格式参照VOC2007，为了使数据集更加健壮，本文采用了数据扩充。通过对数据集中的350 幅图像进行分析，其中276 幅像素大小为4 096×4 096 的灰度图，有74 幅像素为512×731的RGB 图像。首先对276幅像素为4 096×4 096的灰度图像进行切割，将切割后的照片作为原始训练集，能够有效改善图片调整过大所带来的信息丢失问题；
其次将切割后的276 张图片和剩余的74 张图片转换像素为600×600 的灰度图，可以在保证精度的情况下兼顾检测速度；
最后，基于GPU 硬件测试情况，将原始训练集扩充到3 500 幅以解决数据样本量不足的问题。每个图像会产生几幅新的图像，通过几种合理的随机方法对图像进行增强处理，包括：水平翻转、垂直翻转、高斯滤波、亮度调整倍率范围［0.8，1.2］和仿射［16］等。一些增强的图片如图3所示。

图3 图像增强

本数据集检测类别为裂缝（crack）类别，图像编号及其标签如图4所示。

图4 图像标注

测试部分与训练部分的处理相同，读取150 幅图像，其中104 幅（4 096×4 096）像素的灰度图像，46 幅（512×731）像素的RGB 图像，其次将150 幅图像转换为（600×600）像素的灰度图像，以匹配模型输入的大小。

3.1 评价标准

对轨道板裂缝检测的参数调优过程中参考指标为查全率R和查准率P，以此作为裂缝检测的评价标准。查准率表示为正确的裂缝定位结果除以总检出裂缝数目，查全率表示为正确的裂缝定位结果除以总裂缝样本数目，即

式中：TP为正确的裂缝定位结果；
FP为误判断为裂缝的定位结果；
FN为未检出的裂缝定位结果。

试验预设的裂缝种类阈值为0.8，经过网络判断，当识别目标的置信度大于0.8 时认为它是对应种类，否则不识别该检测目标。

3.2 训练操作

使用从原始训练数据集中分离出的训练集和验证集进行训练，并在测试集上对模型进行评价。性能指标为二分类交叉熵损失函数，并在模型的基础上增加了早期停止操作以及随机丢弃方法（Drop⁃out）防止过拟合，采取冻结训练提高整体效率，预训练权重选用VOC 2007数据集的训练权重。

为分析不同模型参量设置对训练精度的影响，获得最高的网络检测精度，分别设置不同的批尺寸（Batchsize）、学习率（静态学习率、等间隔调整学习率、余弦退火学习率）及优化器参数值进行对比分析。在其他参数不变的前提下，将Batchsize 分别设置为1，16，32 进行训练精度对比；
在静态学习率和动态学习率中采用不同的衰减方案进行训练精度对比；
优化器分别采用SGD 和Adam 进行训练精度对比。训练结果见表1。

表1 模型与参数设置对训练结果的影响

由表1可以得到以下结论。

（1）试验设置的Batchsize 大小对训练精度没有明显影响；
Batchsize=1 时为在线学习，收敛速度极慢，当数据量增大时训练时间明显变长，综合考虑训练速度与训练得分后，设置Batchsize=16；
考虑到进一步提高训练速度，后续采用冻结训练。

（2）当初始学习率为0.1 时动态学习率明显优于静态学习率，在静态学习率、余弦退火（Co⁃sine Annealing LR）和等间隔调整（Step LR）学习率衰减方案中确定选用余弦退火算法，通过调整余弦退火算法参数找到学习率为0.1 时算法效果最佳。

（3）Adam 优化器以其自适应性，在试验中取得了更好的精度和更高的速度，所以选择在本模型上表现更加出色的Adam优化器。

3.3 损失函数

为方便分析训练批次与损失曲线的关系，截取前300 批次绘制成损失曲线，如图5 所示。由图5可见：在100 批次时由于学习率改变导致loss 曲线大幅度下降；
在训练超过200 批次时训练损失和测试损失已经基本收敛并且相差很小，证明网络训练过程可靠。

图5 损失曲线

3.4 消融试验

为证明对Faster R-CNN 改进的有效性，采用消融试验加以验证，试验以原Faster R-CNN 网络为基础，在构建的数据集上进行训练与测试，结果见表2。

表2 消融试验结果

在引入Soft-NMS 时可见查准率和查全率都有所提升。分析因为改进非极大抑制算法是为了解决裂缝重叠问题，所以查全率相对提升较大提升为2.6%；
由于裂缝重叠的情况在数据集上有限，查准率仅提升了0.8%，如果后续数据集中重叠样本量增多，模型将会有更高的查准率。同时还测试了单独引用引导锚框对整体网络精度的影响。改进的锚框更加适应裂缝特征，可对裂缝尺寸和横纵比进行联合估计产生更精准的锚框，较改进前查准率提升2.0%，查全率提升3.5%；
在同时引用Soft-NMS和引导锚框时效果达到最好。

经过试验证明，本文提出的改进方法取得一定成效。

3.5 结果分析

选取部分CRTSⅡ型轨道板裂缝图片，使用原始网络和改进网络分别进行预测，定位结果以及置信度对比如图6 所示，图中crack 表示置信度。由图6可见：单目标改进后，置信度明显从0.89提升到0.99 并且过滤掉误检的裂缝目标，减小了定位误差；
处理双目标问题时也提高了检测效果，改进后更加准确地表示出裂缝位置，左侧检测位置置信度从0.89 提升到0.96，右侧从0.97 提升到0.99，且更加适配检测裂缝的尺寸。

图6 定位结果及置信度对比

轨道板裂缝情况复杂，在裂缝高度密集以及发生交叉时，采用原始Faster R-CNN 网络所得出的裂缝检测效果并不理想，裂缝的置信度明显下降，无法识别全部裂缝，基于改进的Faster R-CNN 网络则较好地解决了这个问题，效果如图7 所示。由图7 可见：改进后的网络将小范围内的裂缝准确定位，说明采用Soft-NMS 算法和引导锚框对网络的改进取得成效。

图7 裂缝密集处定位结果及置信度对比

为了检测算法的性能，同时还将本文方法与较为常用的R-FCN［17］，YOLO-v5，Faster-RCNN及YOLOx［18］进行对比以评估性能。在评估性能前分别对上述网络进行训练并调整参数得到最优方案，评估结果见表3。由表3可知：YOLO-v5检测效率最高，检测速度较本文方法可提高近1倍并且查准率接近改进前的二阶段算法，可考虑应用于实时检测，但在追求高精度检测效果的情况下不如本文方法；
YOLOx 采用无锚框设计，由于其解耦头的存在导致检测效率变慢但精度提升；
R-FCN 在注重速度的同时损失了一部分精度，而本文方法对锚框提取部分做出修改，极大地提升了提取候选区域的速度，在提高了Faster R-CNN 检测速度的基础上取得了最高的查准率以及查全率，并针对裂缝重叠处的检测做出优化，在裂缝较多处取得更好的检测效果；
最佳模型的裂缝查准率可达95.9%，查全率达89.6%，与其他算法相比分别提高了约2%～4%和2%～6%，说明漏检的情况更少，同时裂缝识别准确率也有所提高。

表3 不同训练方法对比

本文提出的针对CRTSⅡ型轨道板裂缝的检测方法不仅具有更快的检测速度，同时能够准确有效地从轨道板图像上定位裂缝位置，并提高了针对裂缝重叠处的检测精度。该方法与采用热成像方法比，在保证精度的同时具有更强的抗干扰能力，与R-FCN，YOLO-v5等检测方法相比具有更高的识别准确率，最终查准率为95.9%，查全率为89.6%。

后续研究考虑在不降低识别准确率的情况下，对检测图像进行分割和定量化分析，按照高速铁路无砟轨道线路维修规则对裂缝伤损等级进行判定，同时对裂缝扩展情况进行跟踪，研究裂缝变化情况，研究结果将为CRTSⅡ型轨道板裂缝维修工作提供帮助。

猜你喜欢锚框查准率像素基于YOLOv3锚框优化的侧扫声呐图像目标检测信号处理(2022年11期)2022-12-26锚框策略匹配的SSD飞机遥感图像目标检测计算机与生活(2022年11期)2022-11-15基于SSD算法的轻量化仪器表盘检测算法*计算机工程与科学(2022年8期)2022-08-20像素前线之“幻影”2000小哥白尼(军事科学)(2022年2期)2022-05-25基于GA-RoI Transformer的遥感图像任意方向目标检测中南民族大学学报（自然科学版）(2022年3期)2022-05-08“像素”仙人掌红领巾·萌芽(2019年8期)2019-08-27基于数据挖掘技术的网络信息过滤系统设计现代电子技术(2018年16期)2018-08-21大数据环境下的文本信息挖掘方法现代电子技术(2017年23期)2017-12-20ÉVOLUTIONDIGAE Style de vie tactile中国与非洲(法文版)(2017年10期)2017-11-23基于深度特征分析的双线性图像相似度匹配算法计算机应用(2016年10期)2017-05-12