Research on Motion Blur Object Detection Technology for Imaging Guidance

ZHAOChunbo, MOBo, LIDawei, ZHAOJie

PDF(13788 KB)
PDF(13788 KB)
Acta Armamentarii ›› 2025, Vol. 46 ›› Issue (2) : 240376. DOI: 10.12382/bgxb.2024.0376

Research on Motion Blur Object Detection Technology for Imaging Guidance

Author information +
History +

Abstract

To enhance the accuracy and efficiency of motion-blurred image object detection in missile-borne imaging guidance,this paper proposes a lighter and more effective motion-blurred image object detection (LEMBD) network.The causes of motion-blurred image are analyzed,and a dedicated motion-blurred image dataset is constructed based on the imaging mechanism.Without increasing network parameters,a shared-weight siamese network design is adopted,and the prior knowledge is introduced to extract the features of blurred images by the feature learning of clear images,thereby enabling the simultaneous detection of both clear and blurred images.Additionally,the partial depthwise separable convolutions are introduced to replace the standard convolutions,which significantly reduce the parameter count and computational cost while enhancing learning performance.To further improve the feature fusion quality,a cross-layer path aggregation feature pyramid network is designed to effectively leverage both the detail information of low-level features and the semantic information of high-level features.Experimental results demonstrate that the proposed LEMBD network achieves superior performance in detecting the targets within motion-blurred images compared to conventional object detection and state-of-the-art motion-blurred detection methods,which can provide more accurate relative positional information for precision guidance tasks.

Key words

accurate object detection / motion-blurring / lightweight / partial depth separable convolution / cross-layer path aggregation feature pyramid network

QR code of this article

Cite this article

Download Citations
ZHAO Chunbo , MO Bo , LI Dawei , ZHAO Jie. Research on Motion Blur Object Detection Technology for Imaging Guidance. Acta Armamentarii. 2025, 46(2): 240376 https://doi.org/10.12382/bgxb.2024.0376

0 引言

在精确制导武器和装备的发展过程中,成像制导武器和装备逐渐占据主流地位,具备自主识别能力的成像制导技术也随之发展[1]。其中,运动目标检测技术是制约成像制导武器装备精准打击能力发展的关键技术之一,如在弹载成像制导任务中,由于弹药在飞行过程中存在弹体抖动或目标快速机动等因素,导致图像传感器所拍摄图像出现运动模糊,进而导致图像目标检测精度下降,很难精确导引弹药完成任务。在运动模糊图像中,一般目标检测算法诸如单次多边框检测(Single Shot multibox Detector,SSD)[2]、YOLOv4[3]、YOLOv6[4]、YOLOv7[5]等未针对模糊图像进行优化,易出现误检和漏检的现象,不利于弹药和无人机等装备的精确制导任务完成。
现今针对运动模糊图像目标检测问题的解决思路可分为两种:一种是利用去运动模糊算法先进行图像去模糊,然后再进行目标检测;另一种是直接针对目标检测算法进行改进,以提高对运动模糊图像的目标检测性能。如Zhou等[6]提出的Filter-DeblurGAN就是在DeblurGAN[7]基础上进行改进,并结合改进的YOLOv3[8]完成对模糊的图像去模糊并检测出目标。RT-Deblur[9]采用类似的思路(没有公开代码,无法复现),但是这些解决方法,由于去模糊+检测算法所需算力和耗时较大,难以用于算力有限且实时性要求很高的弹药、无人机等装备上。liu等[10]基于事件相机的特性提出一种运动稳健的高速检测算法,虽然基于事件相机的检测算法可以解决目标运动模糊问题,但是事件相机只能输出目标轮廓信息且依赖时间信息,对于具有相似轮廓不同分类的目标难以区分。Sayed等[11]根据5种不同导致检测精度下降的原因分别进行补救措施的探讨,将这些补救措施结合ResNet50[12]和Faster R-CNN[13],生成具有较高检测率的模型。但这个模型(Spec By Exposure[11])设计是ResNet50+Faster R-CNN,网络参数较多,性能虽好但消耗算力较大。TPH-YOLOv5++[14]使用跨层非对称Transformer检测头来提高对微小尺度和运动模糊目标检测性能,但是其模型算力消耗较大。Spec by Exposure、TPH-YOLOv5++等算法都是以大模型、重参数为基础提高对运动模糊目标的检测性能,同样难以用于算力有限且实时性要求很高的弹药、无人机等装备上。
因此,针对弹载、无人机等平台上运动目标检测特性,提出一种引入先验信息的轻量化运动模糊目标检测(Lighter and More Effective Motion-blurred Image Object Detection, LEMBD)算法,可有效检测运动模糊图像中的目标,提高模糊目标检测性能。本文的主要贡献如下:
1)为提高运动模糊图像特征学习效率,设计基于先验信息的双流特征提取网络。该网络是基于可共享权重的孪生网络,可对运动模糊图像与其先验知识(清晰图像)进行充分的特征学习,在不增加网络参数的同时提高对运动模糊目标的检测性能。
2)针对模型重参数问题,设计轻量化卷积模块。融合部分卷积(Partial Convolution,PConv)和深度可分离卷积(Depthwise Separable Convolution,DSConv)以及残差连接结构,设计为基础卷积单元,在降低参数的同时实现对特征的高效学习,提高目标检测性能。
3)设计跨层路径聚合特征金字塔网络(Cross-Layer Path Aggregation Feature Pyramid Network,CLPAFPN)。为弥补路径聚合网络中低级特征的详细信息可能会在传播和交互过程中丢失或降级问题,在原始网络基础上对每个尺度增加了一条跨层的特征连接支路,使其充分融合浅层细节与语义信息,进而提高检测性能。
本文使用根据DroneVehicle[15]所生成的模糊数据集进行性能检测,并与目前较为流行的模糊图像目标检测算法进行对比,以验证本文算法性能。

1 更轻、更有效的运动模糊目标检测算法

1.1 基础知识

1.1.1 图像运动模糊原理

在进行运动模糊图像目标检测任务探索之前,首先要解析运动模糊图像形成原理。运动模糊是因目标与相机之间的相对运动较快,甚至还有载体旋转、抖动等因素影响,且由于相机曝光时长有限,图像的快速变化导致成像积分时长不足,最终拍摄画面出现模糊或拖影,其数学模型可简单描述为
y=k*x+n
(1)
式中:xy分别表示原始像素矩阵和模糊像素矩阵;k表示模糊核矩阵;*表示卷积计算符;n表示噪声矩阵。据此模型,来进行图像去运动模糊。同理也可以运用此模型对清晰图像进行运动模糊处理,其模糊核是由单位矩阵根据生成的仿射变换矩阵进行旋转所得到的,具体如式(2)~式(4)所示:
M=cosθ-sinθtxsinθcosθty
(2)
UM=1000010000100001
(3)
k=M×UMk=kε
(4)
式中:θ为旋转角度;txty是平移的偏移量;ε为单位矩阵尺寸。通过仿射变换M将单位矩阵旋转,得到运动模糊核矩阵k,并对生成的运动模糊核矩阵k进行归一化处理。制作数据集时设置模糊参数ε∈[5,45],即整体数据集分为9个不同程度模糊区间,不同区间模糊程度不同,运动模糊处理后的数据集样本如图1所示(图1(a)~图1(i)分别为1~9种不同程度模糊图片)。
Fig.1 Motion blur processed DroneVehicle dataset

图1 运动模糊处理后的DroneVehicle数据集

Full size|PPT slide

1.1.2 目标检测算法

在硬件算力限制与应用场景的高复杂度两方面约束下,应用于弹载和无人机等平台的目标检测算法,应选择轻量化且高性能的探索方向。目前性能较好的目标检测算法[16]是基于Transformer[17]的大模型。这些大模型性能很好,但是目前只能在高性能计算机平台上应用,为更好地适应硬件平台与高复杂度的应用需求,选择目前较为流行且易于在硬件平台上部署的YOLOv5来进行算法研究。而作为对比的算法是近年来轻量化目标检测算法中较为流行的YOLOv6和YOLOv8。
YOLOv5采用马赛克增强、旋转和色彩调整等数据增强技术,使用CSPDarknet-53[3]作为主干网络提取特征,使用路径聚合网络进行特征融合,其网络整体框架如图2所示,图中CBS为卷积、归一化和Sigmoid线性单元(Sigmoid Linear Unit,SiLU)组合的缩写,C3为包含3个CBS的特征提取模块。其中, SiLU激活函数具体公式为
SiLU(x)=x11+exp(-x)
(5)
Fig.2 YOLOv5 framework

图2 YOLOv5框架

Full size|PPT slide

损失函数为带Logits的二元交叉熵损失,具体公式为
l(x,y)=L={l1,,lN}Tln=-wn[yn·lnσ(xn)+(1-yn)·ln(1-σ(xn))],l(x,y)=mean(L),reduction='mean'sum(L),reduction='sum'
(6)

1.2 LEMBD算法设计

为解决现今运动模糊目标检测算法痛点,本文算法基于YOLOv5进行以下3个方面设计。

1.2.1 轻量化卷积模块

针对轻量化应用场景,目前主要技术手段有修改主干网络参数(如,将主干网络中C3模块的层数由[3,6,9,3]改为[3,6,6,3])、更换更加轻量化的主干网络等。这些更改原始网络参数或更换更加轻量化主干网络的技术都实现了轻量化设计,但同时也降低了原始网络的检测性能。目前,直接从底层卷积角度出发进行改进的算法有部分卷积[18]、深度可分离卷积[19]等,实现了对轻量化算法的底层模块探索。其中,PConv原理是限制卷积核的有效区域来减少计算量,如此操作可能导致信息丢失和无法充分利用全局上下文信息。DSConv包含深度卷积与点卷积,可实现在空间与通道不同维度的卷积操作。DSConv与PConv单独使用都会降低网络计算量与检测效果[18],需要设计一个简洁有效的模块来充分发挥其性能,达到轻量且有效的卷积模块设计要求。因此本文设计出部分深度可分离卷积(Partial Depth Separable Convolution,PDSConv)替换原始网络中的普通卷积,其具体数学表达式如下所示
PDS=SiLU(BN(DSConv(PConv(x))))+xDSConv(x)=PW(DW(x))BN(xi)=γxi-1mi=1mxi1mi=1m(xi-1mi=1mxi)2+ε+β
(7)
式中:PDS是PDSConv的简称;PW是点卷积(Pointwise Convolution,PWConv)的简称;DW是深度卷积(Depthwise Convolution,DWConv)的简称;BN是批处理归一化( Batch Normalization,BN);γβ分别是当前通道的缩放(均值)和偏移(方差)。串联部分卷积和深度可分离卷积可以兼具局部感知和全局上下文信息的提取能力,从而增强特征融合的能力。这有助于模型更好地理解目标与背景之间的关系,在此基础上加入残差连接通路,进一步增强特征传播和融合能力,依此实现在保证网络检测效果的同时降低其参数量与计算量。
PDSConv具体消耗算力计算如下:一般输入与输出通道相同的情况下,PDSConv消耗浮点运算(Floating Point Operations,FLOPs)为
h×w×(k2×(cp2+c)+c2)
(8)
式中:k为卷积核大小;c为特征图输入输出尺寸(为方便计算默认相等),cp/c=1/4。PConv所消耗FLOPs为
h×w×k2×c2p
(9)
DSConv所消耗FLOPs为
h×w×(k2×c+c2)
(10)
而普通卷积消耗FLOPs为
h×w×k2×c2
(11)
PDSConv、PConv、DSConv(见图3)和普通卷积具体参数量计算分别为
PPDSConv=k2×(cp2+c)+c2PPConv=k2×cp2PDSConv=k2×c+c2PConv=k2×c2PPDSConvPConv=(cp2+c)c2+1k2
(12)
Fig.3 Basic convolution unit PDS with PConv and DSConv

图3 PConv和DSConv 结合成的基础卷积单元(PDS)

Full size|PPT slide

由式(12)中参数量比值(消耗FLOPs比值等同)可看出,当大kc大于1时,PDSConv(FLOPs、参数量)小于Conv(FLOPs、参数量),而本文的网络中只有少数几层卷积是k等于1且c都大于1(第1层卷积之外,c∈32~512,当c为32,k为3时,即其比值为1/9+1/16+1/32),因此网络在大部分使用PDSConv情况下,总体消耗算力和参数量远小于原始网络。

1.2.2 引入先验信息的双流特征提取网络

现今运动模糊目标检测算法以串联大模型或使用重参数模块的方式解决运动模糊目标检测性能差的问题,本文借鉴跨模态图像目标检测网络的思想,将模糊图像对应的清晰图像当做先验知识共同输入网络进行学习,以提高运动模糊目标检测性能。现今较为流行的跨模态特征信息融合算法主干网络[20]图4(b)所示,即特征级融合,此种方法一定程度上实现对不同特征的学习,但是这种网络会提高整体网络的复杂度和所消耗的算力,且其特征融合效率较低,检测性能表现不优。因此本文基于孪生网络的思想,设计引入先验信息的双流特征提取网络(Dual-stream feature extraction network introducing prior information,PIDSFENet)如图4(a)所示,两个分支分别将不同输入的特征进行提取(单分支结构与原始框架(图2主干网络所示)不同之处在于将部分普通卷积更换为PDS模块),然后将相同尺度的特征进行元素相加。其可共享权重的孪生特征提取网络特性实现了在不增加网络深度和算力的情况下提高运动模糊目标检测性能。
Fig.4 Comparison between the weight sharing network backbone with prior information and the feature information fusion network backbone

图4 引入先验信息的权重共享网络主干与特征信息融合网络主干

Full size|PPT slide

因此,本文选取可共享权重的双流特征提取网络来作为整体网络的主干,此网络可同时对清晰与模糊图像进行学习,而不像其他运动模糊检测算法(Spec By Exposure等)是将清晰与模糊图像按照一定比例(10/90)混合起来进行训练学习,PIDSFENet能够更加充分地学习到清晰图像和其所对应的模糊图像目标特征,其不仅可学习模糊图片和清晰图片的对应关系,还可引导网络加强模糊图片里面模糊特征的学习。网络基础单元PDS与CBS卷积使用SiLU激活函数,PDC3即为使用了PDS的C3模块。

1.2.3 CLPAFPN结构

路径聚合特征金字塔网络(Path Aggregation Feature Pyramid Network,PAFPN)[9]是在特征金字塔网络的基础上增加一个自下而上的通路,以实现对低级特征的充分应用。但是这些中低级特征的详细信息可能会在传播和交互过程中丢失或降级,尤其在此基础上增加小目标检测层,具体结构如图5(a)所示,即为增强路径聚合特征金字塔网络(Enhanced Path Aggregation Feature Pyramid Network,EPAFPN),其进一步增加了网络深度,特征传递的效率降低和信息衰减的问题更加突出。为解决此问题,本文在原始网络基础上(图2中特征融合网络部分),在每个尺度都增加一个跨层连接支路。如图5(b)所示,在每个特征输出端与对应的浅层特征进行通道拼接,以此来进一步弥补高级特征中的低级特征细节信息,减少信息衰减,增加特征传递效率。
Fig.5 The original network with a small object detection layer and the improved feature fusion network

图5 增加小目标检测层的原始网络与改进的 特征融合网络

Full size|PPT slide

式(13)~式(14)构建了本文的CLPAFPN:
P21=P2©Upsample(P31)P31=PDS(PDC3(P3©Upsample(P41)))P41=PDS(PDC3(P4©Upsample(P51)))P51=PDS(P5)
(13)
P2o=P2©PDC3(P21)P3o=P3©PDC3(P31©PDS(PDC3(P21)))P4o=P4©PDC3(P41©PDS(PDC3(P31)))P5o=P4©PDC3(P51©PDS(PDC3(P41)))
(14)
式中:©表示通道拼接, Pij(i∈2,3,4,5;j∈1,o)表示第i层特征层, Pi1表示经过一次特征处理后的特征输出层, Pio表示第i层特征的最终输出层。
完成以上改进后,本文完整的运动模糊图像目标检测网络结构便可搭建出来,如图6所示。值得注意的是,由于本文网络是孪生网络,其本质上一个相同的网络,只在训练阶段将两种数据按照相同顺序并行输入网络进行学习(见图4(a)),保存的模型权重也只是一个,因此在整体网络框架
Fig.6 Lighter and more efficient object detection network for motion blur images

图6 更轻、更有效的运动模糊图像目标检测网络

Full size|PPT slide

图中简化为一个网络,即训练时使用本文的孪生网络。检测时使用单支网络对模糊图像进行检测,当然也可对清晰图片进行检测。
另外,DroneVehicle数据集标签格式为(x1 y1 … x4 y4)4点标注,本文在数据送入网络训练之前进行标签格式转换,将其转换为(x y w h angle),并利用环形光滑标签(Circular Smooth Label,CSL)[21]来处理真实标签信息,以解决常规旋转检测中所遇到的角度回归问题,这样在原始网络中只增加一个角度分类即可,因此算法总损失l函数为
l=lbox+lobj+lcls+
(15)
式中:lbox采用完全交并比(Complete Intersection over Union, CIoU)损失,lobjlcls分别是置信度损失、类别损失与角度损失,都采用带Logits的二元交叉熵损失具体公式如式(16)所示:
CIoU=1-IoU+RCIoURCIoU=(x-xgt)2+(y-ygt)2(Wg2+Hg2)2+αvα=vLIoU+vv=4π2arctanwh-arctanwgthgt2
(16)
式中:WgHg是最小外接矩形的宽度和高度;α为权重系数;v即为用于衡量预测框与真实框宽高比一致性的惩罚项;wh是预测框的宽度和高度;wgthgt是真实框的宽度和高度。

2 LEMBD算法实验验证与结果分析

2.1 数据集准备

利用在上节中所提到的运动模糊图像原理,对DroneVehicle数据集进行不同程度的运动模糊处理,模糊数据集的图片数量与原始数据集相等且一一对应。在每个不同程度的模糊范围内都包含有不同角度、不同光照以及不同高度的图像,模糊数据的信息更加丰富(详细数据样本示例如图7所示),所以模糊数据集无论是从数量和模糊程度以及其他角度来看都足以验证算法性能。
Fig.7 Motion blur dataset

图7 运动模糊数据集

Full size|PPT slide

2.2 实验环境

本文实验设备主要参数如表1所示,所有算法初始训练参数为:训练轮数为300,初始学习率为0.01,权重衰减系数为0.0005,输入图像尺寸为864。
Table 1 CPU/GPU and its related parameters

表1 CPU/GPU及其相关参数

CPU参数 数值 GPU参数 数值
Intel(R) Core(TM) i9-7980XE NVIDIA GeForce RTX 3090
基准速度 2.60GHz 内存 24.0GB
内核 18 Pytorch版本 1.10.1
逻辑处理器 36 CUDA版本 11.3

2.3 实验结果及其分析

算法在原始的YOLOv5代码基础上进行消融实验,依次使用PIDSFENet、PDS、EPAFPN、CLPAFPN,实验证明使用LEMBD网络可提高运动模糊图像目标检测性能,详细的消融实验数据如表2所示,算法评估结果如图8所示。
Table 2 Ablation test data of motion blur image object detection network

表2 运动模糊图像目标检测网络消融实验

PIDSFENet PDS EPAFPN CLPAFPN 轿车 货车 卡车 公交车 厢式货车 召回率 mAP0.5/% 精确率 参数量/106 消耗算力/109
× × × × 85.7 42.7 56.7 90.6 44.5 61.1 64.1 65.4 2.01 5.0
× × × 88.7 50.4 62.4 92.2 48.0 63.7↑2.6 68.3↑4.2 71.3↑5.9 2.01 5.0
× × 89.0 47.2 64.7 92.8 49.6 62.3↑1.2 68.7↑4.6 75.1↑9.7 1.19↓40.5% 3.3↓36%
× 88.0 44.0 58.5 89.7 46.9 62.5↑1.4 65.4↑1.3 67.9↑2.5 1.28↓36% 6.4↑28%
× 88.5 47.2 59.1 90.5 48.4 62.0↑0.9 66.7↑2.6 71.8↑6.4 1.55↓22.5% 8.1↑62%
注:加粗数值为表现最佳指标,√表示启用该模块,×表示不启用该模块。
Fig.8 Parameters evaluated results of different algorithms

图8 不同算法参数量评估结果

Full size|PPT slide

目标检测算法使用召回率R(全部预测目标中预测正确的比例)、交并比(Intersection and Union,IoU)阈值为0.5的平均检测精度mAP0.5、精确率P、模型参数量、权重尺寸和FLOPs来量化算法的性能和轻量化程度,具体公式为
R=TPTP+FN
(17)
P=TPTP+FP
(18)
IoU=ABAB
(19)
mAP=01P(R)dR
(20)
式中:TP即模型正确地检测出正类别目标;FP即模型错误地将负类别目标检测为正类别目标;FN即模型错误地将正类别目标检测为负类别目标;A是预测框或预测区域;B是真实框或真实区域。R反映模型的查找所有相关目标的能力;P反映模型仅识别相关目标的能力;mAP反映模型同时具有高精度和高召回率的综合能力;权重大小、参数量和消耗算力全面且公平地反映模型检测速度。
表2中所列数据是在最轻量化模型YOLOv5n基础上进行的消融实验,使用PIDSFENet,会增加网络特征提取能力,可充分提取不同图像的特征,提高算法性能,算法相比基准算法提高2.6%的召回率、4.2%的mAP0.5与5.9%的精确率,并且未增加网络整体参数量与消耗算力;在此基础上,算法添加PDSConv,以其替换网络中的普通卷积,提高算法特征学习效率,减少网络参数和算力,相比基准算法增加1.2%的召回率、4.6%的mAP0.5与9.7%的精确率,减少40.5%的参数量和36%的算力消耗,实验结果表明PDSConv达到了设计要求;在此基础上,算法使用EPAFPN,验证算法增加小目标检测层后检测性能,相较基准算法提高1.4%的召回率、1.3%的mAP0.5与2.5%的精确率,减少36%的参数量,但是增加了28%的算力消耗,且相对于未加小目标检测层的算法性能有所下降,暴露出特征在更深层次传递过程中出现的信息损失或衰减问题;算法使用CLPAFPN代替EPAFPN,意在解决因特征在传递过程中出现信息损失或衰减问题,其相较于基准算法提高0.9%的召回率、2.6%的mAP0.5与6.4%的精确率,且减少22.5%的参数量,但增加了62%的算力消耗,相比EPAFPN提高了1.3%的mAP0.5、3.9%的精确率,有效提高了特征的传递效率,达到了预期设计。综上,LEMBD算法有效提高了运动模糊目标的召回率、精确率与mAP0.5,这些参数的提升有效降低了运动模糊目标的误检率与漏检率,降低了模型参数量,实现了设计要求。
表3所示为运动模糊图像目标检测同类算法对比实验数据,Spec By Exposure算法没有尺寸区分,TPH-YOLOv5++与LEMBD算法是在s尺寸下进行的对比,LEMBD算法参数量和计算量仅为Spec By Exposure算法11.8%和26.4%,并且召回率和mAP0.5分别超过Spec By Exposure算法16.6%和10.3。TPH-YOLOv5++算法性能相较于Spec By Exposure算法有较大的提升,但其参数量和计算量分别高于本文LEMBD算法46.5%和67.9%,并且其召回率和mAP0.5相比LEMBD算法分别低2.2%和0.6%。本文LEMBD算法相比TPH-YOLOv5++算法速度并不占优势,因其只有在算力有限的平台上才能突出它轻量化优势,另外LEMBD算法相比TPH-YOL Ov5++算法还多一个旋转角度预测任务,但尽管如此,其运行速度是Spec By Exposure算法的2.7倍,与TPH-YOLOv5++算法相差不多。
Table 3 Comparative experiments on similar algorithms for object detection in motion blurred images

表3 运动模糊图像目标检测同类算法对比实验

算法 召回率 mAP0.5/
%
精确率 参数
量/106
消耗算
力/109
帧率/
(帧·s-1)
Spec By Exposure 53.0 64.9 41.5 67.3 20.9
TPH-YOLOv5++ 67.4 74.6 79.9 7.18 29.9 59.5
LEMBD 69.6 75.2 79.0 4.90 17.8 55.5
注:加粗数值为表现最佳指标。
图8所示为模糊数据集下不同算法性能评估结果。由于在n尺寸模型下不能充分证明算法优越性,在s尺寸上对相关算法进行再次算法验证,实验结果证明,本文算法在利用较少的参数量达到了较好的性能,LEMBD算法在s尺寸上以YOLOv8算法43%参数量实现了与之水平相当的检测性能,在仅比基准算法多出0.7×106参数量情况下提高2.8%的mAP0.5。
图9~图10显示了不同算法在消耗算力、模型权重大小与mAP0.5的性能评估结果。如图9所示,LEMBD算法在s尺寸上以YOLOv8 62%的算力消耗实现了与之水平相当的检测性能,在仅比基准算法多出0.4×109的GFLOTs情况下提高2.8%的mAP0.5。如图10所示,LEMBD算法在s尺寸上以YOLOv8 53%权重大小实现了与之水平相当的检测性能,在基准算法77%权重大小情况下提高2.8%的mAP0.5,在仅为Spec By Exposure算法权重4%大小情况下提高了10.3%的mAP0.5,在TPH-YOLOv5++算法77%权重大小情况下实现了0.6%的mAP0.5。
Fig.9 FLOPs evaluated results of different algorithms

图9 不同算法消耗算力评估结果

Full size|PPT slide

Fig.10 Weight size evaluated results of different algorithms

图10 不同算法权重尺寸评估结果

Full size|PPT slide

最后选择4组具有代表性的场景进行目标检测效果对比,如表4所示,本文的算法在小目标、部分缺失目标、恶劣环境下都具有稳定的检测效果,有效降低误检和漏检情况的发生。
Table 4 Detected results of objects in different environments

表4 不同环境、大小目标检测结果

情形 真实目标 基准算法 本文算法
小目标
部分缺
失目标
黑暗环境
下目标
注:红色圆圈为漏检,黄色圆圈为误检。

3 结论

本文针对成像制导中弹载平台运动模糊图像的目标检测问题,设计了一个更轻、更有效的运动模糊图像目标检测网络,检测网络主体由一个可共享权重的孪生网络和跨层路径聚合特征金字塔网络组成,其中基本卷积单元是部分深度可分离卷积,网络实现了端到端的轻量化运动模糊图像目标检测性能提升。
其中,孪生网络的设计充分利用模糊图像与清晰图像的特征,实现在不增加网络参数的同时提高对运动模糊目标的检测性能。部分深度可分离卷积的设计,解决了网络重参数问题,实现在降低参数的同时对特征的高效学习,提高运动模糊目标检测性能。跨层路径聚合特征金字塔网络的设计解决了特征在传播和交互过程中丢失或降级问题,并充分融合不同层特征信息,提高检测精度。实验结果表明:在运动模糊数据集下,本文算法性能优于通用目标检测算法和运动模糊图像专用目标检测算法,较好地均衡了精度与速度,降低了算法对运动模糊目标的漏检率与误检率。

References

[1]
李成, 李建勋, 童中翔, 等. 红外成像制导末端局部图像识别跟踪研究[J]. 兵工学报, 2015, 36(7):1213-1221.
Abstract
针对红外成像制导末端目标图像充满导引头视场影响目标识别跟踪的问题,提出一种红外成像制导末端局部图像识别跟踪的方法。分析了红外成像制导原理;选取了高亮区比例、灰度标准偏差、长宽比、紧凑度和复杂度等5个特征量作为特征提取和目标识别的依据,提出适合导弹的目标快速识别算法;通过计算红外成像制导末端目标图像,在导引头焦平面上的投影面积的变化情况,分析了弹目距离与相对速度对目标图像变化情况的影响,研究了形心跟踪到局部图像跟踪的转换时机。综合考虑了可靠性和实时性要求,选取飞机机头作为局部图形跟踪的跟踪点;搭建红外成像制导仿真场景,对所提出的方法进行仿真分析。仿真结果表明:该方法能够有效地识别图像中的目标,减小红外成像导引头跟踪盲区,实现红外成像制导末端的平稳跟踪。
LI C, LI J X, TONG Z X, et al. Research on partial image recognition and tracking in infrared imaging terminal guidance[J]. Acta Armamentarii, 2015, 36(7):1213-1221. (in Chinese)
A new method for partial image recognition and tracking in the infrared imaging terminal guidance is proposed for the problem of that the field-of-view of infrared seeker filled with target affects target recognition and tracking. The principle of infrared imaging guidance is analyzed. Five characteristic quantities, such as highlight region proportion, standard deviation of gray value, length-width ratio, compactness and complexity, are used as the criteria of feature extraction and target recognition. A fast target recognition algorithm suitable for missile is proposed. The change of target image projection area on seeker’s focal plane in the infrared imaging terminal guidance is calculated. The effects of missile-target distance and relative velocity on aircraft imaging are analyzed. The switching from centroid tracking to partial image tracking is studied. Considering reliability and real-time, the nose cone of aircraft is selected as the tracking point for partial image tracking. The simulation scene of infrared imaging guidance is built. The simulation results are analyzed. Experimental results show that the proposed method can effectively recognize the targets in the infrared images, decrease the blind area, and realize the steadily tracking in the infrared imaging terminal guidance.
[2]
LIU W, ANGUELOV D, ERHAN D, et al. SSD:single shot multibox detector[C]// Proceedings of the Computer Vision-ECCV 2016:14th European Conference. Amsterdam,the Netherlands: Springer, 2016:21-37.
[3]
BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4:optimal speed and accuracy of object detection[R/OL]. Ithaca,NY,US: Cornell University, 2024(2024-04-23). https://arxiv.org/abs/2004.10934
[4]
LI C Y, LI L L, JIANG H L, et al. YOLOv6:a single-stage object detection framework for industrial applications[R/OL]. Ithaca,NY,US: Cornell University, 2022(2022-09-07). https://arxiv.org/abs/2209.02976
[5]
WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// Proceedings of the 2023 IEEE Conference on Computer Vision and Pattern Recognition. Vancouver,Canada,IEEE, 2023:7464-7475.
[6]
ZHOU L H, MIN W D, LIN D Y, et al. Detecting motion blurred vehicle logo in IoV using filter-DeblurGAN and VL-YOLO[J]. IEEE Transactions on Vehicular Technology, 2020, 69(4):3604-3614.
[7]
KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeblurGAN:blind motion deblurring using conditional adversarial networks[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,US, IEEE, 2018:8183-8192.
[8]
REDMON J, FARHADI A. YOLOv3:an incremental improvement:arXiv:1804.02767v1[R/OL]. Ithaca,NY,US: Cornell University, 2018(2018-04-08) [2022-05-17]. https://arXiv.org/abs/1804.02767v1
[9]
WANG H Z, HU C H, QIAN W J, et al. RT-Deblur:real-time image deblurring for object detection[J]. The Visual Computer, 2024, 40(4):2873-2887.
[10]
LIU B D, XU C, YANG W, et al. Motion robust high-speed light-weighted object detection with event camera[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72:1-13.
[11]
SAYED M, BROSTOW G. Improved handling of motion blur in online object detection[C]// Proceedings of the 2021 IEEE conference on computer vision and pattern recognition. Nashville,TN,US,IEEE, 2021:1706-1716.
[12]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,US,IEEE, 2016:770-778.
[13]
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
[14]
ZHAO Q, LIU B H, LYU S C, et al. TPH-YOLOv5++:boosting object detection on drone-captured scenarios with cross-layer asymmetric transformer[J]. Remote Sensing, 2023, 15(6):1687.
[15]
SUN Y M, CAO B, ZHU P F, et al. Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(10):6700-6713.
[16]
ZHANG G J, LUO Z P, TIAN Z C, et al. Towards efficient use of multi-scale features in transformer-based object detectors[C]// Proceedings of the 2023 IEEE Conference on Computer Vision and Pattern Recognition.Vancouver,Canada, IEEE, 2023:6206-6216.
[17]
LIANG J Y, CAO J Z, FAN Y C, et al. VRT:a video restoration transformer[J]. IEEE Transactions on Image Processing, 2024, 33:2171-2182.
[18]
CHEN J R, KAO S H, HE H, et al. Run,don’t walk:chasing higher FLOPS for faster neural networks[C] // Proceedings of the 2023 IEEE Conference on Computer Vision and Pattern Recognition. Vancouver,Canada,IEEE, 2023:12021-12031.
[19]
KAISER L, GOMEZ A N, CHOLLET F. Depthwise separable convolutions for neural machine translation[R/OL]. Ithaca,NY,US: Cornell University, 2017(2017-06-16). https://arxiv.org/abs/1706.03059
[20]
BAO C, CAO J, HAO Q, et al. Dual-YOLO architecture from infrared and visible IMAGES for object detection[J]. Sensors, 2023, 23(6):2934.
[21]
YANG X, YAN J C. Arbitrary-oriented object detection with circular smooth label[C]// Computer Vision-ECCV 2020:16th European Conference.Glasgow,UK:Springer International Publishing, 2020:677-694.
PDF(13788 KB)

11

Accesses

0

Citation

Detail

Sections
Recommended

/