分销赏收藏举报申诉 / 12

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于改进RoI Transformer的遥感图像多尺度旋转目标检测.pdf

基于改进RoI Transformer的遥感图像多尺度旋转目标检测.pdf

上传人：自信****多点

文档编号：636961

上传时间：2024-01-21

格式：PDF

页数：12

大小：6.33MB

《基于改进RoI Transformer的遥感图像多尺度旋转目标检测.pdf》由会员分享，可在线阅读，更多相关《基于改进RoI Transformer的遥感图像多尺度旋转目标检测.pdf（12页珍藏版）》请在咨信网上搜索。

1、文章编号：1002-2082(2023)05-1010-12基于改进 RoITransformer 的遥感图像多尺度旋转目标检测刘敏豪1,2，王堃1,2，金睿蛟1,2，卢天2，李璋1,2（1.国防科技大学空天科学学院，湖南长沙410000；2.国防科技大学图像测量与视觉导航湖南省重点实验室，湖南长沙410000）摘摘要：要：旋转目标检测是遥感图像处理领域中的重要任务，其存在的目标尺度变化大和目标方向任意等问题给自动目标检测带来了挑战。针对上述问题，提出了一种改进的 RoITransformer 旋转目标检测框架：首先，利用 RoITransformer 检测框架获取旋转的感兴趣区域特征(ro

2、tatedregionofinterest,RRoI)用于鲁棒的几何特征提取；其次，在检测器中引入高分辨率网络(high-resolutionnetwork,HRNet)提取多分辨率特征图，在保持高分辨率特征同时适应目标的多尺度变化；最后，引入 KLD(Kullback-Leiblerdivergence)损失，解决旋转目标表示的角度周期性的问题，提高检测方法对任意方向目标的适应性，并通过旋转目标边界框参数的联合优化提升目标定位精度。本文提出的旋转目标检测方法，即 HRD-ROITransformer(HRNet+KLDROITransformer)，在 DOTAv1.0 和 DIOR-R两个

3、公开数据集上与典型的旋转目标检测方法进行了比较。结果显示：相比于传统的 RoITransformer检测框架，本文方法在 DOTAv1.0 和 DIOR-R 数据集上检测结果的 mAP(mean-average-precision)分别提高了 3.7%和 4%。关键词：关键词：旋转目标检测；RoITransformer；高分辨率网络；遥感图像目标检测中图分类号：TN26；TP391.4文献标志码：ADOI：10.5768/JAO202344.0502001Multi-scale oriented object detection based on improved RoI Transforme

4、r inremote sensing imagesLIUMinhao1,2，WANGKun1,2，JINRuijiao1,2，LUTian2，LIZhang1,2（1.CollegeofAerospaceScienceandEngineering,NationalUniversityofDefenseTechnology,Changsha410000,China；2.HunanProvinceKeyLaboratoryofImageMeasurementandVisionNavigation,NationalUniversityofDefenseTechnology,Changsha41000

5、0,China）Abstract：Orientedobjectdetectionisacrucialtaskinremotesensingimageprocessing.Thelarge-scalevariationsandarbitraryorientationsofobjectsbringchallengestoautomaticobjectdetection.AnimprovedRoITransformer detection framework was proposed to address above-mentioned problems.Firstly,RoITransformer

6、detectionframeworkwasusedtoobtainrotatedregionofinterest(RRoI)forextractionofrobustgeometricfeatures.Secondly,high-resolutionnetwork(HRNet)wasintroducedinthedetectortoextractmulti-resolutionfeaturemaps,whichcouldmaintainhigh-resolutionfeatureswhileadaptingtomulti-scalechangesof the target.Finally,Ku

7、llback-Leibler divergence(KLD)loss was introduced to solve angle periodicityproblem caused by the standard representation of oriented object,and improve the adaptability of RoI收稿日期：2023-07-07；修回日期：2023-08-16基金项目：国家自然科学基金（61801491）作者简介：刘敏豪（1999），女，硕士研究生，主要从事深度学习与图像处理、旋转目标检测研究。E-mail：通信作者：李璋（1985），男，博

8、士，研究员，主要从事航空航天领域中的图像测量与视觉导航、计算机视觉的基础理论以及工程应用研究，并拓展其在医工交叉领域的应用。E-mail：第44卷第5期应用光学Vol.44No.52023年9月JournalofAppliedOpticsSep.2023Transformertotargetsinarbitrarydirections.Theobjectlocalizationaccuracywasalsoimprovedthroughthejointoptimizationofboundingboxparametersoforientedobject.Theproposedmethod,ca

9、lledHRD-ROITransformer(HRNet+KLDROITransformer),wascomparedwiththetypicalorientedobjectdetectionmethodontwopublicdatasets,namelyDOTAv1.0andDIOR-R.Theresultsshowthatthemean-average-precision(mAP)ofdetectionresultsonDOTAv1.0andDIOR-Rdatasetsisimprovedby3.7%and4%,respectively.Key words：orientedobjectde

10、tection；RoITransformer；high-resolutionnetwork；objectdetectionofremotesensingimage引言基于深度学习的目标检测技术在遥感领域已广泛应用1。不同于前视图像中的目标，俯视的遥感图像中的目标具有方向任意的特点(如图 1 所示)，依赖于水平感兴趣区域(horizontalregionofinterest,HRoI)的通用目标深度学习检测方法通常会引起预测边界框和真实边界框之间的错位2，在检测大长宽比（如桥梁、大船等）且具有任意角度目标时会包含大量冗余的背景信息。此外，遥感图像中复杂背景、目标的形态变化3、目标的密集分布4进一

11、步增加了旋转目标检测的难度，针对遥感图像的高精度的旋转目标检测依然具有挑战。(a)Harbor(b)Plane(c)Bridge(d)Overpass图 1 遥感图像(第 1 行)和自然图像(第 2 行)对比图Fig.1 Comparison between remote sensing images(the firstrow)and natural images(the second row)(x,y,w,h)(x,y)wh(x,y,w,h,)近年来，在基于深度学习的通用目标检测基础上发展出了多种旋转目标检测方法。通用目标检测主要回归目标区域的，其中表示HRoI 的中心，和分别表示 HRo

12、I 的长度和宽度，而旋转目标检测额外回归一个方向值，并输出目标区域旋转框。MAJQ 等学者设计了RRPN(rotatedregionproposalnetwork)5，通过对特征提取网络预定义的每一个 anchor 位置添加一些方向参数，以此生成大量不同尺度、长宽比、方向的 anchors，其还提出了 RRoIs(rotatedregionofinter-est)，可以将任意旋转候选区域投影到特征图。RRPN方法可以获得旋转的候选目标区域，提升旋转目标的检测精度，但是这些密集的旋转 anchors 消耗了大量的计算和存储资源6。DINGJ 等人提出了RoITransformer3，该方法使用空

13、间变换将水平边界框表示的候选区域转换为旋转框，可以大大减少旋转 anchor 的数量并提高了检测精度。在 RoITransformer 的基础上，HANJM 等提出了 ReDet 来提取目标的旋转不变特征7，其以旋转等变网络为骨干网络生成旋转等变特征，可以准确预测目标方向，降低对方向变化建模的复杂性，其还提出了RiRoIAlign(rotation-invariantRoIAlign)算法，对每个候选区域提取旋转不变特征，进一步提高了旋转目标的检测精度。RoITransformer 已成为当前最典型的旋转目标检测框架，然而，RoITransfor-mer 采用的骨干网络 ResNet8会在提取

14、特征时逐渐减小特征图的空间大小3，因此它对目标的尺度变化非常敏感，对于不同分辨率图像的目标检测适应性不足。此外，RoITransformer 使用基于SmoothL1 损失的回归方法来预测目标旋转角度，其无法解决旋转目标表示带来的角度周期性问题，其表现为角度边界不连续性9-10以及类正方形问题。基于 RoITransformer 的旋转目标检测常用于双阶段(two-stage)目标检测，其包含生成目标候选区域和目标检测分类两个步骤。最近有学者提出了一些单阶段(one-stage)旋转目标检测方法，例如R3Det(refinedrotationRetinaNet)11，一种基于 Reti-naN

15、et 的端到端精细化旋转目标检测器，它采用从粗到精的渐进回归形式，首先使用水平 anchor 以达到更高的召回率，然后在后续精细化阶段使用精细的旋转 anchor 以获得更精确的定位。SASM(shape-adaptive selection and measurement)repp-oints12方法提出样本自适应选择和分配策略，根据目标的形状信息和特征分布动态选择样本。Orientedreppoints13方法提出一种高效的质量评估和样本分类方法，还引入了一种空间约束来惩罚离群点，以实现鲁棒的自适应学习。其他典型的单阶段方法还包括 SSD(singleshotmultiboxdetecto

16、r)、YOLO(youonlylookonce)及其改进方法14等。在应用光学2023，44（5）刘敏豪，等：基于改进 RoITransformer 的遥感图像多尺度旋转目标检测1011单阶段目标检测中，一种基于高斯分布的回归损失被提出，用来解决目标表示的角度周期性问题，提高了旋转目标的检测精度，其核心步骤是将旋转边界框转换为二维高斯分布，采用的损失包括GWD(Gaussian Wasserstein distance)9、KLD(Kullb-ack-Leiblerdivergence)15和 KFIoU(Kalmanfilteringintersectionoverunion)16等。单阶段

17、方法一般可以获得比双阶段方法更高的检测效率，但其检测精度也会受到一定的损失17。针对 RoITransformer 对多尺度遥感图像旋转目标检测精度不足的问题，本文提出了 HRD-ROITransformer(HRNet+KLD ROI Transformer)方法。首先，采用原始的 RoITransformer 检测框架获取 RRoI，用于鲁棒的几何特征提取；其次，使用HRNet18作为骨干网络，提升模型对多尺度目标检测的适应能力；最后，借鉴单阶段目标检测的损失函数设计思路，以 KLD 损失代替 RoITransformer检测框架中的 SmoothL1 损失，解决旋转目标表示带来的角度周期

18、性问题，进一步提高 ROITrans-former 框架对旋转目标检测能力。1 HRD-ROI TransformerHRD-ROITransformer 使用 RoITransformer 作为基本框架。其采用 HRNet 作为骨干网络，将高分辨率卷积和低分辨率卷积流并行连接，可在保持高分辨率特征提取的前提下提升模型对多尺度目标检测的适应能力。KLD 损失用来代替 Smo-othL1 损失，解决度目标表示周期性带来的角度边界不连续性和类正方形问题。1.1 检测网络整体架构HRD-ROITransformer 的整体架构如图 2 所示，主要包含 4 个部分。HRNetFeature extra

19、ctionFPNRRoIFC-2048Classification regressionRCNN based on KLD lossKLDHorizontal region proposalsOriented region proposalsFC-2048FC layersRPNRPNFC5HRoIDecoderRol Transformer图 2 HRD-ROI Transformer 结构图Fig.2 Structure diagram of HRD-ROI Transformer特征提取模块采用带有特征金字塔的 HRNet提取多层高分辨率特征（见 1.2 节）。RPN 模块RPN 模块将

20、任意大小的特征图作为输入，生成一系列粗略的 HRoIs。RoITransformer 模块RoITransformer 模块用于从 HRoIs 的特征图中生成 RRoIs。首先，通过RoIPooling 或 RoIAlign 对不同大小的 HRoIs 进行RoI 提取，得到固定大小(默认为 77)的 RoI 特征，然后将每个 HRoI 特征输入到全连接层中，并对其进行解码，得到相应的粗略 RRoIs。基于 KLD 损失的 RCNN 模块类似于 RoITransformer 模块，通过旋转 RoIPooling、旋转 RoIwarping 或旋转 RoIAlign 将不同尺寸的 RRoIs 进行

21、旋转，RoI 提取得到固定尺寸的 RoI 特征，再输入到全连接层进行分类和更加精细的边界框回归，其中以 KLD 损失调整边界框回归的结果，最终输出结果。1.2 高分辨率网络为了提升检测网络对不同尺度目标的适应性，本文采用高分辨率网络 HRNet 代替 ResNet作为骨1012应用光学第44卷第5期干网络。HRNet 的基本结构如图 3 所示，包含并行多分辨率卷积和重复多分辨率融合。Channel mapsConv.unitUnsampleStrided conv.图 3 HRNet 结构图18Fig.3 Structure diagram of HRNet18图 3 中 conv.unit

22、表示步长为 1 的 33 卷积，strided.conv 表示步长为 2 的 33 卷积，upsample表示双线性上采样后进行 11 卷积。并行多分辨率卷积是指以一个高分辨率子网络作为第一阶段，并逐步增加一个由高分辨率到低分辨率的子网络，形成新的阶段，并将这些多分辨率子网络并行连接起来。重复多分辨率融合是指在各个并行子网络之间引入交换单元，使每个子网络能重复地从其他并行子网络接收信息。该模型的主要特点是整个过程中特征图始终保持高分辨率，通过在高分辨率特征图主网络中逐渐并行加入低分辨率特征图子网络，不断进行不同网络分支之间的信息交互，同时保持强语义信息和精准位置信息。在 RoITransfor

23、mer 网络的基本结构中，FPN(featurepyramidnetworks)作为特征提取中重要的一个环节，是将低分辨率强语义的深层特征和高分辨率弱语义的浅层特征通过一种自上而下的方式进行特征融合，使得不同层次的特征增强19，而 HRNet 并非是 FPN 的扩展，它不仅有逐层的特征融合，还有子网络之间多次重复地交换信息，可以持续保持高分辨率的特征。1.3 基于 KLD 的参数联合优化尽管 RoITransformer 方法在旋转目标检测中具有良好的效率和精度，但由于其旋转目标表示方式带来的角度周期性，会存在角度边界不连续性(图 4)和类正方形问题(图 5)，导致模型训练的不稳定。此外，其采

24、用的 smoothL1回归损失对目标表示的各个参数是进行独立优化的，使得损失对任何参数的欠拟合都很敏感，影响了旋转目标的检测精度。本文引入的 KLD 损失，将旋转目标表示为高斯分布基础上，采用联合优化的策略，可有效解决角度周期性问题，提高目标的检测精度。hththttttppphphpwpwpwphpwtwtwt(a)(b)(c)图 4 角度边界不连续性示意图Fig.4 Schematic diagram of angle boundary discontinuitypthphtwpwt(a)(b)图 5 类正方形问题示意图Fig.5 Schematic diagram of square-l

25、ike problem1.3.1旋转目标表示的角度周期性(xp,yp,wp,hp,p)(xt,yt,wt,ht,t)图 4(a)是目标预测框的理想表示形式，黄色旋转框和绿色加粗旋转框分别表示目标的预测值和真值，其目标框的表示分别为和，两者只存在角度和中心点的细微差别。旋转目标表示一般有 OpenCV 表示方法20和长边定义法21。若采用 OpenCV 定义表示旋转框应用光学2023，44（5）刘敏豪，等：基于改进 RoITransformer 的遥感图像多尺度旋转目标检测1013 (0，/2wpp/2 (/2，/2ppt(图 4(b)，会存在长短边交换的问题。由于 OpenCV表示方法的定义中

26、，其锐角的一侧定义为，因此，图 4(b)中的预测框角度是短边与水平轴正方向的夹角，与图 4(a)中的理想形式的相差，且预测框的长宽与真值相反，这种旋转框定义方式有可能会造成较大的回归损失，导致模型训练不稳定，尤其大长宽比目标，该问题会更加突出。若采用长边定义法表示旋转框(图 4(c)，由于定义中长边与水平轴正方向的夹角，图 4(c)中与图 4(a)中的预测角度相差，因此与存在较大差异。pt/2对于类正方形的目标(如图 5 中的棒球场，其长宽比接近于 1)，若预测框的长边正好与真值的长边相反，对于长边定义法的目标表示方式，与会相差，同样会导致模型训练不稳定。1.3.2KLD 损失(x,y,w,

27、h,)N(m,)为解决 ROITransformer 原有的目标表示方式存在角度周期性问题，本文在 RoITransformer 框架中引入 KLD 损失。首先，将目标表示的旋转框转换成高斯分布：1/2=RRT=cossinsincosw200h2cossinsincos=w2cos2+h2sin2wh2cossinwh2cossinh2cos2+w2sin2m=(x,y)T（1）R式中：表示旋转矩阵；表示特征值的对角矩阵。在式(1)中，高斯分布具有以下几个属性10：(w,h,)=(h,w,/2)属性 1：(w,h,)=(w,h,)属性 2：(w,h,)(w,h,/2),w h属性 3：根据属

28、性 1，旋转目标的 OpenCV 表示方法造成的长短边的交换问题得以避免。根据属性 2 和3，旋转目标的长边定义法造成的类正方形问题也可以得到解决。综上，角度周期性因高斯分布的三角函数表示方式得以避免，表现出边界连续性。Np(mp,p)Nt(mt,t)预测框和真值对应的高斯分布和的 KLD 为Dkld(Nt Np)=12(mpmt)T1p(mpmt)+Tr(p1t)+ln?p?|t|1（2）Dkld(Nt Np)(x,y,w,h,)显然，中的每一项都是由部分参数耦合组成的，所有旋转框参数都形成了一种链式耦合关系，使其在训练过程中相互影响，联合优化和自动调节。Dkld(Nt Np)最后，为了保证

29、评估测度和回归损失之间的一致性，采用非线性变换将转换为近似IoU 损失：lreg=11+fDkld(Nt Np)（3）f()Dkld(Nt Np)f(D)=Df(D)=ln(D+1)式中：表示一个非线性函数，对距离进行变换，如或；是一个超参数，用来调节整体损失。(x,y,w,h,)上述分析表明，基于 KLD 的损失可以保证旋转框参数在训练过程中联合优化，优化一个参数，其余参数可以作为其权重动态调整，并且通过非线性变换使得该损失可以和评估测度保持一致性。相比 SmoothL1 损失的参数独立优化，基于 KLD 的损失理论上可以得到更高的目标检测精度。2 实验和讨论2.1 数据集本文使用带有旋转目

30、标标签的 DOTAv1.022和 DIOR-R23数据集进行方法的测试和比较。DOTAv1.0数据集的图像大小从 800800 像素到2000020000 像素不等，包含各类具有各种方向、尺度和外观的目标，是迄今为止最具挑战性的旋转目标检测数据集，共包含 2806 张图片，将 188282个目标实例分为飞机(plane,PL)、船舶(ship)和储罐(storagetank,ST)等 15 类，其中训练集、验证集和测试集的比例分别为 1/2、1/6 和 1/3，更多有关各个类别的统计数据可以参考文献 22。DIOR-R 数据集是 DIOR24数据集的扩展，与 DIOR

31、数据集共享相同的图像，主要用于旋转目标检测。该数据集中有23463张图像和 192518 个实例，涵盖各类典型场景和20个常见目标类。DIOR-R 中的目标类别包括飞机(airplane,APL)、机场(airport,APO)、棒球场(baseballfield,BF)和篮球场(basketballcourt,BC)等。2.2 评估标准本文的目标检测结果主要采用精度(precision,P)、召回率(recall,R)、平均精度均值(mAP)、检测速度作为评价标准。精度及召回率公式如下：1014应用光学第44卷第5期P=TpTP+FPR=TPTP+FN（4）TpFpFN式中：是真正例(tru

32、epositive)数量；为假正例(falsepositive)数量；为假反例(falsenegative)数量。mAP 是一种综合了准确率和召回率的评价标准：每个类别都可得到一条 PR（precision-recall）曲线。计算曲线下的面积可得到该类别的平均精度AP(averageprecision)，mAP则为各个类别AP的均值，是评判目标检测网络整体性能最常用的指标之一。2.3 实现细节实验基于 i9-10920X处理器，使用 4 个 NVIDIAGeForceRTX-2080TiGPU，内存为 256GB，利用mmrotate 平台25，以 ImageNet 数据集预训练好的模

33、型进行骨干网络参数初始化。采用随机梯度下降算法(stochasticgradientdescent，SGD)对模型进行训练，momentum 为 0.9，权重衰减为 0.0001，初始学习率为 0.005，共训练 12epochs，在第 8 和11 个 epoch 时学习率衰减为前一阶段的 1/1026。对于 DOTAv1.0 数据集，本文将所有训练集和验证集的原始图像以 824 的步长裁剪出 10241024像素大小的图像块(其中为避免目标在切割图像时被分割，保留图像重叠度为 200)。对于 DIOR-R数据集，图像大小保持 800800 像素的原始大小。训练集的图像块通过一组

34、图像归一化、随机翻转、随机裁剪等数据增强预处理方式之后，输入到模型中用于训练。在 DOTAv1.0 数据集的实验中，使用训练集对模型进行训练，使用验证集对模型进行评价。对于 DIOR-R 数据集，则使用训练验证集进行训练，使用测试集对模型进行评价。2.4 实验结果分析表 1 和表 2 分别展示了 HRD-ROITransformer与典型的旋转目标检测方法在DOTAv1.0 和DIOR-R数据集上的对比。针对旋转目标检测，双阶段算法的检测精度一般会高于单阶段算法17，因为双阶段算法能在第一阶段提取的特定候选区域的基础上进行旋转框的精细化回归，而且相比于单阶段算法，正负样本更加均衡。表 1 不同

35、方法在 DOTAv1.0 数据集上的表现对比Table 1 Performance comparison of different methods on DOTAv1.0 datasetMethodBackboneLossAP/%mAP/%PLBDBR GTFSVLVSHTCBCSTSBF RAHASPHCOne-stageRotatedRetinaNetResNet50SmoothL1 89.7 75.0 40.8 64.1 66.5 67.7 85.8 90.7 62.6 65.7 54.4 62.0 62.6 52.2 54.566.3R3DetResNet50SmoothL1 89.5

36、 73.2 44.4 65.3 66.9 77.2 87.2 90.8 57.9 66.2 51.3 63.2 72.1 53.0 54.667.5S2ANetResNet50SmoothL1 89.0 73.8 43.6 67.1 64.9 74.2 79.1 90.5 62.7 66.3 56.8 64.8 61.2 54.2 42.066.0SASMreppointsResNet50GIoU89.5 76.0 45.3 70.7 59.9 74.6 78.0 90.3 64.1 67.3 46.2 67.1 70.3 56.3 44.366.7OrientedreppointsResNe

37、t50GIoU89.7 75.7 49.8 70.7 74.1 80.5 88.4 90.5 65.1 68.6 47.1 64.6 70.4 57.8 54.669.8Two-stageRotatedFasterRCNNResNet50SmoothL1 88.5 74.7 44.1 70.0 63.7 71.4 79.4 90.5 58.7 62.0 54.7 64.5 63.2 58.2 50.166.3OrientedRCNNResNet50SmoothL1 89.1 75.8 50.0 68.3 62.3 84.0 88.8 90.6 68.7 62.3 57.0 63.6 66.4

38、57.3 39.168.2RoITransformerResNet50SmoothL1 89.4 77.7 46.8 71.9 68.4 77.9 80.0 90.7 71.3 62.5 59.1 63.6 67.3 60.2 45.468.8ReDetReResNet50 SmoothL1 89.6 78.0 47.4 68.8 65.8 82.4 87.4 90.6 67.5 69.7 63.4 65.9 67.3 53.0 48.769.7OursHRNetKLD89.8 75.4 54.7 78.9 68.8 78.6 89.3 90.7 75.7 62.8 67.0 67.2 75.

39、3 60.7 52.172.5RoITransformer3由于提取了更为精准 RRoI 特征，所以达到了比 RotatedFasterRCNN19更好的性能。如表 1 所示，ReDet7在 DOTAv1.0 数据集上的 mAP 相较于 RoITransformer 提高了 0.9%，它是一种基于 RoITransformer 的检测方法，可以提取旋转不变特征。本文所提方法的 mAP 达到了 72.5%，相较于 RoITransformer 提高了 3.7%，相较于 ReDet提高了 2.8%。本文用 DIOR-R 数据集评估 HRD-ROITransfor-mer 模型的适应性。根据 DIO

40、R-R 数据集的特性，将用于 DOTAv1.0 数据集模型的的输入图像大小调整为 800800 像素，检测目标类别调整为 20，并使用 DIOR-R 数据集重新训练和测试模型。结果如表 2 所示，本文方法仍然是所有双阶段算法中性能最好的，mAP 达到了64.7%，比RoITransformer 高4%，比ReDet 高5.1%。SASMreppoints12和Orientedrepp-oints13也在 DIOR-R 数据集上取得了较好的检测效果，但 mAP 仍分别比我们的模型低 2.7%和 1.2%。应用光学2023，44（5）刘敏豪，等：基于改进 RoITransformer 的遥感图像多

41、尺度旋转目标检测1015表 2 不同方法在 DIOR-R 数据集上的表现对比Table 2 Performance comparison of different methods on DIOR-R datasetMethodBackboneLossAP/%mAP/%APL APO BFBCBR CH ESA ETS DAM GF GTF HA OPSH STA STO TCTSVE WMOne-stageRotatedRetinanetResNet50SmoothL1 59.1 15.0 70.4 81.1 14.5 72.6 64.9 46.6 14.6 70.9 74.7 24.8 30

42、.2 67.0 69.1 50.1 81.2 41.6 32.5 61.952.1RotatedRetinanet-GResNet50GWD64.6 21.1 72.9 81.1 13.1 72.7 68.5 45.8 14.7 70.1 75.1 27.2 30.6 68.9 66.1 57.9 81.2 47.4 34.8 61.553.8R3DetResNet50SmoothL1 53.3 27.9 68.9 81.0 22.9 72.6 66.4 49.6 19.2 68.4 76.0 22.1 41.5 68.3 57.9 55.4 81.1 45.5 35.7 54.053.4R3

43、Det-KResNet50KLD57.8 34.9 69.4 81.2 28.5 72.7 71.8 53.2 16.1 71.8 77.1 36.4 47.6 74.5 62.5 60.8 81.3 50.0 39.8 56.257.2S2ANetResNet50KFIoU67.2 28.0 76.0 80.8 27.3 72.6 61.2 60.3 17.9 68.6 78.2 26.2 44.6 77.7 65.8 67.4 81.3 48.9 42.2 63.157.8SASMreppointsResNet50GIoU61.2 52.1 74.5 82.7 32.4 72.5 76.0

44、 58.1 34.9 71.3 77.1 38.6 51.5 79.1 64.8 66.3 80.7 60.5 41.7 64.262.0OrientedreppointsResNet50GIoU68.7 41.9 75.1 84.0 35.4 75.4 79.5 65.8 32.1 75.0 78.6 43.4 51.8 80.3 66.5 66.4 85.4 54.0 46.2 65.063.5Two-stageRotatedFasterRCNNResNet50SmoothL1 62.0 18.1 71.3 81.0 22.9 72.5 61.0 58.5 10.0 67.6 78.8 3

45、4.3 38.9 80.4 58.8 62.4 81.3 44.7 41.3 64.355.5OrientedRCNNResNet50SmoothL1 61.8 26.7 71.6 81.3 33.8 72.6 74.0 58.4 23.7 66.8 80.0 29.9 52.0 81.0 62.5 62.4 81.4 50.6 42.3 65.058.9RoITransformerResNet50SmoothL1 63.1 30.7 71.8 81.5 33.9 72.7 75.8 64.6 24.3 67.4 82.5 35.7 51.1 81.2 70.5 70.8 81.5 44.4

46、43.4 66.060.7ReDetReResNet50 SmoothL1 71.0 28.3 71.5 88.7 31.3 72.7 71.6 61.1 20.8 61.8 81.9 36.7 48.8 81.1 63.1 62.5 81.6 49.2 42.8 64.659.6OursHRNetKLD63.1 41.6 79.0 88.0 42.1 72.6 76.6 65.8 28.2 71.0 82.9 42.2 57.1 81.3 72.5 70.4 89.7 53.3 49.1 66.364.7尽管 ReDet 采用 ReResNet 提取旋转不变特征，但它的高分辨率特征语义信息很

47、弱，对于小目标的检测效果不佳。而本文方法中使用的 HRNet 保持了高分辨率表示，保持强语义信息的同时，提高了网络对各种尺度目标的鲁棒性。如表3 所示，DIOR-R数据集中的船舶(SH)、车辆(VE)、风车(WM)和DOTAv1.0 数据集中的小型车辆(SV)、船舶(SH)是典型的小目标，本文方法的检测结果均优于 ReDet。表 3 DOTAv1.0 和 DIOR-R 数据集的小目标检测效果Table 3 Detection effects of small object on DOTAv1.0 and DIOR-R datasetsMethodBackboneLossDIOR-R/%DOTA

48、v1.0/%SHVEWMSVSHOne-stageRotatedRetinaNetResNet50SmoothL167.032.561.966.585.8R3DetResNet50SmoothL168.335.754.066.987.2S2ANetResNet50SmoothL177.742.263.164.979.1SASMreppointsResNet50GIoU79.141.764.259.978.0OrientedreppointsResNet50GIoU80.346.265.074.188.4Two-stageRotatedFasterRCNNResNet50SmoothL180.4

49、41.364.363.779.4OrientedRCNNResNet50SmoothL181.042.365.062.388.8RoITransformerResNet50SmoothL181.243.466.068.480.0ReDetReResNet50SmoothL181.142.864.665.887.4OursHRNetKLD81.349.166.368.889.3图6(来自DIOR-R 数据集)和图7(来自DOTAv1.0数据集)主要展示了双阶段检测方法在典型场景旋转目标检测的结果。图 6 第 1 列是 RotatedFasterRCNN 的检测结果，第 2 列是 Oriented

50、RCNN 的检测结果，第 3 列是 RoITransformer 的检测结果，第4 列是 ReDet 的检测结果，第 5 列是本文方法的结果。图 6 第 1 行的机场区域检测结果中，前 4 列的方法各有不同程度的误检，RotatedFasterRCNN 将航站楼误检为立交桥，将飞机误检为风车；OrientedRCNN6、RoITransformer 和 ReDet 均将飞机误检为风车。本文方法没有出现这种误检，是因为 HRNet提取了尺度适应性更强的特征，能很好地分辨风1016应用光学第44卷第5期车和飞机，而且对于第 1 行图中航站楼、第 2 行中的桥梁这两种大长宽比的目标，KLD 损失规避

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于改进RoI Transformer的遥感图像多尺度旋转目标检测基于改进 RoI Transformer 遥感图像尺度旋转目标检测

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。