联合组间对抗数据混合与变换器学习的协同显著性检测.pdf
《联合组间对抗数据混合与变换器学习的协同显著性检测.pdf》由会员分享,可在线阅读,更多相关《联合组间对抗数据混合与变换器学习的协同显著性检测.pdf(17页珍藏版)》请在咨信网上搜索。
1、第4 6卷 第9期2 0 2 3年9月计 算 机 学 报CH I N E S E J OUR NA L O F C OMP UT E R SV o l.4 6 N o.9S e p.2 0 2 3 收稿日期:2 0 2 2-0 6-1 5;在线发布日期:2 0 2 3-0 1-1 0.本课题得到科技创新2 0 3 0-“新一代人工智能”重大项目(N o.2 0 1 8 AAA 0 1 0 0 4 0 0)、国家自然科学基金项目(N o.6 1 8 7 6 0 8 8,6 1 8 7 2 1 8 9,6 2 2 7 6 1 4 1,U 2 0 B 2 0 6 5,6 1 5 3 2 0 0 9)
2、、江苏省3 3 3工程人才项目(N o.B R A 2 0 2 0 2 9 1)、视觉合成图形图像技术国家级重点实验室开放研究项目(N o.2 0 2 1 S C UV S 0 0 1)资助.吴 泱,硕士研究生,主要研究领域为协同显著性检测.E-m a i l:w u y 9 8 4 1 91 6 3.c o m.宋慧慧(通信作者),博士,教授,主要研究领域为视频目标分割、图像超分.E-m a i l:s o n g h u i h u i n u i s t.e d u.c n.张开华,博士,教授,中国计算机学会(C C F)会员(4 2 0 8 9 M),主要研究领域为协同显著性检测、视觉
3、跟踪.陈 虎,博士,副教授,主要研究领域为计算机视觉、医学成像及医学图像处理.刘青山,博士,教授,中国计算机学会(C C F)高级会员,主要研究领域为视频内容分析与理解.联合组间对抗数据混合与变换器学习的协同显著性检测吴 泱1)宋慧慧1)张开华2)陈 虎3)刘青山2)1)(南京信息工程大学自动化学院 南京 2 1 0 0 4 4)2)(南京信息工程大学计算机与软件学院数字取证教育部工程研究中心 南京 2 1 0 0 4 4)3)(四川大学视觉合成图形图像技术国家级重点实验室 成都 6 1 0 0 4 1)摘 要 协同显著性检测旨在发现并分割出一组图像中相同语义类别的前景显著目标.当前基于深度学
4、习的协同显著性检测方法主要存在两方面局限:(1)训练数据中仅含有单一显著目标,无法为模型训练提供对抗样本,导致其泛化性受限,难以有效应对未知类别目标、干扰显著目标、嘈杂背景等挑战;(2)现有方法通常利用卷积神经网络提取特征,其感受野受限,无法建模长程依赖关系,限制了所学特征的表征力.为此,本文提出了一种新颖的基于组间对抗数据混合的协同显著性检测变换器,旨在通过纯视觉变换器构建序列到序列的协同显著性检测网络,并使用组间混合后的数据进行对抗训练,以提升模型的泛化性.所设计的网络结构包含数据混合子网络和协同显著性检测变换器两部分.具体而言,在数据混合子网络中,本文设计了目标细化模块,输入类激活图,引
5、导网络以无监督的方式从一组图像中分割出边缘平滑的显著目标作为对抗对象,并通过设计调距模块将对抗对象以最小化重叠的方式混合至另一组图像之中,生成混合训练数据;在协同显著性检测变换器中,本文从序列建模的角度,设计了任务注入器,将组信息图符与显著性信息图符注入序列特征之中,并利用自注意力机制充分捕获特征之间的全局上下文信息.最后,将获得的组特征和显著性特征通过自注意力机制进行充分混合交互,以进一步增强特征的表征力,生成精确的协同显著性检测结果.本文在包含C o s a l 2 0 1 5、C o C A和C o S O D 3 k等三个基准数据集上做了充分的实验评估,与多个领先方法的对比结果充分证明
6、了本方法的优越性能.关键词 数据混合;变换器;协同显著性检测;大数据中图法分类号T P 3 9 1 D O I号1 0.1 1 8 9 7/S P.J.1 0 1 6.2 0 2 3.0 1 8 3 8I n t e r-G r o u p A d v e r s a r i a l M i x u p a n d T r a n s f o r m e r L e a r n i n g f o r C o-S a l i e n c y D e t e c t i o nWU Y a n g1)S ONG H u i-H u i1)Z HANG K a i-H u a2)CHE N H u
7、3)L I U Q i n g-S h a n2)1)(S c h o o l o f A u t o m a t i o n,N a n j i n g U n i v e r s i t y o f I n f o r m a t i o n S c i e n c e a n d T e c h n o l o g y,N a n j i n g 2 1 0 0 4 4)2)(S c h o o l o f C o m p u t e r a n d S o f t w a r e,E n g i n e e r i n g R e s e a r c h C e n t e r o f
8、 D i g i t a l F o r e n s i c s,M i n i s t r y o f E d u c a t i o n,N a n j i n g U n i v e r s i t y o f I n f o r m a t i o n S c i e n c e a n d T e c h n o l o g y,N a n j i n g 2 1 0 0 4 4)3)(K e y L a b o r a t o r y o f F u n d a m e n t a l S c i e n c e f o r N a t i o n a l D e f e n s
9、e o n V i s i o n S y n t h e t i z a t i o n a n d G r a p h i c I m a g e,S i c h u a n U n i v e r s i t y,C h e n g d u 6 1 0 0 4 1)A b s t r a c t C o-s a l i e n c y d e t e c t i o n t a r g e t s a t s e g m e n t i n g t h e c o mm o n s a l i e n t o b j e c t s i n a g r o u p o f r e l e
10、 v a n t i m a g e s.T h e c u r r e n t c o-s a l i e n t o b j e c t d e t e c t i o n m e t h o d s b a s e d o n d e e p l e a r n i n g h a v e t w o l i m i t a t i o n s:(1)T h e r e i s o n l y a s i n g l e t a r g e t i n t r a i n i n g i m a g e s,w h i c h c a n n o t p r o v i d e a d
11、v e r s a r i-a l s a m p l e s f o r t h e m o d e l,m a k i n g t h e m o d e l h a v e p o o r g e n e r a l i z a t i o n p e r f o r m a n c e.Wh e n f a c i n g t h e i n t e r f e r e n c e o f u n k n o w n c l a s s t a r g e t s,s i m i l a r s a l i e n t o b j e c t s,n o i s y b a c k g
12、 r o u n d e n v i r o n m e n t s a n d s o o n,t h e m o d e l i s g r e a t l y l i m i t e d;(2)T h e e x i s t i n g m e t h o d s u s u a l l y u s e c o n v o l u t i o n n e u r a l n e t w o r k s(C NN s)t o e x t r a c t f e a t u r e s.H o w e v e r,t h e C NN s c a n n o t o b t a i n a
13、l a r g e r e c e p t i v e f i e l d w h i c h m a k e s t h e m o d e l u n a b l e t o f u l l y m o d e l t h e l o n g-r a n g e d e p e n d e n c i e s,r e s u l t i n g i n p o o r d i s-c r i m i n a t i v e c a p a b i l i t y o f t h e m o d e l.T o t h i s e n d,w e p r o p o s e a c o-s
14、a l i e n c y d e t e c t i o n t r a n s f o r m e r g u i d e d b y i n t r a-g r o u p a d v e r s a r i a l m i x u p.A i m i n g a t b u i l d i n g t h e c o-s a l i e n c y d e t e c t i o n n e t w o r k f r o m a p e r s p e c t i v e o f s e q u e n c e-t o-s e q u e n c e a n d t r a i n
15、i n g t h e m o d e l o n m i x u p a d v e r s a r i a l d a t a,m a k i n g t h e m o d e l m o r e g e n e r i c.O u r n e t w o r k m a i n l y c o n t a i n s t w o p a r t s,a m i x u p s u b n e t w o r k a n d a c o-s a l i e n c y d e t e c t i o n t r a n s f o r m e r.S p e c i f i c a l
16、l y,i n t h e m i x u p s u b-n e t w o r k,w e p r o p o s e a n o b j e c t r e f i n e m e n t m o d u l e:w e s e t i n p u t c l a s s a c t i v a t i o n m a p s(C AM s)a s g u i d a n c e t o s e g m e n t s a-l i e n t o b j e c t s w i t h s m o o t h e d g e s a s t h e a d v e r s a r i a
17、 l o b j e c t s i n a n u n s u p e r v i s e d w a y;a d i s t a n c e a d-j u s t i n g m o d u l e:t h e a d v e r s a r i a l o b j e c t s a r e m i x e d i n t o a n o t h e r g r o u p o f i m a g e s w i t h t h e m i n i m u m o v e r l a p,c o n s t r u c t i n g t h e m i x e d t r a i n
18、 i n g d a t a.I n t h e c o-s a l i e n c y d e t e c t i o n t r a n s f o r m e r,w e c o n-s t r u c t t h e m o d e l f r o m s e q u e n c e-t o-s e q u e n c e.I n t h i s p a r t,w e d e s i g n a t a s k i n j e c t o r,w h i c h c a n i n j e c t g r o u p i n f o r m a t i o n a n d s a l
19、 i e n c y i n f o r m a t i o n i n t o t h e f e a t u r e s e q u e n c e,a n d w e a d o p t s e l f-a t-t e n t i o n t o f u l l y c a p t u r e g l o b a l i n f o r m a t i o n b e t w e e n f e a t u r e s.F i n a l l y,w e m i x t h e g r o u p i n f o r m a-t i o n a n d s a l i e n c y i
20、 n f o r m a t i o n b y s e l f-a t t e n t i o n,f u r t h e r e n h a n c i n g t h e d i s c r i m i n a t i v e c a p a b i l i t y o f t h e f e a t u r e a n d g e n e r a t i n g t h e P r e c i s e r e s u l t s o f c o-s a l i e n c y d e t e c t i o n.E x t e n s i v e e x p e r i m e n t
21、 s a r e c a r r i e d o u t o n t h r e e b e n c h m a r k d a t a s e t s i n c l u d i n g C o s a l 2 0 1 5,C o C A,a n d C o S O D 3 k,d e m o n s t r a-t i n g s u p e r i o r i t y o f o u r m e t h o d t o s t a t e-o f-t h e-a r t m e t h o d s.K e y w o r d s m i x u p;t r a n s f o r m e
22、 r;c o-s a l i e n t o b j e c t d e t e c t i o n;b i g-d a t a1 引 言协同显著性检测(C o-s a l i e n c y D e t e c t i o n)旨在发现并分割出一组图片中语义类别相同的前景显著目标1.相较于只关注于分割单个目标的显著目标检测任务2,协同显著性检测更具挑战性,因为它需要在存在其他分散注意力物体的干扰下,区分出多幅图像中同时出现的显著物体.尽管如此,随着深度学习的发展,这项任务的研究已取得了长足进步,并被成功应用于一系列计算机视觉任务,如目标分割3、图像检索4、视频显著性检测5等领域.随着卷积神经
23、网络(C NN s,C o n v o l u t i o n N e u r a l N e t w o r k s)6研究的快速发展,涌现出大量相关工作并不断刷新最佳性能7-1 0.这类方法通过一系列创新性 设 计,如 组 信 息 融 合 机 制7、梯 度 引 导 机制9、图像匹配技术1 0等,来学习更加鲁棒的特征表达,以应对传统方法难以提取高级语义特征,导致模型不能有效处理复杂场景中协同显著目标的大尺度表观变化挑战.尽管取得了不错的效果,但是这类基于卷积神经网络的工作存在两方面局限:(1)现有主流方法都是基于经验风险最小化原则1 1,利用神经网络强大的数据拟合能力在训练过程中追求对训练数
24、据的平均误差最小化.这意味着神经网络可轻易过拟合训练数据,但在面对未知类别目标、相似显著目标、嘈杂背景环境等挑战时,泛化性较差,从而导致严重误检(如图1所示,实际场景中存在训练过程中类别未出现的目标,即未知类别目标(骰子组中,骰子为未知类别目标)、干扰显著目标(礼物盒组中,花朵、人物、圣诞树和人为干扰显著目标)、嘈杂背景(怀表组中怀表所处环境背景嘈杂)等挑战,基于卷积神经网络的方法难以有效处理这些挑战).文献1 4 亦指出:即使增加训练数据与模型参数,或者采用强正则化等措施,在经验风险最小化原则下,模型仍更倾向于记忆训练数据而非提升泛化性.这些都极大降低了模型的实际应用价值;(2)现有主流方法
25、通常利用卷积神经网络提取特征,其感受野位于局部滑动窗口之中,导致所提取的特征存在固有局限性,难以捕获关键的全局线索1 5.尽管最近提出了一些措施来弥补这方面缺93819 期吴 泱等:联合组间对抗数据混合与变换器学习的协同显著性检测点,比如采用全连接层1 6、全局池化层1 7、非局部模块1 8等策略融入全局信息.但是,这些操作只局限于某些层中,而整体的卷积神经网络架构不变,导致模型的判别力仍受限.图1 相比于先进方法D C FM1 2和C A D C1 3,本文方法在一系列挑战场景中的表现 为了突破第一类局限,文献1 4 提出了数据混合(M i x u p)增强策略,以提升网络的泛化性.该数据混
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联合 对抗 数据 混合 变换器 学习 协同 显著 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。