特征挖掘与区域增强的弱监督时序动作定位.pdf
《特征挖掘与区域增强的弱监督时序动作定位.pdf》由会员分享,可在线阅读,更多相关《特征挖掘与区域增强的弱监督时序动作定位.pdf(6页珍藏版)》请在咨信网上搜索。
1、收稿日期:;修回日期:基金项目:国家自然科学基金资助项目()作者简介:王静(),女,山东临沂人,硕士研究生,主要研究方向为弱监督时序动作检测;王传旭(),男(通信作者),山东济宁人,教授,硕导,博士,主要研究方向为目标检测与识别、目标跟踪、人体异常行为识别、群体交互关系建模与行为识别等()特征挖掘与区域增强的弱监督时序动作定位王静,王传旭(青岛科技大学 信息科学技术学院,山东 青岛 )摘要:弱监督时序动作定位旨在定位视频中行为实例的起止边界及识别相应的行为。现有方法尽管取得了很大进展,但依然存在动作定位不完整及短动作的漏检问题。为此,提出了特征挖掘与区域增强()的定位方法。首先,通过基础分支计
2、算视频片段之间的相似分数,并以此分数聚合上下文信息,得到更具有区别性的段分类分数,实现动作的完整定位;然后,添加增强分支,对基础分支定位中持续时间较短的动作提案沿时间维度进行动态上采样,进而采用多头自注意机制对动作提案间的时间结构显式建模,促进具有时间依赖关系的动作定位且防止短动作的漏检;最后,在两个分支之间构建伪标签互监督,逐步改进在训练过程中生成动作提案的质量。该算法在 和 数据集上分别取得了 和 的检测性能,证明了所提算法的有效性。关键词:时序动作定位;逆变换;动态采样;伪标签互监督;多头自注意中图分类号:文献标志码:文章编号:():,(,):(),(),:;引言时序动作定位是视频理解中
3、一项重要且具有挑战性的任务,其在视频监控、事件检测、交通监管等领域得到了广泛应用。然而,该工作大多数都是以完全监督的方式处理,注释大量的动作时间边界即耗时又费力。相反,弱监督学习可以大大简化数据收集和标记成本,得到了研究者的广泛关注。弱监督时序动作定位的经典方法是将此任务公式化为一个多实例学习()问题,整个未剪辑视频被视为一个包含正、负实例的包,即动作实例和背景帧。随着时间的推移执行片段分类以生成类激活序列(),然后通过 聚合得到视频级预测,阈值化生成行为提议,如图 ()所示(其中:为分类监督;为类激活案例;箭头指示传播方向)。由于此框架只优化分类目标,所以本文认为将视频中片段作为独立实例的
4、方法,忽略了在特征建模及预测阶段对动作片段内和跨动作片段间潜在的时间结构进行建模,且分类器生成的 表示每个片段的特定类别动作概率,但它只覆盖对动作分类贡献最大且最具有辨别力的区域 ,导致从 中生成的动作提案和位置伪标签都是低质量的。其次是模型偏向于持续时间较长的动作片段,造成短动作的漏检及低质量预测,如图 ()所示。本文为了解决动作实例的漏检和完整性问题,提出了基于特征挖掘与区域增强的研究算法,称之为 。首先通过段内多头自我注意机制平滑的 方法生成动作提案,这些提案显示了未剪辑视频中的动作位置及持续时间的初步估计。进而采用逆变换理论对短动作提案进行动态上采样,然后通过自我注意显式建模提案间的交
5、互关系,从而促进具有时间依赖关系的动作定位且防止短动作的误报和漏检。最后,为了优化定位目标,进一步构建了基础分支和增强分支之间的伪标签互监督。将每个分支的定位结果作为另一个分支的定位目标,交替冻结一个分支来训练另一个分支,从而促使模型定位更加完整和精确,如图 ()所示。本文主要贡献总结如下:第 卷第 期 年 月计 算 机 应 用 研 究 )提出了段内、提案间的多头自我注意模块。即前者是计算视频片段与查询之间的相似度分数,进而利用这些分数聚合上下文信息,以此得到更具有区别性的段分类并抑制无关信息的干扰。后者则是显式建模动作提案之间的时间结构,促进动作定位且防止动作误报。)通过初定位的动作提案,采
6、用逆变换原理,对一定长度的动作进行动态上采样,从而避免短动作的漏检和低质量预测。)在公开数据集 和 上进行了大量实验。结果表明,所提方法比目前最先进的方法具有更好的性能。图 中的算法比较 相关工作 弱监督时序动作定位弱监督时序动作定位()仅使用视频级动作标签进行训练,有效地减轻了对昂贵动作边界注释的需求。受目标检测中类激活图的启发 ,早期方法通常是根据视频级的类别标签训练动作分类器,然后根据分类器的参数计算类激活序列,最后阈值化 得到动作提案。分类和定位在优化目标上存在根本性区别,即分类主要依赖于最具辨别力的动作片段,而定位需要挖掘完整的动作区域。通常是稀疏和不完整的,进而导致从 中生成的动作
7、提案和位置伪标签都是低质量的。为了解决这些问题,则并行训练多个分类器,用于检测不同的动作区域。不同于此,通过条件变分自动编码器分离上下文和动作,进一步提出了行为提议评估器,以进行有效的边界调整。上述方法仅是通过分类监督进行定位。最近一些研究引入了基于自我训练的框架,即在当前步骤的 上设置阈值,并生成伪标签作为下一次训练的位置监督,逐步细化伪标签实现优质定位。具体地说,利用类特定的 和与类无关的注意力作为伪标签,将 任务视为期望最大化问题进行优化。分别基于 和 数据预测伪标签,然后对这两个伪标签进行后期融合以减少误报。受其思想的启发,本文 框架通过段内自我注意聚合上下文信息,以此提炼动作特征并抑
8、制无关信息的干扰;提案间自我注意显式建模不同实例之间的结构关系来促进定位。其次,采用逆变换原理对时序短动作片段进行动态上采样,以此避免漏检和低置信度预测,最后通过伪标签互监督提高定位性能。伪标签指导交互训练在弱监督或有限监督的视觉任务中,使用伪标签来指导模型训练得到越来越多的关注。在弱监督的目标检测中,自我训练 ,是一个开创性的研究方向,它首先训练教师模型,然后选择每个未标记样本中的最大预测概率作为动作定位的伪标签来训练最终的检测器。同样,在半监督学习 和域自适应 算法中,预训练的网络以监督的方式在标记的源数据集上进行训练,然后用于未标记的目标数据集生成伪标签,进而指导训练过程。与上述工作相似
9、,本文 就是利用伪段级标签(即动作提案)来指导在 任务中的训练过程。将每个分支的定位结果作为另一个分支的定位目标,交替冻结一个分支来训练另一个分支,多次迭代、进而实现动作的不漏检且准确识别与定位。注意力机制注意力机制可以理解为计算机视觉系统在模拟人类视觉系统,迅速高效地关注重点区域,并处理这些区域的特性。近年来,基于注意力的方法被广泛应用于动作定位的研究,等人 提出了具有混合注意力机制的 框架,包括时间软、半软和硬注意力。其时间软注意力模块由分类分数引导来模拟背景活动且找到动作的高辨别区域,半软和硬注意力模块对视频片段中动作的高辨别度区域进行擦除并计算两个注意力分数,进而挖掘动作辨别度低的帧,
10、通过联合学习来捕获完整的动作实例。不同于此,等人 改进条件变分自动编码器()注意力生成模型,加入动作前后帧信息以获取帧级注意力值,从而增强帧前后的关联性,避免帧信息丢失问题。自注意机制与其不同之处在于,它是输入序列内部元素之间或者输出序列内部元素之间发生的注意力机制。等人 使用自我注意来捕捉用户不同行为的影响,对用户行为进行建模,并将其应用于推荐任务。受其思想的启发,本文提出了段内、提案间的多头自我注意模块,即前者是建模查询片段的上下文信息来提炼片段特征,以此得到更具有区别性的段分类分数。后者则是通过模拟动作提案之间的关系,促进具有时间依赖关系的动作定位。总体框架如图 所示,其中:蓝色区域表示
11、对未剪辑视频提取特征得到片段级特征表示;绿色区域指示基础分支,通过段内自我注意平滑 方法生成动作的初始定位。橙色区域则是增强分支,对基础分支中的短动作动态上采样,提案间自我注意建模时间结构来促进定位,避免短动作的漏检。图 总体框架 方法 问题表述假设给定 个未剪辑的视频 ,其对应的视频类别标签 ,其中 是一个 维的二进制向量(是动作类别的总数)。其中,如果第 个视频包含第 个动作类别,则 ,否则 。每个视频可能包含多个动作实例,本文的目标是根据四元组(,)来预测动作的时间位置,、分别代表动作提案的开始时间、结束时间、动作类别及定位分数。给定视频,首先对 个连续的片段进行采样并应用特征提取器 提
12、取 和 特征。之后,和 特征沿通道维度连接起来形成片段级特征表示?,为特征维数。计 算 机 应 用 研 究 第 卷 基础分支每个行动提案上应用段内自我注意如图 所示。其中:?和分别表示元素级加法和乘法;和 为片段数和特征维度。图 在每个行动提案上应用段内自我注意 首先计算将查询特征?与键?之间的相似分数,然后利用这些分数聚合上下文信息来细化片段特征。由于未裁剪的视频通常由不相关的背景片段主导,这会给动作片段建模过程带来额外的噪声。为此本文添加多头段内自我注意力模块,将提取的片段级特征 作为输入,计算视频片段与查询之间的相似分数,如式()所示,然后利用这些分数聚合上下文信息来提炼片段特征,以此得
13、到更具有区别性的段分类分数。,(),(,槡)(,槡)()()()其中:、以及?分别是用于生成查询、键、值和输出的线性投影矩阵;表示与查询相关的片段数量;是保存原始信息的单位矩阵;与 保持相同的维度。通过这种方式,获得了更具有区别性的片段特征且避免了无关信息的干扰。紧接着,将提炼后片段特征输入到主干网络 ()以预测类别概率和 。骨干网络由多层感知机实现,其可实现形式如下:,(,)()其中:?表示 ,即每个视频片段属于所有类别的概率分布;?预测的视频类别概率;是骨干网的可训练参数。本文对 聚合、阈值化处理生成初始动作提案 (,)。、和 分别代表第 个行为提案的开始时间、结束时间以及预测的类别概率。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 挖掘 区域 增强 监督 时序 动作 定位
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。