视频流数据片头定位技术研究.pdf
《视频流数据片头定位技术研究.pdf》由会员分享,可在线阅读,更多相关《视频流数据片头定位技术研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、计算机与图像技术Computer&Multimedia Technology电子技术与软件工程Electronic Technology&Software Engineering182目前,在对音视频流进行大数据分析时,首先要将内容上不相关的信号流进行定位并将其剔除。由于音频流和视频流两者在场景上关联但在数据流特征上是不关联的,本文首先将视频流的音频信号剥离并对音频信号流进行数据分析,将音频流特征值不相关的数据定位然后辅助图像指纹技术定位,由于音频流的特征结构复杂度远低于视频流,采用音频流搜索快速定位,结合图像特征二次匹配能精确定位能将内容上不相关的数据流精准快速的定位,其主要特点是算法复杂度
2、低,准确率比较高。1 音频信号处理绝大部分音频特征最初起源于语音识别中,它们可以精简原始的波形采样信号,从而更利于对其进行针对性的数据分析,算法也更容易理解音频中蕴含的语义信息。从 20 世纪 90 年代末开始,这些音频特征也被用在音乐信息检索的任务中,比如乐器识别,音符起始点的检测等,由此更多针对于音频特征值的提取也应用而生,语音识别技术中常用的音频特征参量主要有短时过零率、短时能量、短时自相关函数、短时平均幅度、频谱差分幅度、频谱质心和频谱宽度,梅尔频率倒谱系数等。1.1 音频特征分帧与加窗音频部分预处理的算法主要体现在音频特征值提取和相似度匹配两个方面。在提取音频特征前需要先对音频信号进
3、行分帧与加窗。一帧语音信号长度可以用多种方式表示,如果用时间表示,一帧信号通常取在 15ms 30ms 之间,经验值为 25ms。帧长为 25ms 的一帧信号指的是时长有 25 毫秒的语音信号。也可以用信号的采样点数来表示,如果一个信号的采样率为 16kHz,则一帧信号由 16kHz25ms=400 个采样点组成。分帧后每一帧的开始和结束都会出现间断,因此分割的帧越多与原始信号的误差就越大,加窗就是为了解决这个问题,使成帧后的信号变得连续,并且每一帧都会表现出周期函数的特性。常见的分窗函数有:矩形窗、汉明窗、汉宁窗等,在语音信号处理中,通常使用汉明窗首先要根据信号长度、帧移、帧长计算出该信号一
4、共可以分的帧数,帧数的计算公式如下:帧数=(信号长度-帧长)/帧移+1具体的分帧操作如图 1 所示1。加窗操作比较简单,仅需将分帧的每一帧信号一次与窗函数进行相乘即可,最后一帧处于句子最末尾部分,大部分为静音片段,可以直接将之抛弃。通过对语音信号能量加开窗函数的方法获得语音信号短时能量。第 n 时刻的音频信号短时能量 En 函数表达式如下,其中(n)为窗函数,m 是时间刻度。(1)矩形窗表函数可以表示为:(2)加上矩形窗以后的信号能量表示为:,N 为窗长,m 为时间刻度。(3)2.2 音频特征值提取视频流数据片头定位技术研究张冬梅(河北省广播电视监测中心 河北省石家庄市 050081)摘要:本
5、文采用音频定位为片头为主,图片定位为辅的方法。首先对视频流的音频信号采用短时能量法找到不相关音频起点与终点,然后利用感知哈希算法提取“图像指纹”,结合音频流搜索精准定位片头。采用这种方式定位片头算法复杂度低且定位准确率比较高。关键词:短时能量;图像指纹;哈希算法;相似度;汉明距离计算机与图像技术Computer&Multimedia Technology电子技术与软件工程Electronic Technology&Software Engineering183认识音频特征不同类别不在于对某一个特征精准分类而是加深理解特征的物理意义,一般对于音频特征我们可以从以下维度区分:(1)特征是由模型从信
6、号中直接提取还是基于模型的输出得到的统计,如均值、方差等;(2)特征表示的是瞬态还是全局上的值,瞬态一般以帧为单位而全局则覆盖更长的时间维度;(3)特征的抽象程度,底层特征抽象程度最低也是最易从原始音频信号中提取,它可以进一步被处理为高一级的中间特征代表乐谱中常见的音乐元素,如音高、音符的起始时间等;高层特征最为抽象大多用于音乐的曲风和情绪任务;(4)根据特征提取过程的差异可以分为:从原始信号中直接提取的特征(如过零率)、将信号转换为频率得到的特征(如谱心质)、需经过特定的模型得到的特征(如旋律)、受人耳听觉认知启发改变量化特征尺度得到的特征(如 MFCCs)。同时我们也发现部分特征并非完全属
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视频 数据 片头 定位 技术研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。