二音频处理PPT课件.ppt
《二音频处理PPT课件.ppt》由会员分享,可在线阅读,更多相关《二音频处理PPT课件.ppt(88页珍藏版)》请在咨信网上搜索。
1、第2 2章 音频处理人耳能识别的声音频率范围大约在2020k 2020k HzHz,通常称为音频(audioaudio)信号。人的发音器官发出的声音范围大约在803400Hz803400Hz,但人说话的信号频率通常为3003000Hz3003000Hz,称为语音(speechspeech)信号。低于20Hz20Hz的信号称为次声波(subsonicsubsonic),高于20k Hz20k Hz称为超声波(ultrasonicultrasonic)。次声波和超声波人耳都无法听到。1.2.3.声音的频率范围4.计算机音频处理涉及的内容包括:1)1)音频传播媒体特征,也即声波的物理特性。2)2)音
2、频的记录和产生方式,包括模/数、数/模转换;数据压缩和声音合成。3)3)音频数据的编辑处理。对音频信号的处理方法大致可分为三类:波形编译码器,音源编译码器,混合编译码器。5.第1 1节 音频信号一.声音的特征振幅周期基线基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率反映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。6.正弦波有两个重要参数:频率0 0、幅度A An n 。声音的三个要素是音调、音量和音色。声音有以下一些特点:1.1.音调:声音的高低。音调正是由频率所决定的。频率越高音调越高(频率单位HzHz)2.2.音量:人主观上感觉声音的大小,以分贝(dBd
3、B)为单位。7.3.3.音色:音色是声音的特色,根据不同的音色,即使在同一音调和同一声量的情况下,也能区分出是不同乐器或人声发出的。8.二、音频数字化 模拟信号:时间上连续,幅值上也连续的信号。数字信号:时间上和幅值上都用离散的数字表示的信号。A/DA/D变换:把连续变化的模拟信号转换成数字信号。A/DA/D变换一般要由两步完成:采样和量化。9.(1)(1)采样 采样是将时间上、幅值上都连续的模拟信号,在采样脉冲的作用,转换成时间上离散、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。奈奎斯特理论:只有当采样频率高于声音信号最高频率的两倍时,才能把离散模拟信号表示的声音信号唯一地
4、还原成原来的声音。目前在多媒体系统中捕获声音的标准采样频率定为44.1kHz44.1kHz、22.05kHz22.05kHz和11.025kHz11.025kHz三种。10.(2)(2)量化 所谓量化就是把采集到的数值送到量化器(A/DA/D转换器)编码成数字,每个数字代表一次采样所获得的声音信号的瞬间值。目前常用量化数据位来表示量化级,例如数据位为8 8位,则表示2 28 8个量化级,最高量化级有2 21616个(=65536=65536个)等级。量化噪声:量化过程存在量化误差,反映到接收端,这种误差作为噪声再生。11.(c)采样信号的量化(a)模拟音频信号(b)音频信号的采样数字化音频的过
5、程:采样和量化12.采样时的声道数有单声道和双声道两种。AVAV文件的数据量的计算公式:数据量 =采样频率(HzHz)采样精度(位)声道数 8 8(dBdB)计算:用44.1kHz44.1kHz采样频率采样,每个样本使用1616位采样精度存储,则录制一分钟的立体声节目,音频WAVWAV文件的存储量?使用22.05kHz22.05kHz的采样频率和8 8位采样精度,录制一分钟调幅音频的WAVWAV文件存储量?13.三.数字音频技术指标 1 1采样频率:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原
6、始信号。2 2量化位数:量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。14.3 3声道数:有单声道、双声道、多声道之分。15.三、常见声音文件的格式 常见的声音文件为:WAVWAV文件、VOCVOC文件、AUAU文件和MIDMID文件。(1)WAV(1)WAV声音文件格式:WAVWAV文件是从模拟声波采样后得到的一种波形文件,使用于WindowsWindows操作系统,其格式是由文件首部与文件数据块组成。(2)VOC(2)VOC声音文件格式:VOCVOC文件是用于DOSDOS操作系统下的一种波形文件。(3)AU(3)AU声音文件格式:用于UNIXUNIX操作系
7、统下的一种波形文件。(4)MID(4)MID文件格式:MIDMID文件是一种记录数字化音乐的MIDIMIDI文件。16.四.音频信号的指标 1.1.频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。17.2 2动态范围:动态范围越大,信号强度的相对变化范围越大,音响效果越好 。3 3信噪比:信噪比SNRSNR(Signal to Noise Signal to Noise RatioRatio)是有用信号与噪声之比的简称。4 4主观度量法:人的感觉机理对声音的度量最有决定意义。声音的质量分为了五个等级,由低到高分别是:电话(telephone)(telephone)、调幅广播
8、(AM)(AM)、调频广播(FM)(FM)、光盘(CD)(CD)、数字录音带(DAT)(DAT)18.第2节音频数字压缩一音频压缩编码技术 主要有以下几种主要类型:1 1熵编码 :如HuffmanHuffman编码、算术编码以及行程编码等。19.2 2波形编码 :波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。(脉冲编码调制(PCM),实际为直接对声音信号作AD转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(
9、ADPCM),是DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。)20.3.3.参数编码 :参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。此类方法构成声码器的有线性预测(LPC)(LPC)声码器、通道声码器、共振峰声码器等。4 4混合编码 :音频中采用的混合编码包括多脉冲线性预测MP-LPCMP-LPC,矢量和激励线性预测VSELPVSELP,码本激励线性预测CELPCELP,短延时码本激励线性预测编码LD-CELPLD-CELP,以及规则码激励长时预测RPERPELT
10、PLTP等。21.5 5感知编码:不是利用波形本身的相关性和模拟人的发音器官的特征,而是利用人的听觉系统的特征来达到压缩声音数据的目的。书上将这五种编译码器分为了三类:1)1)波形编译码器2)2)音源编译码器3)3)混合编译码器音频数字压缩编码算法及其特性(见wordword文档)22.二.音频编码技术标准 (一)电话质量的音频压缩编码技术标准 19721972年CCITTCCITT(现称为ITU-TITU-T)制定了PCMPCM标准G.711G.711,速率为64kbit/s64kbit/s,采用非线性量化律或A A律,其质量相当于12bit12bit线性量化。19841984年CCITTC
11、CITT公布了自适应差分脉冲编码调制ADPCMADPCM标准G.721G.721,速率为32kbit/s32kbit/s。19921992年CCITTCCITT制定了短时延码本激励线性预测编码LD-CELPLD-CELP的标准G.728G.728,速率16kbit/s16kbit/s,其质量与32kbit/s32kbit/s的G.721G.721标准基本相当。23.其它语音相关标准:G.723:G.723:一种ITU-T ITU-T 推荐标准 用于传输速率在5.36.4 kbps5.36.4 kbps之间多媒体通信传输的双速率语音编码器。H.222H.222:ITU-T ITU-T 推荐标准,
12、规定了运动图片及相关音频信息的通用编码。H.242H.242:ITU-TITU-T的H.320 H.320 协议族中视频互操作推荐标准部分。它规定了建立一个音频会话和在通信终止后结束该会话的协议。H.324H.324:一个ITU-T ITU-T 标准。它在模拟电话线(POTSPOTS)上提供了点对点的数据、视频和音频会议。T.120T.120:ITU-TITU-T的“多媒体数据传输协议”,一种数据共享/数据会议规范,使用户能通过任何H.32x H.32x 可视会议共享文件。24.(二)调幅广播质量的音频压缩编码技术标准 CCITTCCITT在19881988年制定了 G.722G.722标准。
13、G.722G.722标准是采用16kHz16kHz采样,14blt14blt量化,信号数据速率为224kbit224kbits s,采用子带编码方法 。利用G.722G.722标准可以在窄带综合服务数据网N-ISDNN-ISDN中的一个B B信道上传送调幅广播质量的音频信号。25.(三)高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是50Hz20kHz50Hz20kHz,采用44441kHz1kHz采样频率,16bit16bit量化进行数字化转换,其数据速率每声道达705kbit705kbits s。MPEGMPEG小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国
14、际标准,用于活动图象、相关声音信息及其结合,和用数字存储媒体(DSMDSM)存储与重现。26.MPEGMPEG声音:MPEGMPEG声音使用感知声音编码听觉系统的感知特性:响度:听阈、痛阈音高:掩蔽效应:(频域掩蔽、时域掩蔽)MPEGMPEG音频与感知特性MPEGMPEG音频数据压缩主要依靠使用“心理学模型”(概念)MPEGMPEG音频采纳两种感知编码:感知子带编码和AC-3AC-3编码27.MPEG-1MPEG-1于19921992年1111月完成,成为国际上公认的高保真立体声音频压缩标准,音频压缩技术的数据速率为每声道32448kbit32448kbits s,适合于CDCDDADA光盘应
15、用。MPEG-2MPEG-2由两部分组成,MPEG-2MPEG-2音频和MPEG-MPEG-2 AAC 2 AAC。MPEG-4 AudioMPEG-4 Audio标准可集成从话音到高质量的多通道声音,从自然声音到合成声音。MPEG-7 AudioMPEG-7 Audio标准(ISO/IEC 15938-3ISO/IEC 15938-3)提供了音频描述工具。28.第3节 MPEG-1音频一MPEG-1MPEG-1音频标准 MPEG-1MPEG-1音频编码标准包括三部分,分别对应第1 1,2 2和3 3层(Layer 1,2,3Layer 1,2,3)。层1 1编码器的输出数据率为384 kbp
16、s384 kbps,主要用于小型数字合式磁带DCCDCC。层2 2编码器的输出数据率为256 kbps256 kbps192 192 kbpskbps,其应用包括数字广播声音DBADBA、数字音乐、CD-ICD-I和VCDVCD等。层3 3编码器的输出数据率为64 kbps64 kbps,主要应用于ISDNISDN上的声音传输。29.二、子带编码MPEG-1 AudioMPEG-1 Audio的编码对象是202020000Hz20000Hz的带宽声音,采用了感知子带编码。具体思想:首先将时域中声音数据变换到频域,对频域内的子带分量分别进行量化和编码,根据心理学模型确定样本的精度,从而达到压缩数
17、据量的目的。理论依据是听觉系统的掩蔽特性,并且主要利用频域掩蔽特性。30.三声音编码系统基本结构MPEG/AUDIO编解码器基本框架31.四滤波器组 用于高质量声音信号编码的最常见的滤波器组简要概述:QMF-Tree QMF-Tree 滤波器组 多相滤波器组 加正弦锥型窗的DFTDFT、DCT DCT 修正离散余弦变换MDCT MDCT 混合结构32.多相滤波器组把输入信号变换到3232个频域子带中去。子带的划分方法有两种,一种是线性划分,另一种是非线性划分。对音频带的划分采用非线性划分33.五通用编码概念 在所有三层中声音信号都要从时域变换到频域。此变换由多相滤波器组完成。对于第1 1层和第
18、2 2层,滤波器组生成代表输入声音码流的3232个子带变换值,然后由心理声学模型推算出自适应比特分配信息,来控制它们的量化和编码。第1 1层是 MUSICAMMUSICAM编码方案的简化版本,特别适合那些不要求很低码率的应用。第1 1层的子带是频带相等的子带,心理学模型仅使用频域掩蔽特性。34.第2 2层在比例因子、去除冗余和不相关方面采用了进一步的压缩算法,并使用了更精确的量化。在声音广播、电视、录音、通信和多媒体等民用和音频专业领域都有许多应用。第2 2层的心理学模型使用频域掩蔽特性和时域掩蔽特性,并且在低中高频段对位分配作了一些限制,对位分配、比例因子和量化样本值的编码也更紧凑。35.在
19、第3 3层中,采用了非均匀量化、自适应分段、量化值熵编码,以提高编码效率。这一层广泛适用于通信领域,尤其是窄带的ISDNISDN和要求很低码率的专业领域。第3 3层的心理学模型使用频域掩蔽特性和时域掩蔽特性,还考虑了立体声数据的冗余,并且使用了霍夫曼编码器。36.第4 4节 MPEG-2MPEG-2音频 MPEG-2MPEG-2标准委员会定义了两种声音数据压缩格式。一种称为MPEG-2AudioMPEG-2Audio,又称为MPEG-2 MPEG-2 BCBC(Backward CompatibleBackward Compatible,后向兼容)。另一种称为MPEG-2 AACMPEG-2
20、AAC(先进的音频编码),通常称为非后向兼容标准。37.一.MPEG-2.MPEG-2音频特点 和MPEG-1MPEG-1音频相比,MPEG-2MPEG-2音频主要增加了三个方面的内容:(1)(1)增加了声道数,支持5.15.1声道和7.17.1声道的环绕声。5.15.1声道立体环绕声7.17.1声道立体环绕声38.(2)(2)扩展了编码器的输出速率范围。(3)(3)增加了低取样和低码率。MPEG-2MPEG-2多声道声音编码标准和现有的MPEG-MPEG-1 1音频标准保持后向兼容。在对原有的MPEG-1MPEG-1两声道增加独立的环绕声道时,MPEG-2MPEG-2尽量保持和MPEG-1M
21、PEG-1音频语法的兼容性,MPEG-2MPEG-2中的主声道(左、右)仍然保持后向兼容,而环绕声道采用新的编码方法和语法。39.二.MPEG-2 AAC.MPEG-2 AAC 特性:(1)MPEG-2 AAC(1)MPEG-2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。(2)AAC(2)AAC支持的采用频率可从8 kHz8 kHz到96 96 kHzkHz,AACAAC编码器的音源可以是单声道的、立体声的和多声道的声音。40.(3 3)AACAAC标准可支持4848个主声道、1616个低频音效加强通道、1616个配音声道和
22、1616个数据流。(4 4)MPEG-2 AACMPEG-2 AAC在压缩比为11:111:1,5 5声道的总数据率为320 kbps320 kbps的情况下,很难区分还原后的声音与原始声音之间的差别。与MPEGMPEG的层2 2相比,MPEG-2 AACMPEG-2 AAC的压缩率可提高1 1倍,而且质量更高,与MPEGMPEG的层3 3相比,在质量相同的条件下数据率是它的7070。41.MPEG-2 AACMPEG-2 AAC编码和解码的基本结构 开发MPEG-2 AACMPEG-2 AAC标准采用的方法是模块化的方法:把整个AACAAC系统分解成一系列模块,用标准化的AACAAC工具对模
23、块进行定义,因此在文献中往往把“模块(modular)(modular)”与“工具(tool)(tool)”等同对待。42.编码器框图 43.MPEG-2 AACMPEG-2 AAC的三种配置(ProfilesProfiles)(a)(a)基本配制(Main Profile)(Main Profile)(b)(b)低复杂性配制(Low Complexity(Low Complexity Profile)Profile)(c)(c)可变采样率配制 (Scalable Sampling(Scalable Sampling Rate Profile)Rate Profile)44.三AC-3AC-3
24、编码 AC-3AC-3(Audio Code Number 3Audio Code Number 3)是DolbyDolby公司的数字声音数据压缩算法,MPEG-2MPEG-2音频支持它。AC-3AC-3的主要特点是利用人的听觉系统特性来压缩声音数据,并支持5 5个声道,声音样本的精度为2020比特,每个声道的采样率可以是32 kHz,44.1 kHz32 kHz,44.1 kHz或者48 kHz48 kHz。在立体声模式中,ACAC3 3编码器可以采用重复阵列方法。这种方法可以在采用阵列环绕技术时,降低量化错误产生的噪声。45.第5节 MPEG-4音频MPEG-4MPEG-4音频标准分为自然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 处理 PPT 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。