分享
分销 收藏 举报 申诉 / 10
播放页_导航下方通栏广告

类型Praat客服语音标注.doc

  • 上传人:天****
  • 文档编号:2764883
  • 上传时间:2024-06-05
  • 格式:DOC
  • 页数:10
  • 大小:11.66MB
  • 下载积分:8 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    Praat 客服 语音 标注
    资源描述:
    (word完整版)Praat客服语音标注 语音转写操作手册 (三层) 一、用脚本打开语音文件 1 点击praat—〉open—〉read from file—〉找到你打开的文件—〉打 开-〉选中同一个文件名的两个文件—〉View & Edit; 2 Ctrl+2可以同时两层打点,Alt+Backspace可以删除时间点; 做完以后Ctrl+S 保存到根文件下面; 请参看培训视频。 二、开始标注语音文件 • 时间边界定位: • 按Tab键可以播放语音,再次按Tab键/Esc键可以停止播放语音 • 按Ctrl+i可以放大波形;Ctrl+o可以缩小波形。建议放大1—2标注。 • 听音,在整段电话语音的基础上,根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界。 添加时间边界的方法为:将鼠标移动到语音波形的相应位置,这时会出现一条虚线以及圆圈,分别点击SPEAKER层和CONTENT层对应的圆圈即可。或者直接Ctrl+2可以自动同时在SPEAKER层和CONTENT层打上时间点。在整个语音文件中,SPEAKER层和CONTENT层的时间边界的数目是完全一致的,每一对时间边界也是完全相等的。 请注意,SPEAKER层和CONTENT层的时间边界必须保持一致.也就是说不管点击哪一层的时间边界,另外一层一定是空心蓝色,而不是实心蓝色 • 文件标注: • GLOBAL层主要标注语音文件的一些全局信息,包括说话人性别信息和语种信息(方言区).标注格式如下: [speaker]:[空格]1[空格]性别,[空格]2[空格]性别;[空格][language]:[空格]1[空格]方言区,[空格]2[空格]方言区 例如: [speaker]: 1 male, 2 female; [language]: 1 普通话, 2 普通话 [speaker]: 1 male, 2 male; [language]: 1 普通话, 2 普通话 [speaker]: 1 female, 2 female; [language]: 1 普通话, 2 普通话 [speaker]: 1 female, 2 male; [language]: 1 普通话, 2 普通话 • SPEAKER层需要标注的是说话人信息,“说话人"取值为以下两种:1、2,分别表示说话人1、说话人2。(说话人1、2仅标注在文字段上,符号段不标注) • 如果是客服类对话,则SPEAKER层的“说话人”取值为1的语音,必须是话务员;用户的语音取值为2 • 客服定义为奇数,用户为偶数;(客服一定是和用户有直接对话,否则不算客服)如果第三个人是用户的情况: [speaker]: 1 female, 2 female, 4 female; [language]: 1 普通话, 2 普通话, 4 普通话 • CONTENT层需要标注的是该句对应的文字,如果是汉语交谈,则只能用简体汉字。对于语音中的数字部分需根据发音情况转换为对应的汉字,例如“27”→“二十七";“我的电话是2381832”→“我的电话是二三八幺八三二(与发音相同)". • CONTENT层正常语音的标注 • 如果此语段为某一个人的汉语对话语音,请在SPEAKER和CONTENT标注时间边界,SPEAKER层标注1或者2,CONTENT层输入相应的文本。 • 如果此语段为两个人交叉语音,关于重叠(交叉)的语音,即对于某个人的一句话未完,另一个人的一句话已经开始的情况:请在SPEAKER层和CONTENT层标注时间边界,SPEAKER层不标注内容,CONTENT层标注“+” 对于叠加,必须是真实的。不能将大段的听不清语音和叠加混在一起。叠加段内的非叠加部分,前后最多不得超过1个字。至于由于添加叠加的时间边界导致的半个语音(即切掉头或者尾)可用[*]或[UNK]来表示。[*]和[UNK]取决于是单段的听不清,还是在语音中听不清。 • 在整个语音中,需根据说话人的变换来增加时间边界。 • 如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过8s,但断句也不要太散太短.每个自然语言段平均在5—6秒左右即可。 • 每个时间边界的最佳位置在音频能量的最低点(即波谱图上黑色部分最淡的地方),如果仅有几个字包含不进来,那么建议舍弃这几个字 • 英文:(英文小写) 【单词】对于语音中简单的英文单词,在能听懂的情况下,直接标出即可。特殊符号用发音标注,不写特殊符号。例如:“网址是三w点sina点com”; “二三八幺八三二艾特qq点com";(不要写@) “请以井号键结束”;(不要写#) 【字母】每个字母中间用空格隔开。例如:good表示单词读音,g o o d则表示字母读音。例如:我的编号是f m s幺三二 • 如果发音是表示应答的“嗯”,统一都用“嗯",不要用“恩”或者“厄”。其他的这种口头发音,也需要用带口字旁的汉字标注。比如哦,啊,唉等。 • CONTENT层短暂噪音的标注 短暂噪音是指非常短暂的突发的声音,所有此类标注都是中括号与语音内容的组合,不要标注时间边界。 1 听不清的一个字/英文单词直接在句子中标注[UNK]。 例如:二三八幺八[UNK]二 2 两个或者两个以上听不懂的字,标注[*] • 听不清的长句 • 方言 • 大段的英文句子 • 拿着话筒和其他人说话 3 短暂的笑声:直接在句子中标注[LAUGH]。 4 短暂的由说话人发出的干扰浊音:直接在句子中标注[SONANT] • 咳嗽声 • 打喷嚏 • 清嗓子 5 系统提示音,即系统播出的语音提示:[PROMPT]系统自动播放的语音内容,而非说话人的语音内容(第二层不用标说话人) 例如:[PROMPT]欢迎致电我公司现在由一号客服代表为您服务 • CONTENT层持续噪音的标注 持续噪音是指比较长的一段声音,所有此类标注都是单独的噪音类型,需要标注中括号和时间边界,SPEAKER层不标注内容 1 明显的静音段(大于500ms):[SIL] (如果空白段没有任何声音,可以空着,后期技术处理) 2 各种垃圾声音:[ENS] 1) 连续的拍桌子 2) 连续的敲击声 3) 持续的各种环境噪音(大于500ms) 3 连续的笑声:[LAUGH] 4 持续的音乐声:[MUSIC] • 唱歌声(有歌词和旋律) • 哼唱(没有歌词,但有旋律) • 口哨声 • 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音 乐和歌声 • 口哨声 • 包括持续时间较长的彩铃声 5 录音及电信系统引起的噪声:[SYSTEM] 包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等,都是通信系统主动发出的声音,而不是摘机、挂机或干扰带来的咔啦或呲呲杂音. 一般会用的噪音符号:+,[*],[ENS],[UNK],[SONANT],[LAUGH],[PROMPT],[SYSTEM] • 修改标注 • 去除端点:点中端点,alt_backspace • 移动端点:直接用鼠标拖动 • 修改文字:点中语音段,在编辑框中修改 • 保存 • Ctrl+S保存到你文件的根目录下面; 三 工具自查checktool 1 先进入 程序安装 文件夹,安装perl和python程序。注意perl安装使用默认路径 C:\Perl\bin\perl,python安装使用默认路径C:\Python27\python。 2 点击1_Textgrid_modify —> tmp—〉已完成语音放tmp里面—>退出来一步点击run 3 把1_Textgrid_modify中tmp的语音全部复制到—〉2_checktool的tmp中-〉run 看出错的地方,如:intervals [50],说明第50段语音有错,将对应文件的textcheck打开,查找到intervals [50],查看是什么错误,最后在里面做修改,保存即可(改一个错误保存一次),再重复上面的操作改下一个错误,直到最后没有报错为止。
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:Praat客服语音标注.doc
    链接地址:https://www.zixin.com.cn/doc/2764883.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork