AIGC技术赋能数字音频内容生产:应用场景、存在问题与应对策略.pdf
《AIGC技术赋能数字音频内容生产:应用场景、存在问题与应对策略.pdf》由会员分享,可在线阅读,更多相关《AIGC技术赋能数字音频内容生产:应用场景、存在问题与应对策略.pdf(8页珍藏版)》请在咨信网上搜索。
1、专题:AIGC 技术赋能下的出版业与人才培养13AIGC 技术赋能数字音频内容生产:应用场景、存在问题与应对策略1*李雅筝1,2,刘宇星11.安徽大学新闻传播学院,230601,合肥;2.安徽新华发行(集团)控股有限公司博士后科研工作站,230061,合肥摘要:在人工智能技术应用快速发展的今天,AIGC技术正在加速推动着数字音频内容生产模式的变革。在赋能产业实践提质增效的同时,智能语音技术也引发了一些问题与风险。基于案例分析发现,AIGC技术在有声读物等音频内容生产、数字音乐创作、新闻广播智能播报和多元需求的配音等多个应用场景具有较好的赋能潜力。基于实际应用中尚存的AI合成语音精度、用户声音权
2、和作品版权侵权、虚假信息及用户隐私数据泄露等问题的剖析,提出:应提升语音数据库的质量管理,注重隐私保护措施,确保用户数据的安全性和隐私性;通过添加音频数字水印,保护音频作品版权;尽快制定音频法律规范和行业准则,强化著作权授权许可,规范市场传播行为。关键词:AIGC;AI语音技术;数字音频内容;有声读物;应用场景;内容生产D O l:10.3969/j.issn.2097-1869.2023.03.0 03文献标识码:A本文著录格式:李雅筝,刘宇星.AIGC技术赋能数字音频内容生产:应用场景、存在问题与应对策略J.数字出版研究,2023,2(3):13-20.*基金项目:安徽省高等学校科学研究重
3、大项目“基于AIGC的新媒体内容生产:技术路径、实践策略与应用示范”。人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术是一种基于人工智能自动生成文本、图像、音频、视频等多模态内容的技术,被认为是驱动数字内容创新的新引擎。在数字音频内容生产领域,ChatGPT、Claude、讯飞星火等大语言模型(Large Language Model,LLM)具备强大的语言理解和生成能力,可以高效辅助有声读物、广播剧本等初稿内容文本的生成与优化。而基于从文本到语音(Text To Speech,TTS)技术,可以快速将文本内容转化为配音员风格
4、的有声读物或歌手风格的人声歌曲,从而显著提高数字音频内容生产效率,实现降本增效的目的。在AIGC技术应用不断迭代发展的背景下,本文主要探讨AIGC技术在数字音频内容生产中的几个潜在应用场景及需要关注的相关问题,以期通过全面理解人工智能介入下的数字音频内容生成实践,为相关研究和应用提供参考。1AIGC技术赋能数字音频内容生产的应用场景随着AIGC技术的发展,尤其是智能语音技术的广泛应用,传统的人工配音、真人朗读场景正在发生深刻变革。AIGC技术有望成为有声读物、有声剧、数字音乐、新闻广播智能播报等多元数字音频内容生产转型和升级的重要动力。1.1赋能有声读物、有声剧等多元化音频内容生产目前,TTS
5、技术可以根据不同的文本风格和应用场景,将文本内容转换为配音员风格的有声读物,该技术已逐步被应用到广告配音、社交媒体内容朗读、有声读物和有声剧等生产过程中。14数字出版研究2023 年第 3 期 在数字阅读融合出版领域,书旗小说、晋江小说阅读、七猫小说和掌阅等小说在线阅读平台中的语音朗读功能可以朗读整本书或指定章节。以番茄免费小说阅读平台为例,该平台的语音朗读功能不仅能根据不同题材的小说匹配相对应的音色,还可以在朗读过程中匹配合适的背景音乐以增强阅读的氛围感,同时提供多档语速调节功能和多角色对话功能1。这种基于TTS技术的数字出版融合应用,不仅优化了用户的阅读体验感,还可赋能在线阅读的多元化、多
6、场景发展。在新媒体内容有声化领域,一些网站文章、博客内容或公众号的长篇推送也可以通过语音合成直接转换为音频文件,供用户浏览时听取或下载以便离线听读。对于较长内容,还可以适当分割生成对应的音频文件,供用户逐段播放,帮助读者更好地理解和吸收内容。这种便捷且人性化的文字转语音功能打破了传统阅读的时间和空间限制,简化了用户学习和获取信息的方式,是数字音频内容生产领域的重要发展方向之一。在专业的有声读物内容生产领域,除利用TTS技术替代真人朗读制作有声读物、有声剧外,喜马拉雅平台已尝试进行头部主播的训练或者AI分身的运营。在此应用场景下,可以利用人工智能技术克隆还原任何人的声音,并基于训练好的声库模型进
7、行有声读物或有声剧的多元化智能创作。例如,喜马拉雅的“单田芳原音重现”项目使用人工智能技术模拟评书大师单田芳独特的嗓音。基于AIGC的能力,可生成单田芳未读完的作品或新的作品,如以单田芳嗓音朗读 明朝那些事儿。这种个性化的声音模拟和再应用的人工智能技术,可以提高有声内容主播的创作效率,赋予更多UGC创作者进行有声内容创作的能力,从而提高有声读物的内容生产力,为有声阅读市场提供更加丰富的多元和个性化内容。1.2赋能数字音乐的创作场景在数字音乐创作领域,人工智能技术已经渗透到音乐行业的各个方面。作为算法和艺术的交叉产物,人工智能音乐已为公众所熟知。从1957年计算机生成的 伊利亚克组曲 到2020
8、年网易发布的全流程人工智能歌曲醒来,人工智能介入音乐已成为必然发展趋势,智能语音技术在音乐创作中将占据越来越重要的地位。一方面,智能语音技术可用于音乐歌曲的快速生产,通过算法对海量音乐数据进行解构、分析和学习,形成相对确定的审美风格的AI音乐模型。然后根据用户要求在选定风格基础上生成内容:输入歌词或旋律,智能语音技术可以自动合成相应的人声或和弦。对专业音乐人来说,使用人工智能技术制作音乐demo比使用真人录制更快捷方便。AI声音克隆技术还可以收集歌手干声素材进行声线克隆,模仿歌手演唱风格。近期,网络上爆火的“AI孙燕姿”就是用AI技术完美复刻了孙燕姿的声音,并因在各大网络平台上翻唱一系列新老歌
9、星的成名曲而“出圈”登上热搜。QQ音乐数据显示,歌手孙燕姿自出道以来共发布435首作品,而在B站上“AI孙燕姿”翻唱的作品就超过了1 000首,可以看出AI技术惊人的工作效率。另一方面,这项技术也可以帮助已故音乐人重新发声:在邓丽君逝世27周年之际,酷狗音乐用人工智能技术延续她的真人之声,为“邓丽君”量身打造新曲 没有寄出的信,以她的声线和演唱风格重新创作歌曲,表达敬意和满足歌迷心愿。总之,智能语音技术赋能音乐领域,既降低音乐歌曲制作门槛,又能提高音乐歌曲准入门槛。作为创作工具和拓展工具,智能语音技术为音乐创作提供更加丰富多元的可能性。1.3赋能新闻广播智能播报场景语音合成技术不断优化的模型使
10、合成语音的表现力和个性化程度持续提高,为新闻广播电台等场景带来更真实自然的人声体验。在新闻和广播电台中,将新闻稿或热点资讯输入系统,智能语音技术可以自动为稿件合成配音并生成播报音频,直接用于电台新闻广播或数字音频广播电台制作。这不仅降低了人工播报成本,还实现了全天播报。例如,腾讯新闻通过语音合成技术生成每日新闻播报音频,同步在腾讯新闻App、微信公众号和各大音频分享平台,用户随时可以收听和获取新闻,实现新专题:AIGC 技术赋能下的出版业与人才培养15闻有声阅读。此外,智能语音技术还可以实现电台节目的语音填充。采用语音合成技术和人工录制相结合的方式,生成对话或解说来制作电台DJ采访和精选内容等
11、栏目。这既能满足一定的节目时长和效果要求,又降低了节目制作难度和成本。当下语音合成技术输出的语音内容除清晰流畅外,在语速、发音、停顿方面也无限接近真人语调和讲话节奏,输出的语音内容与人工播音的差距越来越小,因此被广泛运用在天气、路况、叙事等的新闻电台媒体播报中。而运用语音克隆技术还能将主持人的声音复刻出来,以进一步提升受众的可接受程度2。一些新闻媒体也在训练完全的人工智能虚拟动漫或仿真主持人形象。通过利用语音合成技术录制大量训练语音素材,实现主持人新闻播报和电台节目的全自动模拟,为听众带来全新的体验。例如,北京卫视的数字人主播“时间小妮”便是依据主持人春妮的发音特点和形象表情进行语言处理和影像
12、采集,通过情绪仿真引擎赋予其更加拟真的语音语调和情感表达,实现了97%的真人相似度。在2022年安徽春节联欢晚会上首次亮相的“二次元”甜妹小安是安徽广播电视台的一个虚拟AI主持人,其阳光的形象和乐天的性格为整台晚会注入了更多的科技元素和年轻气息,体现了AI系统生成虚拟主持人形象的巨大潜力。尽管虚拟主持人或AI主播在很多语音应用中还处于起步阶段,但这无疑是数字音频内容生产转型的一种重要方式。可以说,智能语音技术在一定程度上实现了新闻的多模态呈现和广播媒体播报的智能化,提升了新闻和广播电台媒体节目的制作效率。1.4赋能多元需求的后期配音场景智能语音技术在许多其他领域也具有广泛的应用潜力。随着智能语
13、音生成模式的简便化,作为互联网和资本市场内容传播的主流,短视频的制作门槛大大降低。声音是视频内容的附属品,人工智能配音自然就成为短视频内容创作的首选。使用AI配音为视频内容添加人物语音或画外音,能够为有声视频增添真实性和吸引力,在一定程度上赋能了UGC视频内容创作。例如,抖音中的“一键成片”和“人工智能创作”等功能简化了创作步骤,提高了用户创作效率,进一步促进了短视频用户资源的爆发3。一些影视作品和动画片也广泛使用人工智能配音进行内容创作。例如,纪录片 创新中国采用AI模拟人声对解说词进行改编,实现对重要画面信息的解释和补充。日本动画 魔法禁书目录的中文配音版本中,部分角色的台词配音全部由AI
14、完成。许多动画在制作过程中也通过AI技术生成群众的嘈杂声和画外音,以增添动画氛围感和代入感。在音频内容后期制作中,智能语音技术还可以自动识别不同内容用于剪辑和处理,包括添加背景内容、去噪和增强音频信号等。应用语音改编和定制技术可以对预先录制或生成的语音进行编辑和修饰,如阿里云的语音加速和变声技术通过改变语速、音高、音色或拼接不同语音片段生成新语音,减轻音频后期制作难度且提高输出质量。在一些游戏领域的后期配音中,与真人配音相比,智能语音技术可以实现真人和角色声音的分离,同时避免真人配音者由于个人原因影响整个项目推进。例如,米哈游旗下手游 未定事件簿 中,真人配音者由于个人原因无法完成后续语音收录
15、工作,公司使用逆熵人工智能技术为游戏角色“莫弈”生成人工智能配音,在一定程度上提高了项目的商业稳定性。总体而言,智能语音技术与各个领域的融合程度日益加深,使数字音频内容的生产和传播变得更加频繁,并不断向内容服务靠拢,为数字音频内容生产注入了源源不断的活力。2AIGC技术在数字音频内容生产中存在的问题尽管AIGC技术给数字音频内容生产带来诸多便利,但其应用中也存在不可忽视的问题。AI合成语音技术虽然水平不断提高,但输出语音的精度和情感表达仍有待改进;其给用户声音权和数字音频作品版权带来的威胁也值得关注;AI人声克隆技术可能造成虚假信息的泛滥;用户隐私也面临泄漏的风险。如何在16数字出版研究202
16、3 年第 3 期 发挥AIGC技术优势的同时,加强对信息安全、用户隐私和作品版权的保护,不仅是相关企业面临的挑战,也是需要社会共同关注和解决的问题。2.1AI合成语音的精度不高音频AIGC主要基于TTS技术,但在实际生产应用中,将文本直接转化为语音的过程往往会存在一些难以控制的问题。首先,输出的语音目前仍存在识别不准确和拼读断句错误等问题。就智能语音技术前端的文本处理而言,统一规范化处理文本格式和兼容文本编码标准是语音合成技术前端处理的一大难点。要输出准确连贯的语音,输入的文本应进行韵律的分词分段和语义分析。由于切分长度适中的句子并标注读音需要人工完成,因此这项工作难以避免标点错误或错别字等现
17、象。同时,要准确朗读文本中的日期、符号或缩略词等,语音合成系统的文本纠错和分析能力面临一定挑战。目前,在线阅读平台广泛采用语音合成技术进行语音朗读,但AI系统模型生成能力的差异导致合成语音质量参差不齐,最常见的问题是多音字错误、词句停顿不自然、语气词发音不准确、吞音漏音等。一些专业术语、人名和地名等较为生僻的词汇在输出过程中也很容易出现听读错误和不准确的问题。这些错误不仅降低了音频用户的听觉体验,导致其误解原内容,影响其对原文的理解,甚至还会误导儿童或老年人,传递错误知识,极大降低数字音频内容的输出质量和准确性4。其次,智能语音技术对上下文语境的理解和情感表达能力还有待提高。现实生活中面对不同
18、应用环境和语言,需要匹配不同口音、语速和音调等,所以多个语种、复杂音色和情感风格的还原对语音合成技术来说仍需改进。从合成语音的语调来看,目前的AI技术尚无法准确识别不同语气和情感状态,无法根据需要调整语调和音量。在合成表达强烈情感的语音时,输出的语音存在失真和僵硬等问题,难以将文字内容的情感充分演绎和表达,无法给用户提供很好的情感体验。因此,人工智能合成语音的精度和情感表现力仍需要提高,才能使合成的数字音频内容更加准确、生动和富有表现力。2.2用户声音权和作品版权侵权问题不易监管TTS技术具有大众化和自动化的特征,降低了数字音频内容的制作难度,甚至可以合成已经达到以假乱真程度的任何人的声音。一
19、旦一些不法分子利用语音合成技术来合成特定用户的声音,将很可能会侵犯该用户的声音权,对用户的人身及财产权益造成威胁。在AIGC赋能数字音频内容生产中,AI语音合成是侵犯用户声音权的主要方式。语音克隆等开源AI工具的易得性使得进行语音合成的成本较低,虚假语音信息增多,导致信息监管难度加大。虽然AI语音合成算法需要大量语音库来训练克隆人声,但互联网的普及使得用户的语音数据在互联网上随处可见,获取声源变得简单且难以监管,这给声音权的保护带来了巨大的威胁和挑战5。在将智能语音技术应用于数字音频内容创作时,用户声音权和数字音频作品版权侵权问题亟待各方关注和解决。尽管声音像人的肖像一样具有明显的识别度,但声
20、音本身并不受著作权法保护。将声音制作成作品,形成声音作品或音频作品,才能成为著作权法的保护对象。目前,我国对声音权的法律保护主要参照适用于肖像权保护的相关规定,将其作为自然人的权益进行法律保护。但针对人工智能相关技术的运用,我国暂未出台相关法律进行约束。利用AI技术生成的侵权音频的权责主体尚难以界定。有声读物内容生产者可以利用AI技术,训练识别性更强的声库模型,以丰富阅读资源。例如,喜马拉雅音频平台利用AI语音重新演绎评书大师单田芳的声音,让一代评书大师的声音再次响起;运用智能语音技术进行音色定制,生成了一系列基于中国著名经济学家管清友音色的AIGC专辑。尽管这些应用降低了数字音频内容的制作成
21、本,但涉及的内容版权的界限变得愈加模糊,且难以监管6。此外,一键生成式的AI配音使得短视频配音门槛不断降低,导致当前市场上的AI配音短视频背后的声音样本来源版权模糊不清。“AI孙燕姿”等音乐领域的AIGC作为一种由全新创作方式生成的产物,其版权界定引发了不少争议,法律上也尚未对AI音乐的性质做出规定。因此,创作者在事先未获得他人作品的使用授专题:AIGC 技术赋能下的出版业与人才培养17权和某一歌手声音授权的情况下,使用AI进行音乐创作和传播也一定会产生侵权行为。2.3AI克隆人声造成虚假信息泛滥智能语音技术的应用与发展使内容创作变得更加智能化,但同时也使普通人有机会成为虚假音频的制造者,从而
22、埋下了很多隐患。合成语音拟人度的不断优化,使虚假信息的表现形式从断章取义的文字和PS的图片发展到技术合成的虚假音频,增大了分辨真实信息的难度,易造成虚假信息和电信诈骗等非法活动的泛滥。如果伪造者运用人工智能语音合成技术模仿那些在社会上具有一定话语权和粉丝效应的人的声音,在公共社交媒体平台发布不正当言论、输出错误的价值观或恶意带动舆论导向,不仅会损害他人的名誉、丑化歪曲他人的形象、侵犯他人的名誉权,甚至会激化社会矛盾、扰乱社会秩序。此外,犯罪分子可通过非法搜集他人声源,伪造他人声音对其家人进行电信诈骗,或者制作虚假配音视频进行敲诈勒索,损害他人名誉权、财产权甚至生命权,不仅逾越了道德的准绳,更触
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 技术 数字音频 内容 生产 应用 场景 存在 问题 应对 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。