人工智能在音乐创作中的应用.pdf
《人工智能在音乐创作中的应用.pdf》由会员分享,可在线阅读,更多相关《人工智能在音乐创作中的应用.pdf(9页珍藏版)》请在咨信网上搜索。
1、13620233引 言随着近年来人工智能研究的发展,人工智能音乐已经进入了一个新的纪元。从最早莱杰伦希勒(Lejaren Hiller,19241994)在 1957年对人工智能或是算法作曲的首度尝试伊利亚克组曲(Illiac Suite),到谷歌(Google)研发团队的 Magenta 项目,到巴黎的索尼计算机科学实验室开发的“深度巴赫”(DeepBach)神经网络,再到人工智能虚拟艺术家“艾娲”(Artificial Intelligence Virtual Artist,简称 AIVA)将其以影视与游戏配乐的形式应用于市场,人工智能音乐在西方已然走过了半个多世纪。从 2016 年开始,
2、人工智能音乐研究呈现一种“井喷”的状态,不仅各种相关理论层出不穷,还于 2019 年之后逐步由理论转向实际应用类研究。音乐方面也是如此,人工智能音乐正在逐渐走入人们生活当中,且变得越来越有实用价值。在国内,中央音乐学院于 2019 年成立了人人工智能在音乐创作中的应用ARTIFICIAL INTELLIGENCE IN MUSIC COMPOSITION摘要:以人工智能与音乐创作为核心,介绍人工智能音乐创作中的马尔可夫链、BP神经网络、RNN神经网络、LSTM神经网络与SOM无监督神经网络等基本模式。借由思考音乐创作与主体性的关系,对人工智能视域下音乐创作的走向、作曲家的创作价值、音乐创作的形
3、式以及表征与重组等问题加以阐释,从而以全新的技术领域为切入点,将音乐创作置入新的“敞开”世界中。关键词:人工智能;神经网络;音乐创作;形式 中图分类号:J621.3 文献标识码:A 文章编号:1004-2172(2023)03-0136-09DOI:10.15929/ki.1004-2172.2023.03.013程汇聪工智能与音乐信息科技系,上海音乐学院的音乐科技系也积极开展有关人工智能音乐的学科研究,并取得了阶段性成果。一键AI编曲软件“音虫”在 2020 年末登场,同期,网易的“天音”人工智能编曲软件也于 2022 年给大家带来了新的编曲体验。种种趋向表明,人工智能音乐在近年来不断受到国
4、内外学者与研究人员的重视。音乐人工智能相较于其他人工智能研究来说具有特殊性,它涉及一个核心的问题,即音乐本身是一种情感的流淌。事实上,关于艺术的人工智能都会遇到这一问题,但是音乐的与众不同之处在于它是艺术中最为“无形”的存在。音乐并非是绘画或雕塑那样具象的存在(空间艺术与时间艺术造型艺术与发生艺术),它本身是一种虚幻的表现形式。在过去讨论艺术的过程中,艺术的内核与其表象形式是不可剥离的,而艺术家的创作过程则是将其“非真实性”的主观意向具化为形式,也就是说,艺术品即思想的荷载物。音乐科技13720233从康德提出“纯粹美”这一美学概念之后,人们对于形式与内核的论证趋于分化,但又归于统一。因此也诞
5、生了大量的学说,如彼得 基维(Peter Kivy,19342017)的“轮廓理论”,于润洋先生(19322015)常说的音乐中的“自律与他律”,苏珊朗格(Susanne K.Langer,18951982)的“符号学说”等,都从不同角度和维度解读了艺术中情感与形式的关系。从过去几年与人工智能相关的研究成果可看出,人工智能对于形式上“工具理性”的进展是极为迅速并具有优越性的,利用自组织映射神经网络(Self-organizing map,简称 SOM)或 BP神经网络(back propagation,简称 BP)等进行机器学习并通过马尔可夫链(Markov Chain,简称 MC)等算法进行
6、重组,人工智能可以对形式进行很好的模仿,在此称其为“重组性创作”。对这种“重组性创作”来说,模仿肖邦、巴赫等作曲家的音乐风格不在话下,而对十二音、整体序列等音乐风格的模仿更是人工智能的拿手好戏。作为人类作曲家,需要思考如何进一步开展创作活动,是否需要将目光转向更加“根源性”的创作当中?类似标准化、重复化的劳动,在未来是否还是衡量作曲家的标准?人工智能是否可 康德判断力批判中提出“纯粹美”和“依存美”的概念,纯粹美是自由的美,指关乎形式而不受外部事物影响。详见伊曼努尔康德:判断力批判,宗白华译,商务印书馆,2011。轮廓理论,最早在彼得基维 1980 年出版的纹饰贝壳关于音乐表现的反思中出现,详
7、见 Kivy Peter,The Corded Shell:Reflections on Musical Expression(Princeton:Princeton University Press,1980).与自律和他律相关的内容,详见于润洋:现代西方音乐哲学导论,人民音乐出版社,2012,第 1 91 页。与“符号学说”相关的内容,详见苏珊朗格:情感与形式,刘大基、傅志强译,中国社会科学出版社,1986。自组织映射神经网络是一种无监督的人工神经网络。BP(back propagation)神经网络是 1986 年由以鲁姆哈特(David Rumelhart)和麦克莱兰(James L.
8、McClelland)为首的科学家提出的概念,这是一种按照误差逆向传播算法训练的多层前馈神经网络,也是应用最广泛的神经网络模型之一。马尔可夫链(Markov Chain,简称 MC)是概率论和数理统计中具有马尔可夫性质(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。与抽象概念相关的内容,详见苏珊朗格:情感与形式。以代替人类作曲家,满足绝大多数人对于音乐的需求?基于人类情感的艺术品呈现是否可以实现将形式与情感剥离?用符号学及语义学的思考方式,艺术的欣赏者(客体)需要同时接受艺术品
9、(形式)以及一个普世的人类情感(抽象概念)的影响,来完成对于一个创作者(主体)艺术创作的接收,如果“概念”来源于一个普世的、人类社会发展所必然产生的情感以及约定俗成的价值观,对于客体来说主体是否仅仅输出了符合直觉理性并具有生命基本逻辑的一种形式?我们作为一个音乐创作者要如何创作?为何要创作?创作的价值在何处?一、人工智能音乐创作的基本模式(一)马尔可夫链早期的算法作曲中,生成音乐的主要途径就是利用马尔可夫链将音乐的纵横关系转化为概率问题。这种创作的思维延续了整体序列的创作模式,即将音乐的基本元素抽象为几个固定概念,如音高、时值、力度等概念,在此基础上将这几个音乐元素转化为概率问题,一定程度上,
10、概率也体现了音乐的风格。马尔可夫链可分为显性马尔可夫链和隐性马13820233尔可夫链。对于基本的马尔可夫链模型来说,本质上就是以当前状态为出发点,通过状态转移的概率矩阵分布(所有可能性的概率之和为 1),将下一个状态转化为概率问题。马尔可夫链的一大特征在于只考虑当前状态,因此它是无记忆性的。可以说利用马尔可夫链所要解决的问题是,在已知当前状态 N 的情况下,求 N 1 状态。比如在音乐中,如果一部古典时期的作品在当前状态出现了属七原位和弦,下一状态出现主和弦的概率极高,可达到 0.8 甚至以上。再比如,在十二音的作品中,当前状态的音在下一状态出现的概率为 0,其他 11 个音出现的概率则为
11、1/11。但由于马尔可夫链的无记忆性,并不能很好地完成此类表达。音乐系统很多时候是一个复杂的问题,单一的马尔可夫链的矩阵转移系统往往难以表示,这意味着,还存在另外一个影响最终结果的决定性因素。而有关力度和时值的表达方面,在古典时期的作品中,当前状态的力度大概率会在下一个状态得到延续,力度的变化大多是延续的。而在力度上起到对峙的片段往往在音型、织体上趋于统一,这恰好是隐性马尔可夫链的一个很好的例子。在上述过程中,织体和音型对于力度的概率问题产生了较大的影响,其中也包含了两个状态:隐含状态和可观察状态。在上述例子中,我们所要观察的是当前状态以及下一个状态的力度问题,但其中织体对其产生了重要的影响,
12、因此力度就成为了我们的可观察层,而织体则是隐含层。上述十二音的例子在这里也可以得到解决,将音高作为可观测层,将过去 11 个状态内是否出现此音高作为隐含层,就可以得出十二音更为精确的基本表达。首先设状态 N,考虑是否满足N 12,则 N=N-12 状态。马尔可夫链作为将“概率”应用至音乐创作的早期尝试,具有里程碑式的意义。在 20 世纪 5060 年代也有不少作曲家尝试利用马尔可夫链进行音乐创作,其中就包含希勒和艾萨克逊(Leonard Isaacson)于 1957 年创作的伊利亚克组曲,这部作品常被认为是第一个利用计算机和算法作曲进行创作的作品。在创作过程中利用马尔可夫链的随机特征产生不同
13、的音高、时值、节奏、力度,进而构成音乐片段。伊利亚克组曲由四个乐章构成,分别对应了单旋律、四声部关系、时值与力度、随机性四个方面。而在第四乐章中,在随机与概率的部分集中应用了马尔可夫链。1960 年俄罗斯计算机科学家、音乐家 R.Kh.Zaripov 发表了第一篇关于使用(Ural-1)计算机进行算法音乐作曲的论文,描述了其使用马尔可夫链生成旋律、时值等参数。而后他在此研究基础上于 1969 年发表了控制论与音乐(Cyber-netics and Music)。此 外,泽 纳 基 斯(Iannis Xenakis,19222001)也在他的部分作品中尝试了基于马尔可夫链的算法作曲形式,包括其作
14、品类比 AAnalogique A、类比 BAnalogique B、希尔莫斯Syrmos 等。(二)BP 神经网络神经网络最初并没有得到很高的重视,直到过去十年才得到大力发展,它可粗略分为两大类,有监督的 BP 神经网络以及无监督的 SOM神经网络。很长一段时间内,由于计算力以及数据的限制,无监督的神经网络是难以处理的技术问题,而学者们主要在有监督的 BP 神经网络当中做文章。BP 神经网络在 1986 年由鲁姆哈特(David Rumelhart)和 麦 克 莱 兰(James L.McClelland)为首的科学家提出。神经网络最为基本的两个结构为输入层和输出层,从输入层到输出层可音乐科
15、技13920233被称为正向传导的过程。而 BP 神经网络在输入层和输出层中间还有一个隐藏层,其作用则是将信息做对比。BP 神经网络中的关键词“Back Propagation”从字面上可以直译为“反向传导”,因此其中最重要的就是反向传导的过程。信号从输入层进入之后,先正向通过隐藏层到输出层,再将信号数据与给定的参考数据做对比计算误差,反向回到隐藏层,逐渐修正神经元的权值,直到误差小于指定参数。BP神经网络的特点就是有监督,因此其中人为介入的程度依然较高。尤其是在音乐领域的应用,选用的样本将会直接影响机器学习的最终结果,个人的审美也会从侧面影响到机器的学习情况。BP 神经网络几乎完美继承了人类
16、学习模式的重要方面,通过测试、评分、重复、消除差异等方式塑造主体。(三)RNN 神经网络与 LSTM 神经网络如今的音乐人工智能从技术层面来说,主要采用循环神经网络(Recurrent Neural Network,简称 RNN)及其特殊模式长短期记忆人工神经网络(Long Short-Term Memory,简称 LSTM),以时序性的处理模式来实现机器学习及音乐作品生成。RNN 神经网络从根源上来说是一种 BP 式的神经网络,是一种有监督的神经网络的模式,因此其必然体现出人为介入的情况,通过此神经网络训练的人工智能展现出一种“工具”特征。这就会出现上述讨论的问题,其中最为显著的问题就是:人
17、工智能在音乐创作过程中是否作为人类的另一种工具?就如同电子音乐是否为一种音乐的工具,还是从根源层面提供一种新的思维结构?循环神经网络(Recurrent Neural Network,简称 RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion),且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。长短期记忆人工神经网络(Long Short-Term Memory,简称 LSTM)是一种时间循环神经网络,是为了解决一般的 RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的 RNN 都具有一
18、种重复神经网络模块的链式形式。2017 年,Jean-Pierre Briot,Gatan Hadjeres,Franois-David Pachet 发表了论文音乐生成的深度学习技术 (Deep Learning Techniques for Music Generation-A Survey),提出了基于 LSTM 的深度循环神经网络(DRNN),用于生成多声部音乐,通过运用此技术捕捉音乐序列纵横关系中的相互关系。此模型主要应用于生成和声与旋律,但需要在较为明确的音乐框架下完成。虽然通过这种方式训练出来的人工智能暂时还无法做到大段音乐的创作,在音乐结构上有较大欠缺,但在 8 16 小节以内
19、,无论是风格模仿还是风格迁移都可以较为出色的完成。由于在音乐人工智能的训练过程中普遍缺乏样本及数据,因此在很多训练过程中都将原本的曲子拆成了以 4 小节或 8 小节为单位进行训练,这样做虽然能够短时间内增加其数据量,却造成了人工智能对于音乐结构把握不足的问题。另一方面,由于 RNN 神经网络的特质,所有的计算都需要从头开始,因此在 4 小节或 8 小节的长度上,设备还能够承担所产生的数据量,可一旦涉及更长的音乐,数据量就将呈指数增长,目前的计算能力也很难支撑其运算。但是这样的问题只是当下的,随着新算法的迭代、设备的升级,此般问题在不久的将来都会被逐个击破而需要深入思考的是,透过人工智能这面“镜
20、子”,作曲家和音乐家能从自己身上反思到什么。(四)无监督神经网络无监督神经网络目前在音乐领域并没有成熟的应用,但部分公司推出了阶段性研究产品,如14020233OpenAI 的 MuseNet、Google 的 MusicLM 等。此类产品并不完全是无监督学习的结果,但具有无监督学习的倾向。上述两者运用的均为基于Transformer 模型的神经网络,通过学习数十万个MIDI 文件形成“预训练”的结果,而后通过“预训练微调”的框架对其进行修正。无监督技术是一种不需要将数据人为标签化的学习方法,它只根据输入数据本身的特征和结构来学习,通过大量对比和学习数据,发掘数据之间的关联和潜在规律。无监督技
21、术可以利用海量的数据,不受标签的限制,但难以评估模型的性能,也难以控制模型的输出和目标。在此层面上,机器取得了较大的自主权,但是在音乐应用中便会产生一个新的问题:对于本身就较为主观的音乐审美或者音乐评判,无监督的神经网络所产生的学习结果难以评价。这仿佛是机器自主的学习成果,但有很大概率与我们本身的评判标准存在差距。面对这样的差距,如果是 BP 神经网络,毫无疑问将会被判定此次学习失败,但是对于无监督的 SOM 神经网络来说,这又引入了新的音乐审美问题。或许更有意思的问题是,当人类面对非人物种或如人工智能这样的“硅基生命体”时,人类的审美是否还适用?二、音乐创作与主体性(一)人工智能与音乐形式在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 音乐创作 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。