大规模语言模型的跨云联合训练关键技术.pdf
《大规模语言模型的跨云联合训练关键技术.pdf》由会员分享,可在线阅读,更多相关《大规模语言模型的跨云联合训练关键技术.pdf(8页珍藏版)》请在咨信网上搜索。
1、大规模语言模型的跨云联合训练关键技术潘囿丞 等热点专题中兴通讯技术2023 年 8 月 第 29 卷第 4 期 Aug.2023 Vol.29 No.4大规模语言模型的跨云联合训练关键技术Key Technologies for Cross-Cloud Joint Training of Large-Scale Language Models潘囿丞/PAN Youcheng,侯永帅/HOU Yongshuai,杨卿/YANG Qing,余跃/YU Yue,相洋/XIANG Yang(鹏城实验室,中国 深圳 518055)(Peng Cheng Laboratory,Shenzhen 51805
2、5,China)DOI:10.12142/ZTETJ.202304010网络出版地址:http:/ the scale of model parameters continues to grow,the computational resources required for model training become significantly larger.This often leads to situations where a single computing cluster is insufficient to meet the training needs of large-sc
3、ale language models.Cross-cloud joint training of large-scale language models has emerged as an effective solution to addressing this challenge.In this study,taking cross-cloud pre-training and fine-tuning of natural language processing models as examples,we introduce the main challenges and key tec
4、hnologies involved in cross-cloud training of large-scale language models.The specific applications,practical effects,and future scenarios of these technologies in the cross-cloud training process are explored.These technologies will provide strong support for intelligent applications and human-comp
5、uter interaction.Keywords:large-scale language model;computational resource;cross-cloud training;natural language processing引用格式:潘囿丞,侯永帅,杨卿,等.大规模语言模型的跨云联合训练关键技术 J.中兴通讯技术,2023,29(4):49-56.DOI:10.12142/ZTETJ.202304010Citation:PAN Y C,HOU Y S,YANG Q,et al.Key technologies for cross-cloud joint training
6、 of large-scale language models J.ZTE technology journal,2023,29(4):49-56.DOI:10.12142/ZTETJ.202304010大规模语言模型是一种使用深度学习方法技术在大规模无标注文本语料数据上进行训练的人工智能方法。近年来,这类模型得到了快速发展,模型能力实现极大提升。然而,模型的参数规模也变得越来越大。例如,2018年谷歌的BERT-Base模型只有1.1亿个参数1,而到了2020年,OpenAI的GPT-3模型的参数量已经达到1 750亿个2。随着模型参数的增加,模型训练所需的算力资源也变得更加庞大。BERT-
7、Base模型可以在单张图形处理器(GPU)上训练,而GPT-3模型则需要在数千张GPU上进行数月的训练。当前,单个算力集群很少具备数千张GPU算力卡的规模,即使是那些具有数千张卡的算力集群,也很难将它们在长时间内集中用于同一个任务。因此,为了满足大规模语言模型的训练需求,需要将多个算力集群的资源联合训练来提高效率。随着“东数西算”工程的逐步开展,中国各地建立了大量的算力集群。异地跨云计算将成为今后大模型训练的可行方式。1 基于多算力集群的跨云训练方法1.1 跨云计算的并行训练方式在跨云集群环境中进行模型训练,需要解决不同云集群基金项目:科技创新2030“新一代人工智能”重大项目(2022ZD0
8、115301)49大规模语言模型的跨云联合训练关键技术潘囿丞 等热点专题中兴通讯技术2023 年 8 月 第 29 卷第 4 期 Aug.2023 Vol.29 No.4之间参数的传递和同步问题,以及由大量数据跨云传输的时间开销导致模型训练速度慢的问题。为了提升训练速度,训练任务被拆分到多个不同的算力集群上。利用这些集群的算力,可以实现对任务的并行处理。根据不同的任务需求和场景,跨云训练可以采用不同的并行策略,包括数据并行、模型并行和流水线并行等。数据并行是提升训练速度的一种并行策略,能够将训练任务切分到多个算力集群上。每个集群维护相同的模型参数和计算任务,只是处理不同的批数据。通过这种方式,
9、全局的数据被分配到不同的进程,从而减轻单个集群上的计算和存储压力。模型并行主要用于模型太大、无法在单个设备上加载的场景,对计算图按层切分以减少单个存储的容量需求,每个集群只保留模型的一部分。因此,多个算力集群可以共同训练一个更大的模型。当模型并行在某个集群进行计算时,其余集群都会处于闲置状态,这样会极大地降低整体的使用效率。于是,在模型并行的基础上,如图1所示,把原先的批数据再划分成若干个微批次,按流水线方式送入各个算力集群进行训练,也就是流水线并行3。当在跨云场景下进行大规模语言模型训练时,由于巨大的数据量和参数规模,不论是对训练数据还是模型张量进行切分,在进行跨云同步传输时都会产生较大的耗
10、时,会影响整体的训练速度。由此可见,数据并行和模型并行这两种方式能够支持的模型参数规模有限。而流水线并行训练则将模型参数按照层次进行拆分,把不同层的模型参数放到不同集群中进行训练。训练过程中不需要同步全部模型参数,集群之间只需要串行传递训练过程的中间计算变量。该方法受模型参数规模影响较小,更适合大规模语言模型的跨云训练。1.2 跨云流水线并行的主要挑战及关键技术跨云流水线并行和普通流水线并行的最大区别在于处理通信数据的方式。目前,普通流水线并行策略通常仅在单个计算资源中心内部使用,这意味着计算设备之间存在专用的高带宽网络连接。此时,通信代价极低,通常可以忽略不计。然而,当普通流水线并行策略应用
11、于跨云场景时,计算设备之间的连接带宽远低于上述连接,通信代价将显著增加,这将极大地影响训练效率。图1的左图和右图分别展示了普通流水线并行和跨云流水线并行的处理流程。普通流水线并行的效率评价指标为并行空泡占用率比例(parallelism bubble ration),该比例越小代表效率越高。假设并行的阶段(stage)数为p,微批次的数量(micro-batch)为m,每个micro-batch的前向和后向执行时间为tf和tb,则空泡率为:bubbleration=p-1m+p-1。(1)而在跨云流水线并行中,会出现因为通信而导致的额外空泡。假设通信时间为tt,在不做任何处理的情况下,前向和后
12、向的通信时间相等,此时空泡率为:bubbleration=()p-1(tf+tb+2mtt)m()tf+tb+()p-1(tf+tb+2mtt)。(2)因此,跨云流水线并行所面临的主要挑战是如何提高训练效率,即如何降低并行空泡的占用率。从上述公式(2)中可以看出,在跨云场景中,与普通流水线并行不同,增加微批次的数量并不一定会提高效率,需要根据实际情况进行分析,并计算出最优的微批次数量。此外,公式(2)还表明,缩短通信时间、减少阶段数量均有助于降低空泡率。特别是由于通信时间的存在,阶段数量对空泡率的影响更为显著。因此,减少阶段数量可以带来更大的收益。下面我们将从这两个方面介绍相关的技术。缩短通信
13、时间的核心在于减少通信的数据量。为此,可以采用稀疏化、量化和低秩训练等技术。另外,阶段数量主要受到节点总内存的限制。如果能够降低训练占用的内存,就可以使每个节点容纳更多的参数,从而有可能降低阶段数。需要注意的是,在此处,以增加通信量为代价来降低内存的方案并不适用。稀疏化的主要思想是,神经网络层的输出中绝对值较大的数值通常承载了更多的信息量。因此,将中间层数据中的大多数数值变为0就不会损失主要信息。对此可以利用稀疏化数据的表示方式来压缩数据,从而减少通信量和存储空间图1 普通流水线并行和跨云流水线并行并行空泡设备4设备3设备2设备1设备4设备3设备2设备1并行空泡前向过程反向过程梯度更新通信过程
14、50大规模语言模型的跨云联合训练关键技术潘囿丞 等热点专题中兴通讯技术2023 年 8 月 第 29 卷第 4 期 Aug.2023 Vol.29 No.4的占用。量化则是将传输的中间结果从原本32位比特的浮点数映射到8位或者更少比特表示的整型数据上。这种方式可以有效压缩通信数据,但是会带来额外的误差,进而会影响到训练的精度。因此,需要根据实际的数据分布情况来设计量化的位数和方式。大型模型通常存在“过参数化”的问题,即虽然模型的参数众多,但实际上模型主要依赖于低秩维度的内容。为此,可以采用一些基于低秩分解的训练方法,例如低秩适应(LoRA)4算法。该方法新增了一个先降维再升维的旁路。这样的设计
15、可以天然地降低中间数据的维度。将降维矩阵的输出位置作为切分点也可以达到减少通信时间的目的。2 一种面向大规模语言模型的跨云训练方法大规模语言模型的训练任务包括语言模型预训练和下游任务微调两个阶段。为了应对跨云模型训练的挑战,本文中我们将介绍一种基于跨云大模型训练框架“星云”5的预训练和微调方法。如图2所示,“星云”是一个专门面向云际环境的深度学习模型统一训练框架,该框架包含了任务层、训练优化层、并行计算层、通信优化层、安全和隐私层、管理和调度层以及云硬件层等7个功能层,支持在低带宽网络环境下,利用不同算力集群的异构算力进行大模型的跨云训练,在通信优化方面采用了参数稀疏化、量化以及低秩分解等有效
16、技术来确保集群间信息传输的轻量化和最小化模型精度损失,并主要采取流水线并行的方式来实现在多个算力集群间的并行计算。2.1 多语言大模型的跨云预训练方法针对多语言模型预训练任务,我们基于“星云”实现了一套支持跨云多源数据训练的多语言模型预训练方案,如图3所示。为了优化训练过程,该方案参考ELECTRA6架构设计了一种适合跨云使用的模型架构,由生成器(Generator)和判别器(Discriminator)两部分组成。其中,生成器根据输入内容生成对应的字符序列,判别器则对生成的字符序列进行判断,以达到优化训练的目的。在模型训练过程中,生成器只需要将输出的字符序列单向传递给判别器。当进行跨云训练时
17、,生成器和判别器会被部署在不同的云集群上,此时生成器只需向判别器传输字符串序列即可。在这个过程中,所需的数据传输量较少,带宽需求也较低,这有利于跨云大模型的训练。此外,通过共享生成器和判别器间的词表、跨云只传输字符ID序列的方式CPU:中央处理器 GPU:图形处理器 NPU:神经网络处理器图2“星云”的框架结构示意图图3 基于“星云”的跨云模型预训练框架任务层训练优化层并行计算层通信优化层安全和隐私层管理和调度层云硬件层星云优化器预训练微调深度学习模型训练优化策略云际并行计算策略参数稀疏化量化低秩分解集群内安全计算隐私保护集群间安全通信GPU集群NPU集群CPU集群智算网络统一资源调度与管理平
18、台被替换字符预测新语言模型判别器(ERNIE-M)生成的输入字符序列生成器1(ERNIE-M)语言集群1生成器2(ERNIE-M)语言集群2生成器n(ERNIE-M)语言集群n输入字符序列多语言无监督数据语言集群1语言集群2语言集群n-1语言集群n云集群A1云集群A2云集群Ai云集群An语言集群n云集群A云集群B高带宽环境低带宽环境高带宽环境51大规模语言模型的跨云联合训练关键技术潘囿丞 等热点专题中兴通讯技术2023 年 8 月 第 29 卷第 4 期 Aug.2023 Vol.29 No.4不仅可以进一步减少数据传输量,还可以避免数据泄露。为了支持多源数据多方协同训练,该架构需要使用多个生
19、成器来共同训练判别器。不同的生成器对应不同的训练数据和不同的预训练模型,例如:可以让每个生成器负责一个语种的生成,多个生成器共同支持多语言判别器的训练,这样可以提高训练效率,增强判别器的泛化能力。在模型训练过程中,生成器和判别器之间只有单向的字符标识序列传输,数据量小,受网络带宽瓶颈影响较小。为了提高集群资源的利用率和训练速度,本文中我们采用了数据并行的方式在生成器集群和判别器集群内部分别进行训练。为了验证该框架在异构算力环境下的模型训练能力,我们将生成器部署在GPU算力集群,将判别器部署在NPU算力集群。该框架的跨云集群部署及并行计算方式如图4所示。这种部署和计算方式可以提高训练效率,优化资
20、源利用率。为了测试跨云模型预训练的效果,实验中我们利用包含116种语言的单语数据和15种语言的平行语料数据,进行基于生成器-判别器架构的跨云大模型训练。使用多语言预训练语言模型ERNIE-M-Base来初始化生成器,使用ERNIE-M-Large 来初始化判别器,训练得到的判别器 ERNIE-M-Extra 则作为最终的多语言大模型。为了测试 ERNIE-M-Extra模型的多语言能力,本文中我们首先使用英语数据进行微调,然后在15种语言的跨语言推理任务上进行了测试。测试结果如表1所示。由表1可知,ERNIE-M-Extra模型在15种语言的跨语言推理任务中表现出最优的平均成绩,相比于基础模型
21、ERNIE-M-Large,其精度提高了0.2。为了测试模型训练过程的吞吐率,我们进行了在云集群内和跨云集群环境下的测试。实验结果显示,跨云训练的吞吐率达到了单云集群训练的85%。在GPU算力集群和NPU算力集群环境下,针对异构环境下硬件加速效果进行了实验,并对比了由8卡NPU算力增加到64卡的模型训练速度。实验结果表明,增加算力卡后训练速度提高了4.34倍。为了验证模型在跨云集群训练中的有效性,本文对比了单云环境和跨云环境下模型训练的损失曲线,如图5所示。可以看出,跨云集群训练可以保持训练过程的持续收敛。综上所述,采用生成器-判别器架构进行多语言大模型训练,可以在跨云环境下保持较高的吞吐率,
22、确保训练过程持续收敛。此外,增加算力资源可以有效提高训练速度。2.2 大规模语言模型的跨云微调方法微调是指在预训练大模型的基础上,为了特定的任务进行有针对性的模型训练。本文中我们将分别介绍基于编码器-解码器架构的自然表1 跨云模型预训练最终模型精度对比模型XLM7Unicoder8XLM-R9INFOXLM10ERNIE-M11XLM-RLARGE9INFOXLMLARGE10VECOLARGE12ERNIE-MLARGE11ERNIE-M-ExtraEn85.085.185.886.485.589.189.788.289.389.4Fr78.779.079.780.680.184.184.5
23、79.285.185.1Es78.979.480.780.881.285.185.583.185.786.0De77.877.878.778.979.283.984.182.984.484.5El76.677.277.577.879.182.983.481.283.784.4Bg77.477.279.678.980.484.084.284.284.584.6Ru75.376.378.177.678.181.281.382.882.081.8Tr72.572.874.275.676.879.680.976.281.281.7Ar73.173.573.874.076.379.880.480.381
24、.281.8Vi76.176.476.577.078.380.880.874.381.981.9Th73.273.674.673.775.878.178.977.079.279.3Zh76.576.276.776.777.480.280.978.481.081.2Hi69.669.472.472.072.976.977.971.378.679.1Sw68.469.766.566.469.573.974.880.476.276.3Ur67.366.768.367.168.873.873.779.175.475.7平均75.175.476.276.277.380.981.479.982.082.2
25、图4 跨云预训练集群算力互联及并行计算方式GPU:图形处理器 NPU:神经网络处理器前向计算标签云集群A生成器数据并行GPU 0GPU 7GPU 0GPU 7云集群B判别器数据并行GPU 0数据并行GPU 7NPU 0NPU 7NPU 56NPU 63数据并行GPU 052大规模语言模型的跨云联合训练关键技术潘囿丞 等热点专题中兴通讯技术2023 年 8 月 第 29 卷第 4 期 Aug.2023 Vol.29 No.4语言生成微调训练和基于编码器架构的自然语言理解微调训练。2.2.1 针对自然语言生成任务的微调针对基于编码器-解码器架构的自然语言生成模型,本文以机器翻译任务为例,参照 AB
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大规模 语言 模型 联合 训练 关键技术
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。