分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 大规模语言模型的跨云联合训练关键技术.pdf

大规模语言模型的跨云联合训练关键技术.pdf

上传人：自信****多点

文档编号：905465

上传时间：2024-04-07

格式：PDF

页数：8

大小：2.35MB

《大规模语言模型的跨云联合训练关键技术.pdf》由会员分享，可在线阅读，更多相关《大规模语言模型的跨云联合训练关键技术.pdf（8页珍藏版）》请在咨信网上搜索。

1、大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.4大规模语言模型的跨云联合训练关键技术Key Technologies for Cross-Cloud Joint Training of Large-Scale Language Models潘囿丞/PAN Youcheng，侯永帅/HOU Yongshuai，杨卿/YANG Qing，余跃/YU Yue，相洋/XIANG Yang（鹏城实验室，中国深圳 518055）(Peng Cheng Laboratory,Shenzhen 51805

2、5,China)DOI：10.12142/ZTETJ.202304010网络出版地址：http:/ the scale of model parameters continues to grow,the computational resources required for model training become significantly larger.This often leads to situations where a single computing cluster is insufficient to meet the training needs of large-sc

3、ale language models.Cross-cloud joint training of large-scale language models has emerged as an effective solution to addressing this challenge.In this study,taking cross-cloud pre-training and fine-tuning of natural language processing models as examples,we introduce the main challenges and key tec

4、hnologies involved in cross-cloud training of large-scale language models.The specific applications,practical effects,and future scenarios of these technologies in the cross-cloud training process are explored.These technologies will provide strong support for intelligent applications and human-comp

5、uter interaction.Keywords:large-scale language model;computational resource;cross-cloud training;natural language processing引用格式：潘囿丞,侯永帅,杨卿,等.大规模语言模型的跨云联合训练关键技术 J.中兴通讯技术,2023,29(4):49-56.DOI:10.12142/ZTETJ.202304010Citation：PAN Y C,HOU Y S,YANG Q,et al.Key technologies for cross-cloud joint training

6、 of large-scale language models J.ZTE technology journal,2023,29(4):49-56.DOI:10.12142/ZTETJ.202304010大规模语言模型是一种使用深度学习方法技术在大规模无标注文本语料数据上进行训练的人工智能方法。近年来，这类模型得到了快速发展，模型能力实现极大提升。然而，模型的参数规模也变得越来越大。例如，2018年谷歌的BERT-Base模型只有1.1亿个参数1，而到了2020年，OpenAI的GPT-3模型的参数量已经达到1 750亿个2。随着模型参数的增加，模型训练所需的算力资源也变得更加庞大。BERT-

7、Base模型可以在单张图形处理器（GPU）上训练，而GPT-3模型则需要在数千张GPU上进行数月的训练。当前，单个算力集群很少具备数千张GPU算力卡的规模，即使是那些具有数千张卡的算力集群，也很难将它们在长时间内集中用于同一个任务。因此，为了满足大规模语言模型的训练需求，需要将多个算力集群的资源联合训练来提高效率。随着“东数西算”工程的逐步开展，中国各地建立了大量的算力集群。异地跨云计算将成为今后大模型训练的可行方式。1 基于多算力集群的跨云训练方法1.1 跨云计算的并行训练方式在跨云集群环境中进行模型训练，需要解决不同云集群基金项目：科技创新2030“新一代人工智能”重大项目（2022ZD0

8、115301）49大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.4之间参数的传递和同步问题，以及由大量数据跨云传输的时间开销导致模型训练速度慢的问题。为了提升训练速度，训练任务被拆分到多个不同的算力集群上。利用这些集群的算力，可以实现对任务的并行处理。根据不同的任务需求和场景，跨云训练可以采用不同的并行策略，包括数据并行、模型并行和流水线并行等。数据并行是提升训练速度的一种并行策略，能够将训练任务切分到多个算力集群上。每个集群维护相同的模型参数和计算任务，只是处理不同的批数据。通过这种方式，

9、全局的数据被分配到不同的进程，从而减轻单个集群上的计算和存储压力。模型并行主要用于模型太大、无法在单个设备上加载的场景，对计算图按层切分以减少单个存储的容量需求，每个集群只保留模型的一部分。因此，多个算力集群可以共同训练一个更大的模型。当模型并行在某个集群进行计算时，其余集群都会处于闲置状态，这样会极大地降低整体的使用效率。于是，在模型并行的基础上，如图1所示，把原先的批数据再划分成若干个微批次，按流水线方式送入各个算力集群进行训练，也就是流水线并行3。当在跨云场景下进行大规模语言模型训练时，由于巨大的数据量和参数规模，不论是对训练数据还是模型张量进行切分，在进行跨云同步传输时都会产生较大的耗

10、时，会影响整体的训练速度。由此可见，数据并行和模型并行这两种方式能够支持的模型参数规模有限。而流水线并行训练则将模型参数按照层次进行拆分，把不同层的模型参数放到不同集群中进行训练。训练过程中不需要同步全部模型参数，集群之间只需要串行传递训练过程的中间计算变量。该方法受模型参数规模影响较小，更适合大规模语言模型的跨云训练。1.2 跨云流水线并行的主要挑战及关键技术跨云流水线并行和普通流水线并行的最大区别在于处理通信数据的方式。目前，普通流水线并行策略通常仅在单个计算资源中心内部使用，这意味着计算设备之间存在专用的高带宽网络连接。此时，通信代价极低，通常可以忽略不计。然而，当普通流水线并行策略应用

11、于跨云场景时，计算设备之间的连接带宽远低于上述连接，通信代价将显著增加，这将极大地影响训练效率。图1的左图和右图分别展示了普通流水线并行和跨云流水线并行的处理流程。普通流水线并行的效率评价指标为并行空泡占用率比例（parallelism bubble ration），该比例越小代表效率越高。假设并行的阶段（stage）数为p，微批次的数量（micro-batch）为m，每个micro-batch的前向和后向执行时间为tf和tb，则空泡率为：bubbleration=p-1m+p-1。（1）而在跨云流水线并行中，会出现因为通信而导致的额外空泡。假设通信时间为tt，在不做任何处理的情况下，前向和后

12、向的通信时间相等，此时空泡率为：bubbleration=()p-1(tf+tb+2mtt)m()tf+tb+()p-1(tf+tb+2mtt)。（2）因此，跨云流水线并行所面临的主要挑战是如何提高训练效率，即如何降低并行空泡的占用率。从上述公式（2）中可以看出，在跨云场景中，与普通流水线并行不同，增加微批次的数量并不一定会提高效率，需要根据实际情况进行分析，并计算出最优的微批次数量。此外，公式（2）还表明，缩短通信时间、减少阶段数量均有助于降低空泡率。特别是由于通信时间的存在，阶段数量对空泡率的影响更为显著。因此，减少阶段数量可以带来更大的收益。下面我们将从这两个方面介绍相关的技术。缩短通信

13、时间的核心在于减少通信的数据量。为此，可以采用稀疏化、量化和低秩训练等技术。另外，阶段数量主要受到节点总内存的限制。如果能够降低训练占用的内存，就可以使每个节点容纳更多的参数，从而有可能降低阶段数。需要注意的是，在此处，以增加通信量为代价来降低内存的方案并不适用。稀疏化的主要思想是，神经网络层的输出中绝对值较大的数值通常承载了更多的信息量。因此，将中间层数据中的大多数数值变为0就不会损失主要信息。对此可以利用稀疏化数据的表示方式来压缩数据，从而减少通信量和存储空间图1 普通流水线并行和跨云流水线并行并行空泡设备4设备3设备2设备1设备4设备3设备2设备1并行空泡前向过程反向过程梯度更新通信过程

14、50大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.4的占用。量化则是将传输的中间结果从原本32位比特的浮点数映射到8位或者更少比特表示的整型数据上。这种方式可以有效压缩通信数据，但是会带来额外的误差，进而会影响到训练的精度。因此，需要根据实际的数据分布情况来设计量化的位数和方式。大型模型通常存在“过参数化”的问题，即虽然模型的参数众多，但实际上模型主要依赖于低秩维度的内容。为此，可以采用一些基于低秩分解的训练方法，例如低秩适应（LoRA）4算法。该方法新增了一个先降维再升维的旁路。这样的设计

15、可以天然地降低中间数据的维度。将降维矩阵的输出位置作为切分点也可以达到减少通信时间的目的。2 一种面向大规模语言模型的跨云训练方法大规模语言模型的训练任务包括语言模型预训练和下游任务微调两个阶段。为了应对跨云模型训练的挑战，本文中我们将介绍一种基于跨云大模型训练框架“星云”5的预训练和微调方法。如图2所示，“星云”是一个专门面向云际环境的深度学习模型统一训练框架，该框架包含了任务层、训练优化层、并行计算层、通信优化层、安全和隐私层、管理和调度层以及云硬件层等7个功能层，支持在低带宽网络环境下，利用不同算力集群的异构算力进行大模型的跨云训练，在通信优化方面采用了参数稀疏化、量化以及低秩分解等有效

16、技术来确保集群间信息传输的轻量化和最小化模型精度损失，并主要采取流水线并行的方式来实现在多个算力集群间的并行计算。2.1 多语言大模型的跨云预训练方法针对多语言模型预训练任务，我们基于“星云”实现了一套支持跨云多源数据训练的多语言模型预训练方案，如图3所示。为了优化训练过程，该方案参考ELECTRA6架构设计了一种适合跨云使用的模型架构，由生成器（Generator）和判别器（Discriminator）两部分组成。其中，生成器根据输入内容生成对应的字符序列，判别器则对生成的字符序列进行判断，以达到优化训练的目的。在模型训练过程中，生成器只需要将输出的字符序列单向传递给判别器。当进行跨云训练时

17、，生成器和判别器会被部署在不同的云集群上，此时生成器只需向判别器传输字符串序列即可。在这个过程中，所需的数据传输量较少，带宽需求也较低，这有利于跨云大模型的训练。此外，通过共享生成器和判别器间的词表、跨云只传输字符ID序列的方式CPU：中央处理器 GPU：图形处理器 NPU：神经网络处理器图2“星云”的框架结构示意图图3 基于“星云”的跨云模型预训练框架任务层训练优化层并行计算层通信优化层安全和隐私层管理和调度层云硬件层星云优化器预训练微调深度学习模型训练优化策略云际并行计算策略参数稀疏化量化低秩分解集群内安全计算隐私保护集群间安全通信GPU集群NPU集群CPU集群智算网络统一资源调度与管理平

18、台被替换字符预测新语言模型判别器（ERNIE-M）生成的输入字符序列生成器1（ERNIE-M）语言集群1生成器2（ERNIE-M）语言集群2生成器n（ERNIE-M）语言集群n输入字符序列多语言无监督数据语言集群1语言集群2语言集群n-1语言集群n云集群A1云集群A2云集群Ai云集群An语言集群n云集群A云集群B高带宽环境低带宽环境高带宽环境51大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.4不仅可以进一步减少数据传输量，还可以避免数据泄露。为了支持多源数据多方协同训练，该架构需要使用多个生

19、成器来共同训练判别器。不同的生成器对应不同的训练数据和不同的预训练模型，例如：可以让每个生成器负责一个语种的生成，多个生成器共同支持多语言判别器的训练，这样可以提高训练效率，增强判别器的泛化能力。在模型训练过程中，生成器和判别器之间只有单向的字符标识序列传输，数据量小，受网络带宽瓶颈影响较小。为了提高集群资源的利用率和训练速度，本文中我们采用了数据并行的方式在生成器集群和判别器集群内部分别进行训练。为了验证该框架在异构算力环境下的模型训练能力，我们将生成器部署在GPU算力集群，将判别器部署在NPU算力集群。该框架的跨云集群部署及并行计算方式如图4所示。这种部署和计算方式可以提高训练效率，优化资

20、源利用率。为了测试跨云模型预训练的效果，实验中我们利用包含116种语言的单语数据和15种语言的平行语料数据，进行基于生成器-判别器架构的跨云大模型训练。使用多语言预训练语言模型ERNIE-M-Base来初始化生成器，使用ERNIE-M-Large 来初始化判别器，训练得到的判别器 ERNIE-M-Extra 则作为最终的多语言大模型。为了测试 ERNIE-M-Extra模型的多语言能力，本文中我们首先使用英语数据进行微调，然后在15种语言的跨语言推理任务上进行了测试。测试结果如表1所示。由表1可知，ERNIE-M-Extra模型在15种语言的跨语言推理任务中表现出最优的平均成绩，相比于基础模型

21、ERNIE-M-Large，其精度提高了0.2。为了测试模型训练过程的吞吐率，我们进行了在云集群内和跨云集群环境下的测试。实验结果显示，跨云训练的吞吐率达到了单云集群训练的85%。在GPU算力集群和NPU算力集群环境下，针对异构环境下硬件加速效果进行了实验，并对比了由8卡NPU算力增加到64卡的模型训练速度。实验结果表明，增加算力卡后训练速度提高了4.34倍。为了验证模型在跨云集群训练中的有效性，本文对比了单云环境和跨云环境下模型训练的损失曲线，如图5所示。可以看出，跨云集群训练可以保持训练过程的持续收敛。综上所述，采用生成器-判别器架构进行多语言大模型训练，可以在跨云环境下保持较高的吞吐率，

22、确保训练过程持续收敛。此外，增加算力资源可以有效提高训练速度。2.2 大规模语言模型的跨云微调方法微调是指在预训练大模型的基础上，为了特定的任务进行有针对性的模型训练。本文中我们将分别介绍基于编码器-解码器架构的自然表1 跨云模型预训练最终模型精度对比模型XLM7Unicoder8XLM-R9INFOXLM10ERNIE-M11XLM-RLARGE9INFOXLMLARGE10VECOLARGE12ERNIE-MLARGE11ERNIE-M-ExtraEn85.085.185.886.485.589.189.788.289.389.4Fr78.779.079.780.680.184.184.5

23、79.285.185.1Es78.979.480.780.881.285.185.583.185.786.0De77.877.878.778.979.283.984.182.984.484.5El76.677.277.577.879.182.983.481.283.784.4Bg77.477.279.678.980.484.084.284.284.584.6Ru75.376.378.177.678.181.281.382.882.081.8Tr72.572.874.275.676.879.680.976.281.281.7Ar73.173.573.874.076.379.880.480.381

24、.281.8Vi76.176.476.577.078.380.880.874.381.981.9Th73.273.674.673.775.878.178.977.079.279.3Zh76.576.276.776.777.480.280.978.481.081.2Hi69.669.472.472.072.976.977.971.378.679.1Sw68.469.766.566.469.573.974.880.476.276.3Ur67.366.768.367.168.873.873.779.175.475.7平均75.175.476.276.277.380.981.479.982.082.2

25、图4 跨云预训练集群算力互联及并行计算方式GPU：图形处理器 NPU：神经网络处理器前向计算标签云集群A生成器数据并行GPU 0GPU 7GPU 0GPU 7云集群B判别器数据并行GPU 0数据并行GPU 7NPU 0NPU 7NPU 56NPU 63数据并行GPU 052大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.4语言生成微调训练和基于编码器架构的自然语言理解微调训练。2.2.1 针对自然语言生成任务的微调针对基于编码器-解码器架构的自然语言生成模型，本文以机器翻译任务为例，参照 AB

26、Net13模型架构设计，实现基于“星云”的跨云机器翻译模型微调训练。ABNet是一种用于微调训练的模型架构，在编码器和解码器的各个子层之间插入需要训练的适配器模块。在训练过程中，预训练模型的参数被冻结。该微调方法利用预训练语言模型的知识，但不调整预训练模型的参数。如图6所示，针对源语言和目标语言的预训练模型分别被部署在两个云集群中。在模型训练时，每进行一步前向计算和反向传播，编码端和解码端都需要进行一次跨云中间数据传输。数据传输量与数据批处理大小（B）、序列长度（S）、隐藏层维度（H）等因素相关。需要传递的数据规模如公式（3）所示：Data size=B S H。（3）在微调训练过程中，数据传

27、输占用了大量的网络带宽资源。传输时间的长短对训练速度的影响很大。当网络带宽过低时，跨云训练就无法达到加速训练的目的。因此，为了提高模型的训练速度，“星云”框架从云间通信和并行训练两个方面进行综合优化。为了解决在训练过程中数据传输量大、传输时间长的问题，针对需要跨云传输的中间数据，可以采用压缩通信的策略进行优化，以减少单次传输的数据量。可采用的压缩通信方法主要包括量化、稀疏化、低秩分解等。为了减小压缩通信对模型精度的影响，可以组合使用不同的压缩策略，并在训练的不同阶段采用不同的压缩传输策略。为了解决在模型训练过程中由串行计算导致的资源利用率不高的问题，“星云”采用并行优化策略来优化训练过程。在云

28、集群间采用流水线并行，云集群内采用数据并行的方式，采用多微批次以流水线并行的方式在云集群间执行计算和数据传输任务，可以减少同一时刻资源的停等，提高参与训练各资源的利用率。ABNet架构在跨云环境的部署及并行计算方式如图7所示。为了进行跨云集群模型微调的实验，我们选择IWSLT图5 单云训练和跨云训练损失对比图6 基于ABNet的跨云微调训练方法图7 跨云微调训练算力互联及并行计算方式GPU：图形处理器0 20 000 40 000 60 000 80 000训练步数训练损失87654321单云集群训练损失跨云集群训练损失前馈层2适配器模块预训练语言模型模块通信优化适配器子层前馈层自注意力层源语

29、言训练模型子层源语言云集群前馈层适配器子层交叉注意力层前馈层自注意力层目标语言训练模型子层N目标语言云集群N云集群S编码器数据并行GPU 0GPU 7云集群T解码器数据并行GPU 0GPU 7流水线并行前向计算通信反向传播通信53大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.414的西班牙语（Es）到英语（En）的机器翻译任务，并采用ABNet跨云架构基于预训练语言模型进行微调训练。在该实验中，我们使用多语言预训练模型ERNIE-M-base-cased作为编码端，使用英文预训练模型BERT

30、-Base作为解码端，并将它们分别部署在两个配备了8张NVIDIA V100 GPU显卡的云集群上。实验结果显示，完全重新训练的 Transformer-Base 模型14的双语评估替换（BLEU）值15为39.60，在本地微调训练的 ABNet-Local 模型为 43.19，采用跨云微调训练的ABNet-Cloud模型为41.92。实验结果表明，采用基于预训练模型微调的翻译模型性能优于仅使用训练数据重新训练的Transformer-Base模型。相对于仅在本地集群训练的ABNet-Local模型，跨云微调的ABNet-Cloud模型的BLEU值降低了1.27个，这是由

31、于压缩通信导致了模型精度损失。然而，相对于 Transformer-Base 模型，ABNet-Cloud 仍然提高了 2.32个BLEU值。这表明在跨云环境中，基于预训练语言模型进行微调训练可以复用预训练模型的知识，从而提高最终翻译模型的精度。为了研究压缩通信策略对模型训练的影响，我们对不同压缩通信策略下的模型训练速度和最终模型精度进行了对比。其中，前向计算数据传输采用FP16半精度及其与不同压缩率的SVD分解的组合，反向传播采用固定的INT8量化压缩。实验结果如表2所示，压缩率越高，模型训练速度越快。在FP16(SVD(0.2)+INT8的压缩策略下，模型训练单步消耗时间仅为不压缩训练的1

32、9%。然而，该策略下模型精度损失了4.19个BLEU值。在所验证的压缩策略中，FP16(SVD(0.6)+INT8策略下得到的模型精度最佳（达到41.92），单步训练时间仅为不压缩的32%，训练速度提升了3倍以上。2.2.2 针对自然语言理解任务的微调自然语言理解包括文本分类、文本蕴含、阅读理解等任务。通常人们采用基于编码器类型的预训练模型进行微调训练。为了在跨云环境下微调这类模型，可以采用低秩结构的思想对通信数据进行压缩16。具体的做法如下：1）对于模型中的每一个Transformer 块，假设其输入和输出矩阵的维度为R Rbd，即在跨云训练时，通信数据的维度也为R Rbd。

33、其中，b表示batch_size，d表示模型的维度参数。2）对于其中一个Transformer块的线性层，可以进行奇异值分解来降低通信数据的维度。具体做法是：将该线性层的权重矩阵WWR Rmd进行奇异值分解，选取前r个奇异值，得到3个矩阵u u、s s和v v，维度分别为R Rmr、R Rrr和R Rrd；然后，使用3个连续的线性层来替代原始的线性层，这3个线性层的权重分别为U、S和V，如图8所示。3）将用于跨云通信的模型拆分点设置在S和V层之间，并移除该Transformer块的直接连接分支。这样，通信数据的维度会变成R Rbr，即原有数据的r/d倍。根据上述的压缩方案，以BERT-Base

34、为基础模型，在GLUE数据集17和SQuAD数据集18上进行跨云微调训练，并分析该算法在不同层索引上对训练精度的影响。将上述算法中的r设置为8，实验结果如图9所示。其中，横轴表示拆分的层级索引，纵轴表示准确率。需要说明的是，由于各个数据集表现出的规律一致，这里仅以SST-2和QNLI数据集为代表。由图9可知，r值较小且拆分位置处于模型的底层会导致训练精度显著下降。但是，当拆分位置位于模型的高层时，r值的大小对训练精度没有影响。在实验中，我们选择表2 不同压缩通信方法性能对比压缩方法ABNet-LocalFP16+INT8FP16（SVD（0.8）+INT8FP16（SVD（0.6）+INT8F

35、P16（SVD（0.4）+INT8FP16（SVD（0.2）+INT8BLEU43.1938.8241.1541.9239.5639.00训练速度（s/步）4.421.601.501.420.940.86BLEU：双语评估替换FP16：半精度SVD：奇异值分解INT8：8比特量化图8 低秩分解过程Transformer层Transformer层Transformer层Transformer层归一化层残差连接&归一化层自注意力层前馈层-1v vs su u残差连接&归一化层前馈层-2前馈层-1残差连接&归一化层自注意力层L层54大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2

36、023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.4将模型拆分在第11层，然后针对不同的r值（分别为8、16和32）进行测试，结果如表3所示。特别地，在r等于8的情况下，传输数据量降为原有的1/96，同时精度维持在原有模型的相当水平。通过跨云场景的模型微调训练实验验证，我们证实了跨云微调的可行性。用户可以利用分布在不同云集群上的预训练模型来微调目标任务模型，并通过复用已有模型的知识来提升模型性能。这比仅使用自身数据训练模型更为优越。由于模型被拆分成多个部分，用户可以将模型的底层部分置于可信集群上，从而确保其他集群无法获得标注数据，保障用户标注数据的安全性。3 跨

37、云训练算力互联及未来场景生成算法、预训练模型、多模态等技术的融合催生了以ChatGPT为代表的人工智能生成内容（AIGC）的爆发，进而带来了高算力需求。以ChatGPT为例，它使用了10 000块A100 GPU进行训练。此外，它的部署成本也很高，根据国盛证券报告估算，它的每日咨询量对应的算力需求达到了上万块A100。所以，利用跨云训练可以将广泛分布的算力结合起来，这是应对大模型对算力高需求的一种解决方案，从而有效应对算力对大模型训练的制约。同时，跨云训练可以利用闲散算力，有效解决碎片化问题，提高云集群资源的利用率。除了算力限制，与个人信息强相关的应用，例如语音助手、心理咨询等，也关注隐私保护

38、问题。跨云训练机制具备较好的隐私保护能力。用户可以通过构建本地设备与云的协同训练来实现个人信息在本地处理、云端提供算力的方式，从而保证个人信息不被泄露。4 结束语本文的研究表明，在跨云环境下进行大规模语言模型训练是可行的，是一种提高算力利用率的方案。通过采用模型分割、拆分学习、跨云协同、压缩通信和模型复用等关键技术，该方案能够有效解决跨云训练过程中可能出现的算力和数据不足的问题，并提高训练速度和效率。这些技术在自然语言处理领域的应用将有望带来更为精准和高效的文本处理和语义分析结果，并具备较好的隐私保护能力，为智能化应用和人机交互等领域的发展提供有力的支持。致谢感谢百度飞桨团队吴志华和巩伟宝，以

39、及哈尔滨工业大表3 11层拆分微调结果（k表示1 000）基线模型r=8r=16r=32SST-2（67k）92.5492.4392.3192.77QNLI（105k）91.2490.9891.2291.04MNLI（364k）84.5683.9884.3384.27QQP（91.2k）90.7390.9390.7590.99CoLA（8.5k）55.357.1357.3557.87RTE（2.5k）66.0664.2562.0962.81STS-B（7k）88.3886.4686.7887.46MRPC（3.7k）85.3384.8183.4784.23SQuAD（88k）88.2588.3

40、388.7588.56（a）SST-2图9 基于低秩分解的跨云微调（b）QNLI层索引1 2 3 4 5 6 7 8 9 10 11 12基线低秩分解的微调训练准确率/%929088868482准确率/%9080706050层索引1 2 3 4 5 6 7 8 9 10 11 12基线低秩序分解的微调训练注：QNLI、SST-2是两种数据集55大规模语言模型的跨云联合训练关键技术潘囿丞等热点专题中兴通讯技术2023 年 8 月第 29 卷第 4 期 Aug.2023 Vol.29 No.4学（深圳）施少怀教授对本文写作提供的帮助！参考文献1 DEVLIN J,CHANG M W,LEE K

41、,et al.BERT:pre-training of deep bidirectional transformers for language understanding EB/OL.2023-06-08.https:/arxiv.org/abs/1810.048052 BROWN T B,MANN B,RYDER N,et al.Language models are few-shot learners EB/OL.2023-06-08.https:/arxiv.org/abs/2005.141653 HUANG Y P,CHENG Y L,CHEN D H,et al.GPipe:eff

42、icient training of giant neural networks using pipeline parallelism EB/OL.2023-06-08.https:/arxiv.org/abs/1811.069654 HU E J,SHEN Y L,WALLIS P,et al.LoRA:low-rank adaptation of large language models EB/OL.2023-06-08.https:/arxiv.org/abs/2106.096855 XIANG Y,WU Z H,GONG W B,et al.Nebula-I:a general fr

43、amework for collaboratively training deep learning models on low-bandwidth cloud clusters EB/OL.2023-06-08.https:/arxiv.org/abs/2205.094706 CLARK K,LUONG M T,LE Q V,et al.ELECTRA:pre-training text encoders as discriminators rather than generators EB/OL.2023-06-08.https:/arxiv.org/abs/2003.105557 LAM

44、PLE G,CONNEAU A.Cross-lingual language model pretraining EB/OL.2023-06-08.https:/arxiv.org/abs/1901.072918 HUANG H Y,LIANG Y B,DUAN N,et al.Unicoder:a universal language encoder by pre-training with multiple cross-lingual tasks EB/OL.2023-06-08.https:/arxiv.org/abs/1909.009649 CONNEAU A,KHANDELWAL K

45、,GOYAL N,et al.Unsupervised cross-lingual representation learning at scale EB/OL.2023-06-08.https:/arxiv.org/abs/1911.0211610 CHI Z W,DONG L,WEI F R,et al.InfoXLM:an information-theoretic framework for cross-lingual language model pre-training EB/OL.2023-06-08.https:/arxiv.org/abs/2007.0783411 OUYAN

46、G X,WANG S H,PANG C,et al.ERNIE-M:enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora EB/OL.2023-06-08.https:/arxiv.org/abs/2012.1567412 LUO F L,WANG W,LIU J H,et al.VECO:variable and flexible cross-lingual pre-training for language understanding and gen

47、eration EB/OL.2023-06-08.https:/arxiv.org/abs/2010.1604613 GUO J L,ZHANG Z R,XU L L,et al.Incorporating BERT into parallel sequence decoding with adapters C/Proceedings of the 34th International Conference on Neural Information Processing Systems.ACM,2020:1084310854.DOI:10.5555/3495724.349663414 VAS

48、WANI A,SHAZEER N,PARMAR N,et al.Attention is all You need C/Proceedings of the 31st International Conference on Neural Information Processing Systems.ACM,2017:6000 6010.DOI:10.5555/3295222.329534915 PAPINENI K,ROUKOS S,WARD T,et al.BLEU:a method for automatic evaluation of machine translation C/Proc

49、eedings of the 40th Annual Meeting on Association for Computational Linguistics-ACL 02.Association for Computational Linguistics,2001:311-318.DOI:10.3115/1073083.107313516 SHI S H,YANG Q,XIANG Y,et al.An efficient split fine-tuning framework for edge and cloud collaborative learning EB/OL.2023-06-08

50、.https:/arxiv.org/abs/2211.1670317 WANG A,SINGH A,MICHAEL J,et al.GLUE:a multi-task benchmark and analysis platform for natural language understanding C/Proceedings of the 2018 EMNLP Workshop BlackboxNLP:Analyzing and Interpreting Neural Networks for NLP.Association for Computational Linguistics,201

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 大规模语言模型联合训练关键技术

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。