欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    大规模语言模型:从理论到实践.pdf

    • 资源ID:1289716       资源大小:24.78MB        全文页数:296页
    • 资源格式: PDF        下载积分:25金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要25金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    开通VIP
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    大规模语言模型:从理论到实践.pdf

    1、大规模语言模型从理论到实践张奇 桂韬 郑锐 萱菁 著预览版2023 年 9 月 10 日前言2018 年 Google 的研究团队开创性地提出了预训练语言模型 BERT1,该模型在诸多自然语言处理任务中展现了卓越的性能。这激发了大量以预训练语言模型为基础的自然语言处理研究,也引领了自然语言处理领域的预训练范式的兴起。然而,尽管这一变革影响深远,但它并没有改变每个模型只能解决特定问题的基本模式。2020 年,OpenAI 发布了 GPT-3 模型,其在文本生成任务上的能力令人印象深刻,并在许多少标注(Few-shot)的自然语言处理任务上取得了优秀的成绩。但是,其性能并未超越专门针对单一任务训练

    2、的有监督模型。之后,研究者们陆续提出了针对大语言模型(Large Language Model,LLM)的提示词(Prompt)学习方法,并在各式各样的自然语言处理任务中进行了试验,同时也提出了模型即服务范式(Model as a Service,MaaS)概念。然而,在大部分情况下,这些方法的性能并未明显地超过基于预训练微调范式的模型。所以,这些方法的影响主要还是局限在自然语言处理的研究人员群体中。2022 年 11 月,ChatGPT 的问世展示了大语言模型的强大潜能,并迅速引起了广泛关注。Chat-GPT 能够有效理解用户需求,并根据上下文提供恰当的回答。它不仅可以进行日常对话,还能够完

    3、成复杂任务,如撰写文章、回答问题等。令人惊讶的是,所有这些任务都由一个模型完成。在许多任务上,ChatGPT 的性能甚至超过了针对单一任务进行训练的有监督算法。这对于人工智能领域具有重大意义,并对自然语言处理研究产生了深远影响。然而,由于 OpenAI 并未公开 ChatGPT的详细实现细节,整体训练过程包括语言模型、有监督微调、类人对齐等多个方面,这些方面之间还存在大量的关联,这对于研究人员在自然语言处理基础理论和机器学习基础理论上要求很高。此外,大语言模型的参数量非常庞大,与传统的自然语言处理研究范式完全不同。使用大语言模型还需要分布式并行计算的支持,这对自然语言处理算法研究人员又进一步提

    4、高了要求。为了使得更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大语言模型和理论基础,并开展大语言模型实践,结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,我们在大语言模型实践和理论研究的过程中,历时 8 个月完成本书。希望这本书能够帮助读者快速入门大语言模型的研究和应用,并解决相关技术挑战。自然语言处理的研究历史可以追溯到 1947 年,当时第一台通用计算机 ENIAC 刚刚问世。自然语言处理经历了 20 世纪 50 年代末到 60 年代初的初创期,20 世纪 70 年代到 80 年代的理性主义时代,20 世纪 90 年代到 21 世纪初的经验主义时

    5、代,以及 2006 年至今的深度学习时代。自 2017年 Transformer 模型2提出并在机器翻译领域取得巨大成功后,自然语言处理进入了爆发式的发ii 大规模语言模型:从理论到实践-张奇、桂韬、郑锐、黄萱菁展阶段。2018 年,动态词向量 ELMo3模型开启了语言模型预训练的先河。随后,以 GPT4和BERT1为代表的基于 Transformer 模型的大规模预训练语言模型相继提出,自然语言处理进入了预训练微调的新时代。2019 年,OpenAI 发布了拥有 15 亿参数的 GPT-2 模型4,2020 年,Google发布了拥有 110 亿参数的 T5 模型。同年,OpenAI 发布了

    6、包含 1750 亿参数的 GPT-3 模型5,从而开启了大语言模型的时代。直到 2022 年 11 月,ChatGPT 的问世将大语言模型的研究推向了新的高度,引发了大语言模型研究的热潮。尽管大语言模型的发展历程只有不到五年的时间,但其发展速度相当惊人。截至 2023 年 6 月,国内外已经发布了超过百种大语言模型。大语言模型的研究融合了自然语言处理、机器学习、分布式计算、并行计算等多个学科领域。其发展历程可以分为基础模型阶段、能力探索阶段和突破发展阶段。基础模型阶段主要集中在 2018年至 2021 年期间,期间发布了一系列代表性的大语言模型,如 BERT、GPT、百度 ERNIE、华为盘古

    7、-、Palm 等。这些模型的发布为大语言模型的研究打下了基础。能力探索阶段主要发生在 2019年至 2022 年期间。由于大语言模型在针对特定任务上微调方面存在一定困难,研究人员开始探索如何在不进行单一任务微调的情况下发挥大语言模型的能力。同时,研究人员还开始尝试指令微调(Instruction Tuning)方案,将各种类型的任务统一为生成式自然语言理解框架,并使用构造的训练语料对模型进行微调。突破发展阶段以 2022 年 11 月 ChatGPT 的发布为起点。ChatGPT 通过一个简单的对话框,利用一个大语言模型就能够实现问题回答、文稿撰写、代码生成、数学解题等多种任务,而以往的自然语

    8、言处理系统需要使用多个小模型进行定制开发才能分别实现这些能力。ChatGPT 在开放领域问答、各类生成式自然语言任务以及对话理解等方面展现出的能力远超过大多数人的想象。这些阶段的发展推动了大语言模型的突破,为自然语言处理研究带来了巨大的进展,并在各个领域展示了令人瞩目的成果。本书围绕大语言模型构建的四个主要阶段:预训练、有监督微调、奖励建模和强化学习,详细介绍各阶段使用的算法、数据、难点以及实践经验。预训练,需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能 GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络参数的训练。这一阶段的核心难点在于如何构建训练数据以及如何高

    9、效地进行分布式训练。有监督微调阶段利用少量高质量的数据集,其中包含用户输入的提示词(Prompt)和对应的理想输出结果。提示词可以是问题、闲聊对话、任务指令等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键,其核心难点在于如何构建训练数据,包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系以及训练数据的规模。奖励建模阶段的目标是构建一个文本质量对比模型,用于对于同一个提示词,对有监督微调模型给出的多个不同输出结果进行质量排序。这一阶段的核心难点在于如何限定奖励模型的应用范围以及如何构建训练数据。强化学习阶段根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户

    10、提示词补全结果的质量进行评估,并与语言模型建模目标综合得到更好的效果。这一阶段的难点在于解决强化学习方法稳定性不高、超参数众多以及模型收敛困难等问题。除了大语言模型的构建,本书还进一步介绍了大语言模型的应用和评估方法。主要内容包括如何将大语言模型与外部工具和知识源进iii行连接、如何利用大语言模型进行自动规划完成复杂任务,以及针对大语言模型的各类评估方法。本书旨在为对大语言模型感兴趣的读者提供一个入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分补充教材。鉴于大语言模型的研究仍在快速发展阶段,许多方面尚未达成完整结论或普遍共识。在撰写本书时,我们力求全面展现大模型研究的

    11、各个方面,并避免给出没有广泛共识的观点和结论。大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算等众多领域。因此,建议读者在阅读本书之前,首先系统地学习深度学习和自然语言处理的相关课程。在分布式计算和异构计算方面,读者需要具备基本的概念。如果希望在大语言模型训练和推理方面进行深入研究,还需要系统学习分布式系统、并行计算、CUDA 编程等相关知识。本书的写作过程得到了众多专家和同学的大力支持和帮助。特别感谢陈璐、陈天泽、陈文翔、窦士涵、葛启明、郭昕、赖文斌、柳世纯、汪冰海、奚志恒、许诺、张明、周钰皓等同学(按照拼音排序)为本书撰写提供的帮助。大语言模型研究进展之快,让在自然语言处理领域

    12、开展了近三十年工作的我们也难以适从。其研究之火爆程度令人咋舌,自然语言处理领域重要国际会议 EMNLP,2022年语言模型相关论文投稿占比只有不到 5%。然而,2023 年语言模型相关投稿则超过了 EMNLP 整体投稿的 20%。如何能够兼顾大语言模型的基础理论,又能够在快速发展的各种研究中选择最具有代表性的工作介绍给大家,是本书写作中面临的最大挑战之一。虽然本书写作时间只有 8 个月,但是章节内部结构也是几易其稿,经过几次大幅度调整和重写。受限于我们的认知水平和所从事的研究工作的局限,对其中一些任务和工作的细节理解可能存在不少错误,也恳请专家、读者批评指正!张奇2023 年 9 月于复旦曦园

    13、数学符号数与数组标量向量A矩阵A张量Inn 行 n 列单位矩阵vw单词 w 的分布式向量表示ew单词 w 的独热向量表示:0,0,.,1,0,.0,w 下标处元素为 1索引i向量 中索引 i 处的元素i向量 中除索引 i 之外的元素wi:j序列 w 中从第 i 个元素到第 j 个元素组成的片段或子序列Aij矩阵 A 中第 i 行、第 j 列处的元素Ai:矩阵 A 中第 i 行A:j矩阵 A 中第 j 列Aijk三维张量 A 中索引为(i,j,k)处元素A:i三维张量 A 中的一个二维切片集合A集合R实数集C复数集0,1,.,n含 0 和 n 的正整数的集合a,ba 到 b 的实数闭区间(a,b

    14、a 到 b 的实数左开右闭区间v线性代数A矩阵 A 的转置A B矩阵 A 与矩阵 B 的 Hadamard 乘积det(A)矩阵 A 的行列式x;y向量 x 与 y 的拼接U;V 矩阵 A 与 V 沿行向量拼接x y 或 xy向量 x 与 y 的点积微积分dydxy 对 x 的导数?y?xy 对 x 的偏导数xyy 对向量 x 的梯度Xyy 对矩阵 X 的梯度Xyy 对张量 X 的梯度概率与信息论a b随机变量 a 与 b 独立a b|c随机变量 a 与 b 关于 c 条件独立P(a)离散变量概率分布p(a)连续变量概率分布a P随机变量 a 服从分布 PExP(f(x)或E(f(x)f(x)

    15、在分布 P(x)下的期望Var(f(x)f(x)在分布 P(x)下的方差Cov(f(x),g(x)f(x)与 g(x)在分布 P(x)下的协方差H(f(x)随机变量 x 的信息熵DKL(P Q)概率分布 P 与 Q 的 KL 散度N(,)均值为、协方差为 的高斯分布vi 大规模语言模型:从理论到实践-张奇、桂韬、郑锐、黄萱菁数据与概率分布X 或 D数据集x(i)数据集中第 i 个样本(输入)y(i)或 y(i)第 i 个样本 x(i)的标签(输出)函数f:A B由定义域 A 到值域 B 的函数(映射)ff gf 与 g 的复合函数f(x;)由参数 定义的关于 x 的函数(也可以直接写作 f(x

    16、),省略)logxx 的自然对数函数(x)Sigmoid 函数11+exp(x)|x|px 的 Lp范数|x|x 的 L2范数1condition条件指示函数:如果 condition 为真,则值为 1;否则值为 0本书中常用写法 给定词表 V,其大小为|V|序列 x=x1,x2,.,xn中第 i 个单词 xi的词向量 vxi 损失函数 L 为负对数似然函数:L()=P(x,y)logP(y|x1.xn)算法的空间复杂度为 O(mn)目 录1 绪论.11.1 大规模语言模型基本概念.11.2 大规模语言模型发展历程.41.3 大规模语言模型构建流程.61.4 本书的内容安排.112 大语言模型

    17、基础.132.1 Transformer 模型.132.1.1 嵌入表示层.152.1.2 注意力层.162.1.3 前馈层.182.1.4 残差连接与层归一化.192.1.5 编码器和解码器结构.192.2 生成式预训练语言模型 GPT.242.2.1 无监督预训练.242.2.2 有监督下游任务微调.262.2.3 基于 HuggingFace 的预训练语言模型实践.262.3 大语言模型结构.312.3.1 LLaMA 的模型结构.322.3.2 注意力机制优化.373 语言模型训练数据.453.1 数据来源.453.1.1 通用数据.463.1.2 专业数据.47viii 大规模语言模

    18、型:从理论到实践-张奇、桂韬、郑锐、黄萱菁3.2 数据处理.483.2.1 低质过滤.483.2.2 冗余去除.493.2.3 隐私消除.503.2.4 词元切分.513.3 数据影响分析.563.3.1 数据规模影响.563.3.2 数据质量影响.593.3.3 数据多样性影响.613.4 开源数据集合.633.4.1 Pile.633.4.2 ROOTS.663.4.3 RefinedWeb.673.4.4 SlimPajama.704 分布式训练.744.1 分布式训练概述.744.2 分布式训练并行策略.774.2.1 数据并行.784.2.2 模型并行.814.2.3 混合并行.89

    19、4.2.4 计算设备内存优化.904.3 分布式训练的集群架构.944.3.1 高性能计算集群硬件组成.954.3.2 参数服务器架构.964.3.3 去中心化架构.974.4 DeepSpeed 实践.1024.4.1 基础概念.1044.4.2 LLaMA 分布式训练实践.1075 有监督微调.1185.1 提示学习和语境学习.1185.1.1 提示学习.1185.1.2 语境学习.120目 录 ix5.2 高效模型微调.1215.2.1 LoRA.1215.2.2 LoRA 的变体.1245.3 模型上下文窗口扩展.1265.3.1 具有外推能力的位置编码.1275.3.2 插值法.12

    20、85.4 指令数据构建.1305.4.1 手动构建指令.1305.4.2 自动生成指令.1315.4.3 开源指令数据集.1345.5 Deepspeed-Chat SFT 实践.1365.5.1 代码结构.1375.5.2 数据预处理.1395.5.3 自定义模型.1415.5.4 模型训练.1435.5.5 模型推理.1446 强化学习.1456.1 基于人类反馈的强化学习.1456.1.1 强化学习概述.1456.1.2 强化学习与有监督学习的区别.1476.1.3 基于人类反馈的强化学习流程.1496.2 奖励模型.1506.2.1 数据收集.1506.2.2 模型训练.1526.2.

    21、3 开源数据.1546.3 近端策略优化.1546.3.1 策略梯度.1556.3.2 广义优势估计.1596.3.3 近端策略优化算法.1616.4 MOSS-RLHF 实践.1666.4.1 奖励模型训练.1676.4.2 PPO 微调.168x 大规模语言模型:从理论到实践-张奇、桂韬、郑锐、黄萱菁7 大语言模型应用.1777.1 推理规划.1777.1.1 思维链提示(Chain-of-Thought Prompting).1777.1.2 由少至多提示(Least-to-Most Prompting).1807.2 综合应用框架.1817.2.1 LangChain 框架核心模块.1

    22、827.2.2 知识库问答实践.1987.3 智能代理.2007.3.1 智能代理的组成.2007.3.2 智能代理的应用实例.2037.4 多模态大模型.2087.4.1 模型架构.2097.4.2 数据收集与训练策略.2127.4.3 多模态能力示例.2167.5 大语言模型推理优化.2177.5.1 FastServe 框架.2197.5.2 vLLM 推理框架实践.2218 大语言模型评估.2248.1 模型评估概述.2248.2 大语言模型评估体系.2268.2.1 知识与能力.2268.2.2 伦理与安全.2288.2.3 垂直领域评估.2338.3 大语言模型评估方法.2388.

    23、3.1 评估指标.2398.3.2 评估方法.2468.4 大语言模型评估实践.2528.4.1 基础模型评估.2528.4.2 SFT/RL 模型评估.2571.绪论大规模语言模型(Large Language Models,LLM),也称大规模语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标注文本进行训练。自 2018 年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括 BERT1,GPT6等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。2019 年大模型呈现爆发式的增长,特别是

    24、2022 年 11 月 ChatGPT(Chat Generative Pre-trained Transformer)发布后,更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互,从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。大型语言模型展现出了强大的对世界知识掌握和对语言的理解。本章主要介绍大规模语言模型基本概念、发展历程和构建流程。1.1 大规模语言模型基本概念语言是人类与其他动物最重要的区别,而人类的多种智能也与此密切相关。逻辑思维以语言的形式表达,大量的知识也以文字的形式记录和传播。如今,互联网上已经拥有数万亿以上的网页资源,其中大部分信息都是以自然语言描述

    25、。因此,如果人工智能算法想要获取知识,就必须懂得如何理解人类使用的不太精确、可能有歧义、混乱的语言。语言模型(Language Model,LM)目标就是建模自然语言的概率分布。词汇表 V 上的语言模型,由函数 P(w1w2.wm)表示,可以形式化地构建为词序列 w1w2.wm的概率分布,表示词序列 w1w2.wm作为一个句子出现的可能性大小。由于联合概率 P(w1w2.wm)的参数量十分巨大,直接计算 P(w1w2.wm)非常困难7。按照现代汉语词典(第七版)包含 7 万单词,句子长度按照 20 个词计算,模型参数量达到 7.97921096的天文数字。中文的书面语中超过 100 个单词的句

    26、子也并不罕见,如果要将所有可能都纳入考虑,模型的复杂度还会进一步急剧增加,无法进行存储和计算。为了减少 P(w1w2.wm)模型的参数空间,可以利用句子序列通常情况下从左至右的生成过2 大规模语言模型:从理论到实践-张奇、桂韬、郑锐、黄萱菁程进行分解,使用链式法则得到:P(w1w2.wm)=P(w1)P(w2|w1)P(w3|w1w2)P(wm|w1w2.wm1)=mYi=1P(wi|w1w2wi1)(1.1)由此,w1w2.wm的生成过程可以看作单词逐个生成的过程。首先生成 w1,之后根据 w1生成 w2,再根据 w1和 w2生成 w3,以此类推,根据前 m1 个单词生成最后一个单词 wm。

    27、例如:对于句子“把努力变成一种习惯”的概率计算,使用公式1.1可以转化为:P(把 努力 变成 一种 习惯)=P(把)P(努力|把)P(变成|把 努力)P(一种|把 努力 变成)P(习惯|把 努力 变成 一种)(1.2)通过上述过程将联合概率 P(w1w2.wm)转换为了多个条件概率的乘积。但是,仅通过上述过程模型的参数空间依然没有下降,P(wm|w1w2.wm1)的参数空间依然是天文数字。为了解决上述问题,可以进一步假设任意单词 wi出现的概率只与过去 n 1 个词相关,即:P(wi|w1w2.wi1)=P(wi|wi(n1)wi(n2).wi1)P(wi|wi11)=P(wi|wi1in+1

    28、)(1.3)满足上述条件的模型被称为n 元语法或n 元文法(n-gram)模型。其中 n-gram 表示由 n 个连续单词构成的单元,也被称为n 元语法单元。尽管 n 元语言模型能缓解句子概率为 0 的问题,但语言是由人和时代创造的,具备无穷的可能性,再庞大的训练语料也无法覆盖所有的 n-gram,而训练语料中的零频率并不代表零概率。因此,需要使用平滑技术(Smoothing)来解决这一问题,对所有可能出现的字符串都分配一个非零的概率值,从而避免零概率问题。平滑是指为了产生更合理的概率,对最大似然估计进行调整的一类方法,也称为数据平滑(Data Smoothing)。平滑处理的基本思想是提高低

    29、概率,降低高概率,使整体的概率分布趋于均匀。这类方法通常称为统计语言模型(Statistical Language models,SLM)。相关平滑算法细节可以参考自然语言处理导论第 6 章8。n 语法模型整体上来看与训练语料规模和模型的阶数有较大的关系,不同的平滑算法在不同情况下的表现有较大的差距。平滑算法虽然较好的解决了零概率问题,但是基于稀疏表示的 n 元语言模型仍然有三个较为明显的缺点:(1)无法建模长度超过 n 的上下文;(2)依赖人工设计规则的平滑技术;(3)当 n 增大时,数据的稀疏性随之增大,模型的参数量更是指数级增加,并且模型受到数据稀疏问题的影响,其参数难以被准确的学习。此

    30、外,n 语法中单词的离散表示也忽略了单词之间的相似性。因此,基于分布式表示和神经网络的语言模型逐渐成为了研究热点。Bengio 等人在 2000 年提出了使用前馈神经网络对 P(wi|win+1.wi1)进行估计的语言模型9。词的独热绪论 3编码被映射为一个低维稠密的实数向量,称为词向量(Word Embedding)。此后,循环神经网络10、卷积神经网络11、端到端记忆网络12等神经网络方法都成功应用于语言模型建模。相较于 n 元语言模型,神经网络方法可以在一定程度上避免数据稀疏问题,有些模型还可以避免对历史长度的限制,从而更好的建模长距离依赖关系。这类方法通常称为神经语言模型(Neural

    31、 Language Models,NLM)。深度神经网络需要采用有监督方法,使用标注数据进行训练,因此,语言模型的训练过程也不可避免需要构造训练语料。但是由于训练目标可以通过无标注文本直接获得,从而使得模型的训练仅需要大规模无标注文本即可。语言模型也成为了典型的自监督学习(Self-supervised Learning)任务。互联网的发展,使得大规模文本非常容易获取,因此训练超大规模的基于神经网络的语言模型也成为了可能。受到计算机视觉领域采用 ImageNet13对模型进行一次预训练,使得模型可以通过海量图像充分学习如何提取特征,然后再根据任务目标进行模型精调的范式影响,自然语言处理领域基于

    32、预训练语言模型的方法也逐渐成为主流。以 ELMo3为代表的动态词向量模型开启了语言模型预训练的大门,此后以 GPT4和 BERT1为代表的基于 Transformer 模型2的大规模预训练语言模型的出现,使得自然语言处理全面进入了预训练微调范式新时代。将预训练模型应用于下游任务时,不需要了解太多的任务细节,不需要设计特定的神经网络结构,只需要“微调”预训练模型,即使用具体任务的标注数据在预训练语言模型上进行监督训练,就可以取得显著的性能提升。这类方法通常称为预训练语言模型(Pre-trained Language Models,PLM)。2020 年 Open AI 发布了包含 1750 亿参

    33、数的生成式大规模预训练语言模型 GPT-3(GenerativePre-trained Transformer 3)5。开启了大规模语言模型的时代。由于大规模语言模型的参数量巨大,如果在不同任务上都进行微调需要消耗大量的计算资源,因此预训练微调范式不再适用于大规模语言模型。但是研究人员发现,通过语境学习(Incontext Learning,ICL)等方法,直接使用大规模语言模型就可以在很多任务的少样本场景下取得了很好的效果。此后,研究人员们提出了面向大规模语言模型的提示词(Prompt)学习方法、模型即服务范式(Model as a Service,MaaS)、指令微调(Instructio

    34、n Tuning)等方法,在不同任务上都取得了很好的效果。与此同时,Google、Meta、百度、华为等公司和研究机构都纷纷发布了包括 PaLM14、LaMDA15、T016等为代表的不同大型语言模型。2022 年底 ChatGPT 的出现,将大规模语言模型的能力进行了充分的展现,也引发了大规模语言模型研究的热潮。Kaplan 等人在文献 17 中提出了缩放法则(Scaling Laws),指出模型的性能依赖于模型的规模,包括:参数数量、数据集大小和计算量,模型的效果会随着三者的指数增加而线性提高。如图1.1所示,模型的损失(Loss)值随着模型规模的指数增大而线性降低。这意味着模型的能力是可

    35、以根据这三个变量估计的,提高模型参数量,扩大数据集规模都可以使得模型的性能可预测地提高。这为继续提升大模型的规模给出了定量分析依据。4 大规模语言模型:从理论到实践-张奇、桂韬、郑锐、黄萱菁图 1.1大规模语言模型的缩放法则(Scaling Laws)171.2 大规模语言模型发展历程大规模语言模型的发展历程虽然只有短短不到五年的时间,但是发展速度相当惊人,截止2023年6月,国内外有超过百种大模型相继发布。中国人民大学赵鑫教授团队在文献18按照时间线给出 2019 年至 2023 年 5 月比较有影响力并且模型参数量超过 100 亿的大规模语言模型,如图1.2所示。大规模语言模型的发展可以粗

    36、略的分为如下三个阶段:基础模型、能力探索、突破发展。图 1.2大规模语言模型发展时间线18绪论 5基础模型阶段主要集中于 2018 年至 2021 年,2017 年 Vaswani 等人提出了 Transformer2架构,在机器翻译任务上取得了突破性进展。2018 年 Google 和 Open AI 分别提出了 BERT1和 GPT-16模型,开启了预训练语言模型时代。BERT-Base 版本参数量为 1.1 亿,BERT-Large 的参数量为 3.4 亿,GPT-1 的参数量 1.17 亿。这在当时,相比其它深度神经网络的参数量已经是有数量级上提升。2019 年 Open AI 又发布

    37、了 GPT-24,其参数量达到了 15 亿。此后,Google 也发布了参数规模为 110 亿的 T519模型。2020 年 Open AI 进一步将语言模型参数量扩展到 1750 亿,发布了 GPT-35。此后,国内也相继推出了一系列的大规模语言模型,包括清华大学 ERNIE(THU)20、百度 ERNIE(Baidu)21、华为盘古-22等。这个阶段研究主要集中语言模型本身,包括仅编码器(Encoder Only)、编码器-解码器(Encoder-Decoder)、仅解码器(Decoder Only)等各种类型的模型结构都有相应的研究。模型大小与 BERT 相类似的算法,通常采用预训练微调

    38、范式,针对不同下游任务进行微调。但是模型参数量在 10 亿以上时,由于微调的计算量很高,这类模型的影响力在当时相较 BERT 类模型有不小的差距。能力探索阶段集中于 2019 年至 2022 年,由于大规模语言模型很难针对特定任务进行微调,研究人员们开始探索在不针对单一任务进行微调的情况下如何能够发挥大规模语言模型的能力。2019 年 Radford 等人在文献 4 就使用 GPT-2 模型研究了大规模语言模型在零样本情况下的任务处理能力。在此基础上,Brown 等人在 GPT-35模型上研究了通过语境学习(In-Context Learning)进行少样本学习的方法。将不同任务的少量有标注的

    39、实例拼接到待分析的样本之前输入语言模型,使用语言模型根据实例理解任务并给出正确结果。在包括 TriviaQA、WebQS、CoQA 等评测集合都展示出了非常强的能力,在有些任务中甚至超过了此前的有监督方法。上述方法不需要修改语言模型的参数,模型在处理不同任务时无需花费的大量计算资源进行模型微调。但是仅依赖基于语言模型本身,其性能在很多任务上仍然很难达到有监督学习效果,因此研究人员们提出了指令微调(Instruction Tuning)23方案,将大量各类型任务,统一为生成式自然语言理解框架,并构造训练语料进行微调。大规模语言模型一次性学习数千种任务,并在未知任务上展现出了很好的泛化能力。202

    40、2 年 Ouyang 等人提出了使用有监督微调再结合强化学习方法,使用少量数据有监督就可以使得大规模语言模型服从人类指令的 InstructGPT 算法24。Nakano 等人则探索了结合搜索引擎的问题回答算法 WebGPT25。这些方法从直接利用大规模语言模型进行零样本和少样本学习的基础上,逐渐扩展到利用生成式框架针对大量任务进行有监督微调的方法,有效提升了模型的性能。突破发展阶段以 2022 年 11 月 ChatGPT 的发布为起点。ChatGPT 通过一个简单的对话框,利用一个大规模语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量小模型订制开发才能

    41、分别实现的能力。它在开放领域问答、各类自然语言生成式任务以及对话上文理解上所展现出来的能力远超大多数人的想象。2023 年 3 月 GPT-4 发布,相较于ChatGPT 又有了非常明显的进步,并具备了多模态理解能力。GPT-4 在多种基准考试测试上的得分高于 88%的应试者,包括美国律师资格考试(Uniform Bar Exam)、法学院入学考试(Law School6 大规模语言模型:从理论到实践-张奇、桂韬、郑锐、黄萱菁Admission Test)、学术能力评估(Scholastic Assessment Test,SAT)等。它展现了近乎“通用人工智能(AGI)”的能力。各大公司和研

    42、究机构也相继发布了此类系统,包括 Google 推出的 Bard、百度的文心一言、科大讯飞的星火大模型、智谱 ChatGLM、复旦大学 MOSS 等。表1.1和表1.2分别给出了截止 2023 年 6 月典型开源和未开源大规模语言模型的基本情况。可以看到从 2022 年开始大模型呈现爆发式的增长,各大公司和研究机构都在发布各种不同类型的大模型。1.3 大规模语言模型构建流程根据 OpenAI 联合创始人 Andrej Karpathy 在微软 Build 2023 大会上所公开的信息,OpenAI 所使用的大规模语言模型构建流程如图1.3所示。主要包含四个阶段:预训练、有监督微调、奖励建模、强

    43、化学习。这四个阶段都需要不同规模数据集合、不同类型的算法,产出不同类型的模型,所需要的资源也有非常大的差别。原始数据数千亿单词:图书、百科、网页等语言模型训练基础模型预训练数据集合算法模型资源需求1000+GPU月级别训练时间标注用户指令数万用户指令和对应的答案语言模型训练SFT 模型1-100GPU天级别训练时间有监督微调标注对比对百万量级标注对比对二分类模型RM 模型1-100GPU天级别训练时间奖励建模用户指令十万量级用户指令强化学习方法RL 模型1-100GPU天级别训练时间强化学习图 1.3OpenAI 使用的大规模语言模型构建流程预训练(Pretraining)阶段需要利用海量的训

    44、练数据,包括互联网网页、维基百科、书籍、GitHub、论文、问答网站等,构建包含数千亿甚至数万亿单词的具有多样性的内容。利用由数千块高性能GPU 和高速网络组成超级计算机,花费数十天完成深度神经网络参数训练,构建基础语言模型(Base Model)。基础大模型构建了长文本的建模能力,使得模型具有语言生成能力,根据输入的提示词(Prompt),模型可以生成文本补全句子。也有部分研究人员认为,语言模型建模过程中也隐含的构建了包括事实性知识(Factual Knowledge)和常识知识(Commonsense)在内的世界知识(World Knowledge)。根据文献 46 介绍,GPT-3 完成

    45、一次训练的总计算量是 3640PFlops,按照NVIDIA A100 80G 和平均利用率达到 50%计算,需要花费近一个月时间使用 1000 块 GPU 完成。绪论 7表 1.1典型开源大规模语言模型汇总模型名称发布时间模型参数量基础模型模型类型预训练数据量T5192019 年 10 月110 亿-语言模型1 万亿 TokenmT5262020 年 10 月130 亿-语言模型1 万亿 TokenPanGu-222021 年 4 月130 亿-语言模型1.1 万亿 TokenCPM-2272021 年 6 月1980 亿-语言模型2.6 万亿 TokenT0282021 年 10 月110

    46、 亿T5指令微调模型CodeGen292022 年 3 月160 亿-语言模型5770 亿 TokenGPT-NeoX-20B302022 年 4 月200 亿-语言模型825GB 数据OPT312022 年 5 月1750 亿-语言模型1800 亿 TokenGLM322022 年 10 月1300 亿-语言模型4000 亿 TokenFlan-T5232022 年 10 月110 亿T5指令微调模型-BLOOM332022 年 11 月1760 亿-语言模型3660 亿 TokenGalactica342022 年 11 月1200 亿-语言模型1060 亿 TokenBLOOMZ3520

    47、22 年 11 月1760 亿BLOOM指令微调模型-OPT-IML362022 年 12 月1750 亿OPT指令微调模型-LLaMA372023 年 2 月652 亿-语言模型1.4 万亿 TokenMOSS2023 年 2 月160 亿Codegen指令微调模型-ChatGLM-6B322023 年 4 月62 亿GLM指令微调模型-Alpaca382023 年 4 月130 亿LLaMA指令微调模型-Vicuna392023 年 4 月130 亿LLaMA指令微调模型-Koala402023 年 4 月130 亿LLaMA指令微调模型-Baize412023 年 4 月67 亿LLaM

    48、A指令微调模型-Robin-65B422023 年 4 月652 亿LLaMA语言模型-BenTsao432023 年 4 月67 亿LLaMA指令微调模型-StableLM2023 年 4 月67 亿LLaMA语言模型1.4 万亿 TokenGPT4All442023 年 5 月67 亿LLaMA指令微调模型-MPT-7B2023 年 5 月67 亿-语言模型1 万亿 TokenFalcon2023 年 5 月400 亿-语言模型1 万亿 TokenOpenLLaMA2023 年 5 月130 亿-语言模型1 万亿 TokenGorilla452023 年 5 月67 亿MPT/Falcon

    49、指令微调模型-RedPajama-INCITE2023 年 5 月67 亿-语言模型1 万亿 TokenTigerBot-7b-base2023 年 6 月70 亿-语言模型100GB 语料悟道天鹰2023 年 6 月330 亿-语言模型和指令微调模型Baichuan-7B2023 年 6 月70 亿-语言模型1.2 万亿 TokenBaichuan-13B2023 年 7 月130 亿-语言模型1.4 万亿 TokenBaichuan-Chat-13B2023 年 7 月130 亿Baichuan-13B指令微调模型-LLaMA22023 年 7 月700 亿-语言模型和指令微调模型2.0

    50、万亿 Token8 大规模语言模型:从理论到实践-张奇、桂韬、郑锐、黄萱菁表 1.2典型闭源大规模语言模型汇总模型名称发布时间模型参数量基础模型模型类型预训练数据量GPT-32020 年 5 月1750 亿-3000 亿 TokenERNIE 3.02021 年 7 月100 亿-3750 亿 TokenFLAN2021 年 9 月1370 亿LaMDA-PTX-Yuan 1.02021 年 10 月2450 亿-1800 亿 TokenAnthropic2021 年 12 月520 亿-4000 亿 TokenGLaM2021 年 12 月12000 亿-2800 亿 TokenLaMDA2


    注意事项

    本文(大规模语言模型:从理论到实践.pdf)为本站上传会员【Stan****Shan】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png