生成式大模型安全与隐私白皮书.pdf

上传人：Stan****Shan

文档编号：1267754

上传时间：2024-04-19

格式：PDF

页数：60

大小：10.28MB

下载积分：20 金币

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

20 金币

下载 开通VIP

还剩页未读，继续阅读

举报
申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：
如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

特殊限制：
部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。

关键词：
生成模型安全隐私白皮书

资源描述：

生成式大模型安全与隐私白皮书The development of the Generative AI,e.g.,Large Language Models(LLM),have been popular in both academic and industrial communities on a worldwidescale,especially the ChatGPT series.The success of ChatGPT and GPT4 hasshown the future direction of developing AGI.However,large generative modelsalso suffer from the issue of data/model security and privacy.We should note thatlarge generative models would bring a lot of security and privacy problems,whenthey demonstrate great power in changing our life,such as data leaking and thepropagation of fake news.In this white paper,we first conclude the developmentof large generative models,including its effects and social influences.Then,wesummarize the current security and privacy problems in existing large generativemodels,e.g.,the data and model security,copyright problems,and ethical issues.Finally,we give the corresponding suggestions about the current security and privacyproblems.They can be employed to point out future research and develop directions,and can also be utilized as references for government decision-making.目录1序言12生成式大模型的发展之路12.1.ChatGPT 和 GPT4 的前身.12.1.1GPT1.12.1.2GPT2.42.1.3GPT3.52.1.4GPT3.5.72.1.5InstructGPT.82.1.6Google Bert.102.2.ChatGPT 和 GPT4.112.2.1ChatGPT.112.2.2GPT4.142.3.ChatGPT 和 GPT4 之后发布的模型.172.3.1Facebook：LLaMa.172.3.2Stanford：Alpaca.182.3.3百度：文心一言.182.3.4阿里：通义千问.192.3.5清华：ChatGLM.193生成式大模型引发的变革203.1.应用 1：助力人机交互.203.2.应用 2：助力信息资源管理.203.3.应用 3：助力科学研究.223.4.应用 4：助力内容创作.234生成式大模型存在的安全问题244.1.生成式大模型的数据安全.244.1.1生成式大模型使用过程中显式的隐私信息泄露.244.1.2生成式大模型使用过程中隐式的隐私信息泄露.244.2.生成式大模型的使用规范.264.2.1生成式大模型被用于虚假和恶意信息/软件编写.274.2.2生成式大模型违反当地法律法规.284.2.3生成式大模型没有预警机制.294.2.4生成式大模型安全优化不涉及灰色地带.294.3.生成式大模型的可信和伦理问题.304.3.1生成式大模型的可信问题.304.3.2生成式大模型的伦理问题。.314.4.生成式大模型的产权问题.354.4.1生成式大模型生成作品的著作权问题.354.4.2生成式大模型生成作品的侵权.364.4.3生成式大模型生成作品的维权.364.5.生成式大模型的模型安全.374.5.1模型窃取攻击.374.5.2数据窃取攻击.394.5.3对抗攻击.394.5.4后门攻击.404.5.5Prompt 攻击.414.5.6数据投毒.425生成式大模型存在的安全与隐私建议435.1.保护数据隐私的建议.435.2.模型安全问题的建议.455.3.模型合规性问题的建议.456AGI 的展望和安全规划467致谢481序言11序言OpenAI 于 2022 年 11 月 30 日开放测试 ChatGPT，此后 ChatGPT 风靡全球，在 1 月份的访问量约为 5.9 亿。AI 驱动的聊天机器人 ChatGPT 成为互联网发展二十年来增长速度最快的消费者应用程序。ChatGPT 和 GPT4 的诞生引发了生成式大模型的研发热潮，显示了人类迈向通用人工智能（AGI）的可能性。但在其备受追捧的同时，ChatGPT 等生成式大模型也面临 AI 自身数据和模型方面的安全隐患。我们应该意识到，在生成式大模型带来各种革命性的技术进步的同时，其自身带来的一系列安全与隐私问题也值得我们注意，例如引发的数据泄漏，助长虚假信息传播等。在本白皮书中，我们首先总结了 ChatGPT 与 GPT4等生成式大模型模型的发展历程，以及其带来的各种令人惊叹的能力和社会变革，社会应用等。而后，我们归纳了 ChatGPT 与 GPT4 等生成式大模型中存在的安全与隐私问题，包括数据安全，模型使用安全，版权问题，伦理问题等。最后，我们为应对这些安全与隐私问题提出了相应的应对策略，重点强调了日后亟需进行的研究和法规调整等。特别是为之后 AGI 技术的持续革新，起到未雨绸缪的预防。2生成式大模型的发展之路GPT（Generative Pre-trained Transformer）是一种基于 Transformer 模型的语言生成模型，由 OpenAI 团队开发。自 2018 年发布以来，GPT 系列模型已经成为自然语言处理领域的重要研究方向之一。图1概括了当前国内外有关 GPT 的研究现状。下面我们将先介绍 ChatGPT 与 GPT4 出现之前的模型，而后介绍 ChatGPT与 GPT4 的原理与特点，之后将列举在 ChatGPT 与 GPT4 之后涌现的一系列代表性生成式大模型。2.1.ChatGPT 和 GPT4 的前身如图2所示，本文将按照时间顺序介绍几种代表性的 GPT 方法。2.1.1GPT12017 年，Google 推出 Transformer，利用注意力机制完全替代过往深度学习中的卷积结构，直白地展现出了“大一统模型”的野心。2018 年 6 月，OpenAI 通过论文Improving Language Understanding by Generative Pre-Training47 推出了基于 Transformer Decoder 改造的第一代 GPT（Generative Pre-Training），该2.1.ChatGPT 和 GPT4 的前身2图 1:国内外生成式大模型研究现状总结图 2:GPT 系列模型的发展历程总结模型是最早的将 Transformer 以多层堆叠的方式构成语言模型的模型，有效证明了在自然语言处理领域上使用预训练和微调方式的有效性。类似地，在计算机视觉领域，先预训练后微调的方式盛行已久：先用海量有标注的数据集，通过有监督的训练生成一个预训练模型，然后通过下游任务，在这个模型上做微调。但是在自然语言处理中，这个方式一直很难做起来，原因是：缺乏大量标注好的文本数据集、2.1.ChatGPT 和 GPT4 的前身3图 3:GPT1 示意图比起图像信息，文字的信息更难被模型理解。Transformer 出世后，模型对文字上下文的理解能力得到显著增强，在这一铺垫下，GPT1 诞生了。如图3所示1，它的整体设计思路如下：首先，用无标注的数据（可以理解为一段普通的文字）训练一个预训练模型。在这个环节里，我们培养模型文字接龙的能力，也就是给定前 k 个词，模型能预测出第 k+1 个词。然后，在模型能够理解文字含义的基础上，用有标注的数据训练模型去定向做一些下游任务。例如文本分类，文本相似性比较等。有标注的数据集是远小于无标注数据集的，在这个环节，我们只是对模型做了一些微小的调整。（1）GPT1 的优缺点优点：GPT1 是第一个使用 Transformer 自回归模型的自然语言处理模型，可用于各种文本语言任务，如机器翻译，文本生成，对话生成等。缺点：GPT1 没有全面的站点，在处理复杂的对话任务中容易走样，并且其预测结果不太准确。（2）GPT1 的应用场景GPT1 是第一个使用 Transformer 神经网络架构的语言模型，它使用了极大的文本数据集进行预训练。它的训练数据包括预定义的文本领域，如天气、体育、新闻等。GPT1 采用自回归模型预测下一个词的出现概率，然后使用 Beam Search 算法生成下一句话。GPT1 在自建语料库上进行训练，训练得到的模型可用于各种下游任务，如基于任务的语言学习和对话生成等。1此图引用于https:/ 和 GPT4 的前身4图 4:GPT2 示意图2.1.2GPT22018 年 10 月 Google 推出基于 Transformer 编码器的 Bert 算法，在同样参数大小的前提下，其效果领跑于 GPT1，一时成为自然语言处理领域的领头羊。基于Transformer 的模型，模型和数据量越大，效果越好。但如果只做到这一点，从技术上来说又太逊色了，性价比也不高。因此，openAI 在 2019 年 02 月从训练数据上进行改进，引入了 zero-shot 这一创新点，GPT2（GPT1:110M，Bert:340M,，GPT2:1.5B）就诞生了 48，如图4所示2。GPT2 主要针对 zero-shot 问题，希望在完全不理解词的情况下建模，以便让模型可以处理任何编码的语言。下面我们将对其与 GTP1 的区别和自身的优缺点进行介绍。（1）相较于 GPT1 的改进GPT2 去掉了微调层：不再针对不同任务分别进行微调建模，而是不定义这个模型应该做什么任务，模型会自动识别出来需要做什么任务。在预训练部分基本与 GPT1 方法相同，在微调部分把第二阶段的有监督训练自然语言处理任务，换成了无监督训练任务，这样使得预训练和微调的结构完全一致。当问题的输入和输出均为文字时，只需要用特定方法组织不同类型的有标注数据即可代入模型，如对于问答使用“问题+答案+文档”的组织形式，对于翻译使用“英文+法文”形式。用前文预测后文，而非使用标注数据调整模型参数。这样既使用了统一的结构做训练，又可适配不同类型的任务。虽然学习速度较慢，但也能达到相对不错的效果。另外 GPT2 将 Transformer 堆叠的层数增加到 48 层，隐层的维度为 1600，参数量更是达到了 15 亿。2此图引用于https:/ 和 GPT4 的前身5（2）GPT2 的优缺点优点：GPT2 在 GPT1 的基础上进一步改进了模型，通过增加更多的参数（1.5 亿到 15 亿）来提高性能。同时 GPT2 可以生成更长的文本，更好地处理对话，并且有更好的通用性。缺点：GPT2 的训练数据来自于互联网，这意味着它存在垃圾数据和不当信息的问题。这使得它偶尔会生成不适当的回答。此外，GPT2 是封闭模型，无法对其进行修改或改进。（3）GPT2 的应用场景应用场景：在性能方面，除了理解能力外，GPT2 在生成方面第一次表现出了强大的天赋：阅读摘要、聊天、续写、编故事，甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。在“变得更大”之后，GPT2 的确展现出了普适而强大的能力，并在多个特定的语言建模任务上实现了彼时的最佳性能。2.1.3GPT3虽然预训练和微调在许多情况下效果显著，但是微调过程需要大量样本。这一框架不符合人类习惯，人类只需要少量的示例或任务说明就能适应一个新的自然语言处理下游任务。因此 OpenAI 于 2020 年 06 月推出了 GPT3 3，该模型延续了 GPT1 和 GPT2 基于 Transformer 的自回归语言模型结构，但 GPT3 将模型参数规模扩大至 175B，是 GPT2 的 100 倍，从大规模数据中吸纳更多的知识。如图5所示3，GPT3 不再追求 zero-shot 的设定，而是提出 In-Context Learning，在下游任务中模型不需要任何额外的微调，利用提示信息给定少量标注的样本让模型学习再进行推理生成，就能够在只有少量目标任务标注样本的情况下进行很好的泛化，再次证明大力出击奇迹，做大模型的必要性。（1）GPT3 的优缺点优点：与 GPT2 相比，GPT3 更加强大，它有 1750 亿个参数，并能够非常准确地执行一些任务，如语言翻译，问答与自动文本摘要。此外，GPT3 是开放模型，可供用户访问，并且可以进行迭代和改进。缺点：尽管 GPT3 功能强大，但在某些情况下仍会出现语义不清或不正确的回答，特别是对于特定领域的问题：1）当生成文本长度较长时，GPT3 还是会出现各种问题，比如重复生成一段话，前后矛盾，逻辑衔接不好等等；2）模型和结构的局限性，对于某一些任务，比如填空类型的文本任务，使用单3此图引用于https:/ 和 GPT4 的前身6图 5:GPT3 示意图向的自回归语言模型确实存在一定的局限性，这时候如果同时考虑上文和下文的话，效果很可能会更好一些；3）预训练语言模型的通病，在训练时，语料中所有的词都被同等看待，对于一些虚词或无意义的词同样需要花费很多计算量去学习，无法区分学习重点；4）样本有效性或者利用率过低，训一个模型几乎要把整个互联网上的文本数据全都用起来，这与我们人类学习时所需要的成本存在非常大的差异，这方面也是未来人工智能研究的重点；5）有一个不太确定的点是，模型到底是在“学习”还是在“记忆”？我们当然希望它能够学习，但是在使用数据量如此大的情况下，很难去判断它到底是什么样的；6）众所周知，GPT-3 的训练和使用成本都太大了；7）GPT-3 跟很多深度学习模型一样，都是不可解释的，没办法知道模型内部到底是如何作出一系列决策的；8）模型最终呈现的效果取决于训练数据，这会导致模型会出现各种各样的“偏见”。（2）GPT3 的应用场景GPT3 的应用领域十分广泛。其中最重要的运用之一是自然语言生成，它可以根据给定的前后文或主题，自动生成语言流畅、连贯、逻辑清晰的帖子、新闻报导、诗文、对话等文字。此外，GPT3 也可以进行文本分类、情感分析、机器翻译、问答等多种自然语言处理任务，这些任务表现往往与人类表现很接近甚至超过了人类表现。正由于 GPT3 这些强大的能力，以及其开源的特性，使得 GPT3 成为一个在 ChatGPT 模型诞生之前，被广泛使用的一个基座模型。在应用方面，GPT3 早已广泛应用于各种领域。比如，在教学领域，它能够为学生提供定制化的学习材料和回答，为教育行业带来更加智能、高效的教学模式。在商业领域，它可以用于智能客服、智能营销等场景，为用户提供更加人性化、高2.1.ChatGPT 和 GPT4 的前身7图 6:GPT3.5 示意图效的服务。在科技领域，它可以用于机器翻译、语音识别等场景，为人机交互带来更加便利的感受。在数据处理领域，它可以被用于一些结构化数据的分析，成为高效的数据分析师。然而，GPT3 也存在一些挑战和难题。最先，因为 GPT3 使用了大规模的训练数据和模型，其计算资源耗费特别大，必须运行在强悍的计算平台上。其次，GPT3还存在一些难题，比如针对一些特殊领域的语言逻辑水平有限，必须针对不同的领域开展专门的训练和优化。此外，GPT3 也存在一定的语言成见难题，可能会体现出一些社会、文化与性别上的成见。各种问题需要进一步的研究和处理。这些问题在之后的 GPT3.5 中得到了较大程度的缓解。2.1.4GPT3.5GPT3 纵然很强大，但是对于人类的指令理解的不是很好，这也就延伸出了GPT3.5 诞生的思路。在做下游的任务时，我们发现 GPT3 有很强大的能力，但是只要人类说的话不属于 GPT3 的范式，他几乎无法理解。如图6所示4，2022 年初 OpenAI 发布了 GPT3.5，该模型是在 GPT3 的基础上进一步优化了模型架构和训练技术，提高了模型的效率和泛化能力，同时减少了对大量数据和计算资源的依赖。具体来说，GPT3.5 引入了一种新的“分组稀疏注意力”（Grouped SparseAttention,GSA）的架构，可以在不影响模型性能的情况下减少计算量，同时还采用了“标准化知识蒸馏”（Normalized Knowledge Distillation,NKD）等技术来进一步提高模型的效率和精度。4此图引用于https:/ 和 GPT4 的前身8（1）GPT3.5 的优缺点优点：GPT3.5 与其他 NLP 模型相比，具备更高的效率和更快的处理速度。这使得它在实际应用场景中更为实用。例如，在自然语言生成、文本摘要、机器翻译等任务中，GPT3.5 表现出了非常出色的能力。它可以生成高质量的文本，其生成的文本的质量接近于人类写作。同时，在处理问答任务中，GPT3.5 的语言理解能力也非常出色，可以理解和回答各种类型的问题。此外，该模型还具备文本分类能力，可以对给定的文本进行分类，并且在这方面取得了很好的成绩。GPT3.5 不仅在这些传统的 NLP 任务上表现优异，它还可以在一些新兴领域得到应用，如自然语言生成、文本摘要、机器翻译等。该模型还具有一个独特的优势，即它可以自我学习、自我改进。这意味着随着时间的推移，它可以通过不断地接收新的数据和信息来增强自己的表现。这种能力被称为“元学习”。使用元学习方法，GPT3.5 可以在没有人类干预的情况下进行自我优化，从而提高其性能和效率。缺点：虽然 GPT3.5 是自然语言处理研究中的重要一步，但它并没有完全包含许多研究人员（包括 AI2）设想的所有理想属性。以下是 GPT3.5 不具备的某些重要属性：实时改写模型的信念、形式推理、从互联网进行检索。（2）GPT3.5 的应用场景模型采用了海量的数据训练，具有超过 1750 亿个参数，由于其参数量巨大，GPT3.5 可以用于一些需要深度学习模型支持的领域，如计算机视觉、语音识别等。相比于 GPT3，GPT3.5 在语言理解、生成和推理等方面表现更为出色，其能够进行更加复杂的自然语言处理任务。而与其他 NLP 模型相比，GPT3.5 具备更高的效率和更快的处理速度，这使得它在实际应用场景中更为实用。2.1.5InstructGPT2022 年 1 月 27 日 AI2（Allen Institute for Artificial Intelligence）发布了InstructGPT 24，如图7所示5，它建立在 GPT3 语言功能的基础上，但提高了它遵循指令的能力。采用基于人类反馈的强化学习来不断微调预训练语言模型，旨在让模型能够更好地理解人类的命令和指令含义，如生成小作文、回答知识问题和进行头脑风暴等。该方法不仅让模型学会判断哪些答案是优质的，而且可以确保生成的答案富含信息、内容丰富、对用户有帮助、无害和不包含歧视信息等多种标准。因此，RLHF 是一种有效的方法，可以帮助预训练语言模型不断提升性能和适应各种用户需求。5此图来源于https:/ 和 GPT4 的前身9图 7:InstructGPT 示意图（1）InstructGPT 的优缺点优点：InstructGPT 的效果比 GPT3 更加真实：因为 GPT-3 本身就具有非常强的泛化能力和生成能力，再加上 InstructGPT 引入了不同的 labeler 进行提示编写和生成结果排序，而且还是在 GPT-3 之上进行的微调，这使得在训练奖励模型时对更加真实的数据会有更高的奖励。InstructGPT 在模型的无害性上比 GPT-3 效果要有些许提升：原理同上。但是作者发现 InstructGPT在歧视、偏见等数据集上并没有明显的提升。这是因为 GPT3 本身就是一个效果非常好的模型，它生成带有有害、歧视、偏见等情况的有问题样本的概率本身就会很低。仅仅通过 40 个 labeler 采集和标注的数据很可能无法对模型在这些方面进行充分的优化，所以会带来模型效果的提升很少或者无法察觉。InstructGPT 具有很强的编码能力：首先 GP-3 就具有很强的 Coding 能力，基于 GP-3 制作的 API 也积累了大量的编码信息。而且也有部分 OpenAI的内部员工参与了数据采集工作。缺点：InstructGPT 会降低模型在通用 NLP 任务上的效果；对有害的指示可能会输出有害的答复。另外有时候 InstructGPT 会给出一些荒谬的输出：虽然 InstructGPT 使用了人类反馈，但限于人力资源有限。影响模型效果最大的还是有监督的语言模型任务，人类只是起到了纠正作用。所以很有可能受限于纠正数据的有限，或是有监督任务的误导（只考虑模型的输出，没考虑人类想要什么），导致它生成内容的不真实。并且模型对指示非常敏感：这个也可以归结为 labeler 标注的数据量不够，因为指示是模型产生输出的唯一线索，如果指示的数量和种类训练的不充分的话，就可能会让模型存在这个2.1.ChatGPT 和 GPT4 的前身10图 8:Bert 示意图问题。还可能存在模型对简单概念的过分解读：这可能是因为 labeler 在进行生成内容的比较时，倾向于给给长的输出内容更高的奖励。（2）InstructGPT 的应用场景与 GPT3 不同的是，InstructGPT 专注于解决指导型对话的任务。指导型对话是指一种对话形式，其中一个人（通常是教师或者专家）向另一个人（通常是学生或者用户）提供指导、解释和建议。在这种对话中，用户通常会提出一系列问题，而指导者则会针对这些问题提供详细的答案和指导。2.1.6Google BertGoogle 在 2018 年的论文BERT:Pre-training of Deep Bidirectional Trans-formers for Language Understanding10 中提出了 Bert 模型。如图8所示6，基于 Transformer 的双向编码表示，它是一个预训练模型，模型训练时的两个任务是预测句子中被掩盖的词以及判断输入的两个句子是不是上下句。在预训练好的BERT 模型后面根据特定任务加上相应的网络，可以完成 NLP 的下游任务。虽然BERT 是基于 Transformer 的，但是它只使用了 Transformer 的编码器部分，它的整体框架是由多层 Transformer 的编码器堆叠而成的。每一层的编码器则是由一层多头注意力机制和一层前向传播组成，大的模型有 24 层，每层 16 个注意力头，小的模型 12 层，每层 12 个注意力头。每个注意力头的主要作用是通过目标词与句子中的所有词汇的相关度，对目标词重新编码。所以每个注意力头的计算包括三个步骤：计算词之间的相关度，对相关度归一化，通过相关度和所有词的编码进行加权求和获取目标词的编码。在通过注意力头计算词之间的相关度时，首先通过三个权重矩阵对输入的序列向量(512*768)做线性变换，分别生成 Query、Key 和Value 三个新的序列向量，用每个词的 Query 向量分别和序列中的所有词的 key向量做乘积，得到词与词之间的相关度，然后这个相关度再通过 Softmax 函数进行归一化，归一化后的权重与 Value 加权求和，得到每个词新的编码。6此图来源于https:/arxiv.org/pdf/1810.04805.pdf2.2.ChatGPT 和 GPT411（1）Google Bert 的优缺点优点：Bert 的基础建立在 Transformer 之上，拥有强大的语言表征能力和特征提取能力。在 11 项 NLP 基准测试任务中达到了最优性能。同时再次证明了双向语言模型的能力更加强大。缺点：1、可复现性差，基本没法做，只能拿来主义直接用。2、训练过程中因为每个批次中的数据只有 15%参与预测，模型收敛较慢，需要强大的算力支撑。（2）Google Bert 的应用场景应用场景：Bert 可用于情感分类：通过用户对商品评价来对商品质量问题进行分析，比如是否新鲜、服务问题等；意图识别；问答匹配；槽位提取：BERT 后接 CRF 来做命名实体识别。2.2.ChatGPT 和 GPT42.2.1ChatGPTChatGPT 40 目前是一个可供大众使用和访问的模型，目前已经开放了网页版与 ios 版本。其中网页版的 ChatGPT 的使用链接为：https:/ 核心技术主要包括其具有良好的自然语言生成能力的大模型 GPT3.5以及训练这一模型的钥匙基于人工反馈的强化学习（RLHF）。GPT 家族是OpenAI 公司推出的相关产品，这是一种生成式语言模型，可用于对话、问答、机器翻译、写代码等一系列自然语言任务。每一代 GPT 相较于上一代模型的参数量均呈现出爆炸式增长。OpenAI 在 2018 年 6 月发布的 GPT 包含 1.2 亿参数，在2019 年 2 月发布的 GPT-2 包含 15 亿参数，在 2020 年 5 月发布的 GPT-3 包含1750 亿参数。与相应参数量一同增长的还有公司逐年积淀下来的恐怖的数据量。可以说大规模的参数与海量的训练数据为 GPT 系列模型赋能，使其可以存储海量的知识、理解人类的自然语言并且有着良好的表达能力。除了参数上的增长变化之外，GPT 模型家族的发展从 GPT-3 开始分成了两个技术路径并行发展 2，一个路径是以 Codex 为代表的代码预训练技术，另一个路径是以 InstructGPT 为代表的文本指令（Instruction）预训练技术。但这两个技术路径不是始终并行发展的，而是到了一定阶段后（具体时间不详）进入了融合式预训练的过程，并通过指令学习（Instruction Tuning）、有监督精调（SupervisedFine-tuning）以及基于人类反馈的强化学习（Reinforcement Learning with HumanFeedback，RLHF）等技术实现了以自然语言对话为接口的 ChatGPT 模型。2.2.ChatGPT 和 GPT412（1）ChatGPT 的优点ChatGPT 作为开年爆款产品，自发布以来不足三个月，就以其能力的全面性、回答的准确性、生成的流畅性、丰富的可玩性俘获了数以亿计的用户，其整体能力之强大令人惊叹。下面我们将从以下三个角度分别阐述 ChatGPT 相较于不同产品和范式的优点。1.相较于普通聊天机器人：ChatGPT 的发布形式是一款聊天机器人，类似于市场上其他聊天机器人（微软小冰、百度度秘等），也是直接对其下指令即可与人类自然交互，简单直接。但相较之下，ChatGPT 的回答更准确，答案更流畅，能进行更细致的推理，能完成更多的任务，这得益于 ChatGPT 自身具有以下三方面的能力：强大的底座能力：ChatGPT 基于 GPT3.5 系列的 Code-davinci-002 指令微调而成。而 GPT3.5 系列是一系列采用了数千亿的 token 预训练的千亿大模型，足够大的模型规模赋予了 ChatGPT 更多的参数量记忆充足的知识，同时其内含“涌现”的潜力，为之后的指令微调能力激发打下了坚实的基础；惊艳的思维链推理能力：在文本预训练的基础上，ChatGPT 的基础大模型采用 159G 的代码进行了继续预训练，借助代码分步骤、分模块解决问题的特性，模型涌现出了逐步推理的能力，在模型表现上不再是随着模型规模线性增长，有了激增，打破了 scalinglaw；实用的零样本能力：ChatGPT 通过在基础大模型上利用大量种类的指令进行指令微调，模型的泛化性得到了显著地激发，可以处理未见过的任务，使其通用性大大提高，在多种语言、多项任务上都可以进行处理。综上，在大规模语言模型存储充足的知识和涌现的思维链能力的基础上，Chat-GPT 辅以指令微调，几乎做到了知识范围内的无所不知，且难以看出破绽，已遥遥领先普通的聊天机器人。2.相较于其它大规模语言模型：相较于其它的大规模语言模型，ChatGPT 使用了更多的多轮对话数据进行指令微调，这使其拥有了建模对话历史的能力，能持续和用户交互。同时因为现实世界语言数据的偏见性，大规模语言模型基于这些数据预训练可能会生成有害的回复。ChatGPT 在指令微调阶段通过基于人类反馈的强化学习调整模型的输出偏好，使其能输出更符合人类预期的结果（即能进行翔实的回应、公平的回应、拒绝不当问题、拒绝知识范围外的问题），一定程度上缓解了安全性和偏见问题，使其更加耐用；同时其能利用真实的用户反馈不断进行 AI 正循环，持续增强自身和人类的这种对齐能力。这将使得其输出更安全的回复。2.2.ChatGPT 和 GPT4133.相较于微调小模型：在 ChatGPT 之前，利用特定任务数据微调小模型是近年来最常用的自然语言处理范式。相较于这种微调范式，ChatGPT 通过大量指令激发的泛化能力在零样本和少样本场景下具有显著优势，在未见过的任务上也可以有所表现。例如 ChatGPT 的前身 InstructGPT 指令微调的指令集中 96%以上是英语，此外只含有 20 种少量的其它语言（包含西班牙语、法语、德语等）。然而在机器翻译任务上，我们使用指令集中未出现的塞尔维亚语让 ChatGPT 进行翻译，仍然可以得到正确的翻译结果，这是在微调小模型的范式下很难实现的泛化能力。除此之外，作为大规模语言模型的天然优势使 ChatGPT 在创作型任务上的表现尤为突出，甚至强于大多数普通人类。（2）ChatGPT 的缺点固然 ChatGPT 在实际使用中表现惊艳，然而囿于大规模语言模型自身、数据原因、标注策略等局限，仍主要存在以下劣势：1.大规模语言模型自身的局限：身为大规模语言模型，ChatGPT 难免有着LLM 的通用局限，具体表现在以下几个方面：可信性无法保证：ChatGPT 的回复可能是在一本正经地胡说八道，语句通畅貌似合理，但其实完全大相径庭，目前模型还不能提供合理的证据进行可信性的验证；时效性差：ChatGPT 无法实时地融入新知识，其知识范围局限于基础大规模语言模型使用的预训练数据时间之前，可回答的知识范围有明显的边界；成本高昂：ChatGPT 基础大模型训练成本高、部署困难、每次调用花费不菲、还可能有延迟问题，对工程能力有很高的要求；在特定的专业领域上表现欠佳：大规模语言模型的训练数据是通用数据，没有领域专业数据，比如针对特定领域的专业术语翻译做的并不好；语言模型每次的生成结果是 beamsearch 或者采样的产物，每次都会有细微的不同。同样地，ChatGPT 对输入敏感，对于某个指令可能回答不正确，但稍微替换几个词表达同样的意思重新提问，又可以回答正确，其性能目前还不够稳定。2.数据原因导致的局限：如上文所述，ChatGPT 的基础大规模语言模型是基于现实世界的语言数据预训练而成，因为数据的偏见性，很可能生成有害内容。虽然 ChatGPT 已采用 RLHF 的方式大大缓解了这一问题，然而通过一些诱导，有害内容仍有可能出现。此外，ChatGPT 为 OpenAI 部署，用户数据都为 OpenAI所掌握，长期大规模使用可能存在一定的数据泄漏风险。2.2.ChatGPT 和 GPT4143.标注策略导致的局限：ChatGPT 通过基于人类反馈的强化学习使模型的生成结果更符合人类预期，然而这也导致了模型的行为和偏好一定程度上反映的是标注人员的偏好，在标注人员分布不均的情况下，可能会引入新的偏见问题。同样地，标注人员标注时会倾向于更长的答案，因为这样的答案看起来更加全面，这导致了 ChatGPT 偏好于生成更长的回答，在部分情况下显得冗长。此外，作为突围型产品，ChatGPT 确实表现优秀。然而在目前微调小模型已经达到较好效果的前提下，同时考虑到 ChatGPT 的训练和部署困难程度，ChatGPT 可能在以下任务场景下不太适用或者相比于目前的微调小模型范式性价比较低：（3）ChatGPT 的特点总结 ChatGPT 的通用性很强，对多种自然语言处理任务都有处理能力。然而针对特定的序列标注等传统自然语言理解任务，考虑到部署成本和特定任务的准确性，在 NLU 任务不需要大规模语言模型的生成能力，也不需要更多额外知识的前提下，如果拥有足够数据进行微调，微调小模型可能仍是更佳的方案；在一些不需要大规模语言模型中额外知识的任务上，例如机器阅读理解，回答问题所需的知识已经都存在于上下文中；由于除英语之外的其它语言在预训练语料库中占比很少，因此翻译目标非英文的机器翻译任务和多语言任务在追求准确的前提下可能并不适用；大规模语言模型的现实世界先验知识太强，很难被提示覆盖，这导致我们很难纠正 ChatGPT 的事实性错误，使其使用场景受限；对于常识、符号和逻辑推理问题，ChatGPT 更倾向于生成“不确定”的回复，避免直接面对问题正面回答。在追求唯一性答案的情况下可能并不适用；ChatGPT 目前还只能处理文本数据，在多模态任务上还无法处理。2.2.2GPT4GPT4 41 是继 ChatGPT 之后，OpenAI 又发布的一个强大模型。GPT4 的介绍和使用方式可见链接：https:/ ChatGPT-plus，以及通过 Bing 的聊天模式来体验使用 GPT4 模型。关于 GPT4 的训练细节，OpenAI 目前还未披露。他们的技术报告中没有包括有关架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法等的详细信息。我们所知道的是，GPT4 是一种基于转换器的生成多模态模型，使用公开可用的数据和经许可的第三方数据进行训练，然后使用 RLHF 进行微调。有趣的是，OpenAI 分享了有关其升级的 RLHF 技术的细节，以使模型的响应更准确，并且不太可能偏离安全防护栏。2.2.ChatGPT 和 GPT415在训练策略模型后（与 ChatGPT 类似），RLHF 在对抗性训练中使用，这个过程是训练模型对恶意示例进行欺骗，以便在未来保护模型免受此类示例的影响。在 GPT4 的情况下，跨多个领域的人类领域专家对策略模型对抗性提示的响应进行评分。然后使用这些响应来训练额外的奖励模型，以逐步微调策略模型，从而得到一个更不可能提供危险、回避或不准确的响应的模型。（1）GPT4 与 GPT3.5下面将从几个不同的角度对 GPT4 与之前的 GPT3.5 进行比较。1、模型规模。相较于 GPT3.5 的 1750 亿个参数，GPT4 的参数达到了 5000亿个（也有报道为 1 万亿），GPT4 的规模比 GPT3.5 更大。更大的规模通常意味着更好的性能，能够生成更复杂、更准确的语言。2、训练数据。GPT3.5 使用了来自维基百科、新闻报道、网站文章等互联网上的大量文本数据，大小为 45TB 左右。而 GPT4 则使用了更大量的网页、书籍、论文、程序代码等文本数据，同时还使用了大量的可视数据。尽管无法考究具体数值，但毫无疑问，GPT4 的训练数据比 GPT3.5 更丰富。这使得 GPT4 具备更广泛的知识，回答也更具针对性。3、模态与信息。GPT3.5 是基于文本的单模态模型，无论是图像、文本、音频，用户只能输入一种文本类型的信息。而 GPT4 是一个多模态模型,可以接受文本和图像的提示语（包括带有文字和照片的文件、图表或屏幕截图）。这使得 GPT4 可以结合两类信息生成更准确的描述。在输入信

展开阅读全文

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

关于本文

本文标题：生成式大模型安全与隐私白皮书.pdf
链接地址：https://www.zixin.com.cn/doc/1267754.html

Stan****Shan

内容提供者实名认证

平台协调中心【客服】

相似文档自信AI助手

工作总结8个字怎么写.docx
工作计划和目标有什么区别.docx
电信运营商智能化体系白皮书.pdf
工作一个月工作总结怎么写简短.docx
工作总结的八字成语怎么写.docx
广东教师招聘考试教育学心理学试题2.doc
人力资源管理心理学案例分析.ppt
员工个人销售月工作计划范文.pdf

搜索标签自信AI导航

生成模型安全隐私 白皮书