从ChatGPT谈大语言模型及其应用.pdf

上传人：自信****多点

文档编号：924275

上传时间：2024-04-07

格式：PDF

页数：5

大小：2.16MB

《从ChatGPT谈大语言模型及其应用.pdf》由会员分享，可在线阅读，更多相关《从ChatGPT谈大语言模型及其应用.pdf（5页珍藏版）》请在咨信网上搜索。

1、特稿从ChatGPT谈大语言模型及其应用刘挺（哈尔滨工业大学计算学部社会计算与信息检索研究中心黑龙江哈尔滨1 5 0 0 0 1）中图分类号H002文献标识码A文章编号2 0 9 6-1 0 1 4（2 0 2 3）0 5-0 0 1 4-0 5DO110.19689/10-1361/h.20230501一、引言互联网、物联网、大数据的迅猛发展使信息空间得以与物质空间、精神空间并列，构成三元空间。人工智能技术在信息空间里对海量数据进行加工处理，其结果反过来作用于物质空间和精神空间。大语言模型（以下简称“大模型”）出现后，机器可以自动生成数据，这些数据真真假假，既丰富了信息空间，也污染了信息空间

2、，其对三元世界所构成的影响难以估量。二、大模型技术人工智能经历了4 次高潮。第三次高潮是2 0 1 0 年前后由深度学习推动的。2 0 2 2 年1 1 月，OpenAI发布由大模型支持的ChatGPT-3.5，标志着人工智能第四次高潮的到来。大模型所属的学术方向是人工智能下的自然语言处理，GPT（生成式预训练转换器）在GPT-3及以前都是自然语言处理业内关注的技术，而以GPT-3.5为基础的ChatGPT则因为惊人的人机对话能力而出圈，受到世界范围内各个行业的追捧。GPT是语言的生成模型，简单地说就是根据上文预测下一个“词”，如此往复不断地生成下一个词，就连词成句，连句成篇，超预期地回答出用

3、户的问题。为什么GPT能够产生这样的突破性进展呢？关键的奥秘在于：通过挖词构造带有标准答案的填空题，毫无成本地产生无限量的训练数据，让机器在努力学习解答填空题的过程中获得通用的语言智能。这种机器学习方式既有别于有监督学习一一因为不需要人工标注数据，又有别于无监督学习一因为有标准答案，兼具有标准答案和无人工成本的优点，被称为自监督学习。此外，用低维、连续、稠密的向量而不是符号表达语义也是大模型取得突破的重要原因。传统上我们把词视为符号，但符号与符号是孤立的，需要额外建立知识库去定义符号之间的关系，而词向量作者简介：刘挺，男，哈尔滨工业大学长聘教授，主要研究方向为人工智能、自然语言处理、大语言模型

4、和社会计算。电子邮箱：。14从 ChatGPT 谈大语言模型及其应用刘挺_ 特稿则是根据“观其伴知其义”的原则自动从海量文本数据中计算得来，根据词向量可以判断“桌子”和“板凳”的语义距离，比“桌子”和“西红柿”的语义距离更近，据此叠加推演，可以计算句子语义、篇章语义。当然，大数据和高算力也是重要原因。ChatGPT内部有1 7 5 0 亿参数，其量级比人类大脑神经元的数量还高出一个数量级。量变产生质变，“涌现”现象出现了。此外，指令精调、人类反馈强化学习等也都是助推ChatGPT取得革命性突破的原因。大模型能够很好地回答用户的问题，有些答案比人回答的更好。从问答的角度，可以把大模型与数据库、搜

5、索引擎进行对比。数据库以结构化的方式（比如二维表）存储信息，用标准的查询语言（比如SQL）进行访问，用户访问数据库的方式是不自然的。搜索引擎以非结构化的方式存储数据（比如网页、视频等），用户可以比较自由地用关键词表达自已的搜索请求，但表达仍然是不充分不自然的，检索结果是未经加工的原始信息。大模型将其收集到的全部信息以参数化的方式存储，允许用户用人们最熟悉的自然语言语句自由充分地表达其对信息的需求，大模型理解用户的意图并基于模型内部复杂的参数系统全新地生成段落、篇章作为答案。由于答案是机器针对用户的特定提问自动编写出来的，而不是找出来的，因此是能够充分满足用户特定信息需求的，但同时也存在出现“幻

6、觉”的风险。总的来说，ChatGPT本质上是一个由1 7 5 0 亿个浮点数参数表示的深度神经网络大模型，是一个对话式AI系统，它首次实现了语言智能的智慧涌现，在海量信息的全量在线记忆、任意任务的对话式理解、复杂逻辑的思维链推理、多角色多风格长文本生成和即时新知学习与进化等5 个方面取得了重大突破。三、大模型的影响从解决语言问题的不同层面，可以把自然语言处理的发展分为4 个阶段：形式、语义、推理和语用。传统的搜索引擎解决了形式匹配的问题，但是，要用不同形式表达相同的含义，就需要语义分析了，比如在电信客服场景下，“请查一下我的话费余额”（标准问法）和“我还剩多少钱了”（口语问法）就是一个含义，这

7、是形式匹配所无法解决的。语言中的深层含义是字面上无法获知的，比如用户评论“这家五星级宾馆，没有游泳池”，其情感倾向是负面的，这需要基于“五星级宾馆一般有游泳池”这条知识进行推理才能得出结论。自然语言处理的最高境界是理解文字背后的弦外之音，比如“他可了不起了”，是不是真心夸赞，需要充分了解上下文背景才能确定。笔者编了一句话，问ChatGPT：“想来想去，只有一种职业不会受到ChatGPT的威胁-民。这句话什么含义？”ChatGPT回答：“这句话有些讽刺意味，暗示了人工智能的发展可能导致一些人失去工作，而无业游民却不受其影响。”ChatGPT已经能够理解讽刺，说明在大模型的推动下，自然语言处理处于

8、从“推理”向“语用”迈进的阶段。从自然语言处理的研究范式来看，1 9 5 0 1 9 9 0 年占主导地位的是小规模专家知识，1 9 9 0 2 0 1 0年是浅层机器学习，2 0 1 0 2 0 1 7 是深度学习，2 0 1 9 2 0 2 2 是预训练语言模型，2 0 2 3 年开始进人大模型时代。进人深度学习阶段，不再需要人工的特征工程了；进入预训练模型时期，大规模的数据不需15办一无业游语言战略研究2023年第5 期总第4 7 期要人工标注了；进入大模型时代，各种语言处理任务均统一为生成任务。大模型时代，自然语言处理诸多任务（问答、翻译、文本生成、信息抽取等）的边界被打破了，一个大模

9、型能够胜任诸多任务，还能较好地处理未曾见过的新任务。原来“丛林式”的自然语言处理研究格局，瞬间演变为“大树式”的模式，树根是“大模型”，树干很矮，包含多项特定任务，枝叶茂密，深人到千行百业，是大模型的应用。ChatGPT不但打破了自然语言处理研究的格局，而且将对社会产生深刻影响。2 0 2 3 年3 月，人类简史作者尤瓦尔赫拉利接受三联生活周刊采访，他说：“人类文化基于语言。而因为人工智能已经破解了语言，它现在可以开始创造文化。人类将开始适应由非人类实体创造的文化。而且，由于文化是人类的操作系统，这意味着人工智能将能够改变人类思考、感受和行为的方式。”埃隆马斯克认为，ChatGPT好得吓人，我

10、们离危险的强人工智能不远了。美国作家、Robust.AI公司创始人加里马库斯也说，生成式人工智能将对社会结构产生切实的、迫在眉睫的威胁。四、大模型的未来大模型并非绝对完美，围绕对大模型的改进还有很多研究工作要做，主要包括弥补大模型的不足，推广大模型的应用，探究大模型的机理等3 个方面。大模型的不足存在于多个方面：（1）事实一致性不足，时常出现“幻觉”。从本质上讲，大模型不是在查找信息，而是把海量数据变成了参数，再重新生成文本。在生成的过程中就会有编造“事实”的可能性。（2）逻辑一致性的不足。在多轮对话中，大模型时而失去对人和事物内在逻辑的把控。（3）需要的数据量和算力资源过大，导致训练和应用过

11、程耗资巨大，大多数研究机构和企业都无法承受。余不细述。为了弥补大模型的不足，未来一段时期，以下问题呕待研究：如何提高生产文本的可信性；如何对机器人进行角色化，让机器生产的话语符合特定角色的身份、性格特点和语言风格；如何让机器更懂某个特定用户，并提供个性化的服务；如何在一些严肃领域（比如医疗）打破数据孤岛，使用私有数据进行训练；如何对模型进行裁剪或压缩，使得模型趋于小型化，以便于应用；如何从多模态数据（图像、视频、语音等）获取更丰富的信息；如何通过数据拆分与重组、工程优化和P2P训练等手段提升训练效率；如何通过算力网把分散在多地的算力资源统一使用起来；等等。在通用大模型的基础上，如何与各个行业、

12、各个场景结合，利用领域大数据训练出行业大模型，是多数科研机构和企业未来的工作重点。行业有两大类：一类是人与数据互动比较多的行业，如教育、医疗、金融等，这些行业里有丰富的场景需要人的参与，大模型可以直接派上用场；另一类是物与数据互动比较多的行业，比如制造业、电力、农业、交通等行业，在这些行业，大模型只能对行业知识的挖掘、问答发挥作用，而对行业中的生产、流通过程如何发挥作用尚需探索。大模型的效果的确大幅度地超越了以往的自然语言处理技术，但能否满足严肃场景（如医疗、法律、军事等）下人类使用者的要求，能否突破最后一公里，真正落地，为行业带来价值，仍然有待观察与实践。人类历史上各种发明创造都是在弄清了原

13、理的情况下产生的，但大模型是一个例外。智慧涌现16从 ChatGPT谈大语言模型及其应用刘挺特稿了，这是事实，但包括ChatGPT的发明人在内，谁都没能准确地解释大模型的机理。通过全方位的评测去探索大模型的内在机理，是未来一段时期的重要研究课题五、大模型给认知安全带来的挑战ChatGPT能够自动回答人们的问题，当人们对ChatGPT产生依赖时，ChatGPT的观点就会对用户的认知产生影响，从而带来认知安全上的挑战。认知是指人们获得知识或应用知识的过程，或信息加工的过程，这是人的最基本的心理过程，它包括感觉、知觉、记忆、思维、想象和语言等。认知安全是指人的意志、信念、思维、心理等精神因素的安全。

14、认知安全包括诸多层面，如知识、心理、道德（价值观）、法律、政治等。例如，知识错误，或者陈述不符合事实；认知扭曲，说出的话走极端或者非常情绪化；观点不符合主流价值观，或者与当时当地的文化习俗相背离；用户的提问或机器的答复违背法律法规；内容反动，危害国家安全。凡此种种，均可视为有害信息，对中国公众的认知安全构成威胁。党的二十大报告强调“打造强大战略威慢力量体系，增加新域新质作战力量比重，加快无人智能作战力量发展，统筹网络信息体系建设运用”。网络战、舆论战就是典型的新域新质作战，与传统的陆海空天战争形态相比，是悄无声息、没有硝烟的战场，也是在和平年代却每时每刻都在进行的战斗。而舆论战与网络战又不同，

15、其战斗不是发生在“外在的信息层面”，而是通过信息空间在“内在的意识层面”进行斗争，其隐蔽性、渗透性更强。奥论战中，语言成为武器，而今的大模型能够自动回答问题，发表评论，撰写文章，使语言武器自动化了，其带来的风险难以估量。为了维护中国公民的认知安全，迫切需要加强对有害信息的自动识别、自动反驳与纠正技术的研究。如果是国产大模型，则还要对模型进行内容安全性的自我过滤，避免由于训练数据中存在不良信息或模型的“幻觉”，导致输出有害信息。六、大模型时代的语言资源建设大模型是建立在语言大数据基础上的，语言大数据不只是语言符号串的集合，更是人类知识、经验的宝库。如同一个民族的基因大数据是这个民族的生物遗传密码

16、一样，一个民族的语言大数据包含着这个民族的思想密码、文化密码、历史密码。即时的语言大数据还包含着当前社会的政治经济动态，对一个国家而言是非常宝贵的财富。真正高质量的语言数据并非都是能够在互联网上随意抓取的，它们蕴藏在各个部门、各个企事业单位的私有数据库中，对这些数据的保护应该像对基因数据的保护一样，引起我们的高度重视。同时，在研发国有通用大模型的过程中，又需要把散落在各处的高质量语言大数据集中起来使用，确保中国自有的中文大模型在世界上的领先地位。同时，大模型是没有语种边界的，为了争夺国际话语权，为了进一步拓展国际经贸往来，中国也需要有意识地采集、保存、整理海量的多语种数据资源，既包括世界主要语

17、言，也包括小语种。各国17语言战略研究2023年第5 期总第4 7 期各民族的语言大数据蕴含着各自的文化、历史和当前的政治经济状况，对于我们研究区域国别学至关重要，对于构建中国强大的多语种大模型至关重要。当前，人们正在试图通过算力网络把散布在各地的算力集中调配，同样，散布在各地的语言大数据能够通过标准制定，通过对语言大数据的评估、定价，促进共享、交易，使国内的语言大数据被国内大模型研发机构充分使用，发挥出语言数据作为新的生成要素的重要作用，也值得有关人士深入探讨。大模型能够生成非常连贯而有逻辑性的语篇，其对语言自身规律的掌握已经达到甚至超过普通人的水平。但是，对语言所负载的知识、经验，尤其是道

18、德、文化、价值观等的把握，大模型还需要向人学习。因此，未来的语言资源加工，更多的不是对语言自身词法句法语义结构的标注，而是对语言所负载的信息的人工标注，在ChatGPT的研制过程中，包括“提示Prompt”的构造，包括人类反馈强化学习（RLHF）等都有人的充分参与，值得我们借鉴。七、结语ChatGPT横空出世，其惊艳的问答效果，把自然语言处理的水平拉到了一个远超预期的高度，不但让AI业内人士惊诉地看到了通用人工智能的曙光，也让千行百业看到了通用人工智能可能给自已所在行业带来的重大机遇与挑战。ChatGPT的出现引起我们的深刻反思：到底什么是语言？语言相关的工作者（包括语言学家和自然语言处理专家）未来的努力方向在哪里？为什么中国没有率先发明出大模型来？虽然还有诸多困惑，但大模型时代已经来临，我们必须擦亮眼晴，直面现实，总体规划布局，充分交叉协作，在保证数据安全、认知安全的前提下，大力研制国产大模型，并推动其各行业落实，为中国的经济发展、社会繁荣做出贡献。责任编辑：王飙18

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: ChatGPT 语言模型及其应用

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。