ChatGPT与知识生产和复用:赋能、挑战与治理.pdf
《ChatGPT与知识生产和复用:赋能、挑战与治理.pdf》由会员分享,可在线阅读,更多相关《ChatGPT与知识生产和复用:赋能、挑战与治理.pdf(9页珍藏版)》请在咨信网上搜索。
1、2023年第3期园书与情報前沿与热点ChatGPT与知识生产和复用:赋能、挑战与治理*张超1-2 韩1-2 王芳1.2(1.南开大学网络社会治理研究中心天津30 0 0 7 1)(2.南开大学商学院信息资源管理系天津30 0 0 7 1)摘要:大型语言模型CPT经历了多次选代,具有多模态文本生成、推理能力强和多领域通用等优势。ChatCPT及其迭代版本多模态GPT-4的发布,颠覆了人类对人工智能生成内容(Artificial IntelligenceGeneratedContent,AIGC)的认知,打破了只有部分人类能够生产知识的局面,促进了多元知识的融合,催生了人机双向赋能的新型知识生产方
2、式,提升了知识搜索和知识评估的效率和质量,扩展了知识要素重新组合的空间和选择,为知识生产和复用方式提供了新的工具和手段,对人类知识生产和复用过程产生了变革性的影响。然而,技术的进步也会带来学术伦理规范争议,知识权威性降低和话语权力不平衡加剧等挑战。面对新一轮挑战,应进一步建立健全知识产权保障体系、减少对AIGC的过度依赖、加强AIGC治理、突出人类在知识生产与复用中的核心作用,以避免潜在的风险和威胁。关键词:ChatGPT;人工智能生成内容;知识生产;知识复用中图分类号:TP18;G302ChatGPT and Knowledge Production and Reuse:Empowermen
3、t,Challenges andGovernanceAbstract The large language model GPT has experienced several iterations and has the advantages of multi-modal textgeneration,strong reasoning ability and multi-domain generality.The release of ChatGPT and its iteration,MultimodalGPT-4,overturned human perception of Artific
4、ial intelligence-generated Content(AIGC)and broke the situation thatonly some humans can produce knowledge.It promotes the integration of multiple knowledge,gives birth to a newknowledge production mode with human-machine two-way enabling,improves the efficiency and quality of knowledgesearch and kn
5、owledge evaluation,expands the space and choice of knowledge element recombination,provides newtools and means for knowledge production and reuse,and has a transformative impact on the process of human knowl-edge production and reuse.However,the progress of technology will also bring challenges such
6、 as the controversy overacademic ethics,the reduction of knowledge authority and the intensification of discourse power imbalance.In the faceof a new round of challenges,we should further establish and improve the intellectual property protection system,re-duce excessive reliance on AIGC,and highlig
7、ht the core role of humans in knowledge production and reuse to avoidpotential risks and threats.Key words ChatGPT;artificial intelligence generated content;AIGC;knowledge production;knowledge reuse文献标识码:AD0I:10.11968/tsyqb.1003-6938.2023038人工智能生成内容(Artificial Intelligence Gener-atedContent,A I G C)
8、是目前最引人注目的前沿技术之一,虽然尚未形成统一规范的定义,但产学研各界普遍认为AIGC是利用人工智能技术根据用户的个性化需求自动生成内容(如文本、图像和视频)的新型生产方式-2。随着AIGC算法的迭代发展,美国人工智能公司OpenAI于2 0 2 2 年11月30 日发布了ChatGPT(Chat Generative Pre-trained Transformer)。作为AIGC的技术代表,ChatCPT不仅可以生成类似人类的对话,还可以完成包括论文撰写、报告内容生成、新闻编辑、情感分析、代码编写、多语言翻译、答题解析等多种高难度任务 3。这为人类知识的快速生产和广泛复用提供了可能,同时也
9、意味着Chat-CPT技术打破了只有人类能够生产和复用知识的局*本文系国家社会科学基金重大项目“基于数据共享与知识复用的数字政府智能化治理研究”(项目编号:2 0 ZDA039)研究成果之一。收稿日期:2 0 2 3-0 6-17;通讯作者:王芳();责任编辑:刘婷522023年第3期面 4,推动知识生产与知识复用方式的变革,标志着情形下直接输人自然语言当作指示,并具备了可以新一轮技术革命的开启。连续回答问题的能力 13。2 0 2 2 年,在GPT-3模型的目前GPT系列语言模型已从GPT-1送代到基础上进行优化后,OpenAI推出了ChatGPT模型,GPT-4。作为一种通用式的人工智能模
10、型,ChatGPT该模型引人人工标注数据和强化学习两项功能,根已在多个不同的领域得到了广泛的应用,包括教育、据手动标记语言模型产生的最佳回应以优化其在医疗、科研等。有报道称,ChatGPT在美国医师执照特定任务中的表现,同时通过近端策略优化算法考试中成绩均达到要求,且生成的答案具有洞察力 5。进行微调,使其表现得更接近真人 14。2 0 2 3年,0 pen此外,在学术界,已有学者通过与ChatGPT的交互进AI发布了最新的GPT-4语言模型,其使用多模态行论文写作,并将其列为共同作者进行科学论文的预训练大模型,相比于GPT-3具备了更强大的解决发表 6。这些应用说明ChatGPT已在知识生产
11、与知问题的能力,可以接受图像作为输入信息,通过视觉识复用方面发挥着重要作用。然而,ChatGPT强大的输人能力整合信息,并实现场景分析、多模态文本输创造力是一把双刃剑,给社会各领域知识生产和知出等功能 15。识复用带来颠覆性影响和深层次变革的同时,也隐1.1ChatGPT 背后的重要技术藏着技术、伦理等方面的风险。以埃隆马斯克和苹CPT系列语言模型之所以具备强大的泛化能力果公司联合创始人史蒂夫沃兹尼亚克(SteveWozni-与自然语言处理能力,离不开以Transformer模型为ak)为主要代表的科技界人士联名呼吁暂停训练比基础的技术架构。Transformer模型的巨大潜力带来了GPT-4
12、更强大的人工智能模型 7;意大利个人数据保GPT系列语言模型在自然语言理解和自然语言生成护局发表声明,宣布禁止使用ChatCPT(8。基于此,本两方面的技术突破,该模型可以帮助探索自然语言文在对ChatGPT核心技术及其特征优势进行阐述的空间和形式表示空间的内在联系 16。有研究表明,在基础上,探讨ChatCPT给人类知识生产和知识复用NLP领域,Transformer模型逐渐统一了所有应用 17,带来的影响与挑战,为思考ChatGPT的影响和挑战而在Transformer模型中,注意力机制(Attention提供一个新的切入点。Mechanism)、多头注意力以及编码器-解码器(En-cod
13、er-Decoder)的结构发挥着核心作用,可以协助1ChatGPT背后的重要技术及其特征优势GPT系列语言模型实现强大的自然语言处理功能。ChatGPT具有多项强大功能,是深度学习、无监注意力机制是由Treisman等人提出的一种模拟督学习、指令微调、多任务学习、上下文学习和强化人脑注意力机制的模型 18,它可以帮助确定需要关学习等多种技术的集成 9。其核心技术是生成式预训注哪些输人信息,并将有限的信息处理资源分配给练Transformer模型 GPT(G e n e r a t iv e Pr e-t r a in e d最重要的部分,以此来充分分析输入信息。GPT模Transformer
14、)101。2 0 18 年,GPT-1作为GPT系列语言型引人的自注意力机制,也就是将有限的资源分配模型的开端,采用生成式预训练Transformer模型,给最重要的部分来处理信息,它通过给予输人序列通过利用未经标记的语料库进行语言模型的生成中不同位置的不同权重,使得模型能够在处理序列式预训练,并针对各个特定任务进行差异性的微调,数据时有选择地关注重要的部分 17,极大程度地避显著提升了自然语言理解和生成的能力 11。2 0 19 年,免了在神经网络中使用递归,进而大大减少了在实GPT-2对模型训练数据的质量和规模有了较大的提际应用中所花费的时间,提高了对信息生成、整合、升,重点解决了CPT-
15、1在下游任务使用时需要监督输出的效率。微调训练的问题,进一步提升了生成式预训练语言多头注意力机制是对传统的注意力机制进行了模型的泛化能力 12。2 0 2 0 年,OpenAI发布了GPT-3,扩展和改进。在传统的注意力机制中,只存在单一的该模型参数高达17 50 亿个。在技术路线上去掉了注意力权重计算,而多头注意力机制引入了多个并行GPT-1的微调步骤,可以在不需要特定任务训练的的注意力头(attentionhead),每个注意力头都可以学53张超,韩娆,王芳.ChatGPT与知识生产和复用:赋能、挑战与治理 J.图书与情报,2 0 2 3(3):52-6 0习不同的关注权重,进而寻找在不同
16、子空间中分布的不同注意力的不同角度的关联 19。GPT系列语言模型利用多头注意力机制,通过同时使用多个独立的头部,使其能够关注不同的信息,并从中提取更加全面和丰富的特征 2 0,这样可以提升模型的性能和泛化能力,在处理复杂的关系和长序列数据时更加有效,进而实现其强大的自然语言理解、处理能力。为了避免循环与重复的卷积,CGPT模型中还采用了编码器-解码器的结构,这一架构包含了连续堆叠的6 层编码器和解码器。通过编码器和解码器的组合,Transformer模型能够处理从序列到序列的任务,如文章续写、机器翻译等工作。编码器将输人序列编码为上下文感知的特征表示,解码器则根据这些表示逐步生成目标序列。该
17、架构的优势在于能够并行计算和捕捉长距离的依赖关系,同时减少了对序列长度的敏感性 2 1,减少了重复卷积所带来的相关资源浪费以及算力不足的问题。1.2ChatGPT 的训练ChatGPT通过引人“人工标注数据+强化学习”的方法来持续微调预训练语言模型【14,同时使用训练奖励模型(reward model,RM)。训练奖励模型的主要目的是利用人工标注的训练数据来训练回报模型 2 2。具体而言,随机抽样一批用户提交的输人指令,使用经过人类反馈强化学习微调的模型对每个输人指令生成多个不同的回答。然后将这些数据两两组合,并由标注人员按照不同维度的标准进行排序,给出结果的排名顺序。使用这个排序结果数据来训
18、练回报模型,以帮助ChatGPT更好地理解人类的偏好,并在生成回答时更好地符合这些偏好。对于训练好的奖励模型,ChatGPT采用近端策略优化算法(ProximalPolicyOptimization,PPO)来更新预训练模型的参数。通过在数据集中随机抽取问题,在近端策略优化模型中生成回答,并利用训练好的奖励模型给出回答的质量分数,通过强化学习的方式更新PPO模型的参数,通过迭代,会训练出更高质量的预训练模型。1.3ChatGPT 的优势特征ChatCPT最初面向大众时是基于GPT-3.5模型,目前GPT系列的最新版本是基于大规模预训练54的CPT-4模型,可根据文本和图像的多模态输人,将人工标
19、记和强化学习训练相结合,完成各种对话任务。如它可以理解人类的各种指令,完成文本生成、代码编写和修改、图像字幕、图表推理、论文总结等任务。其突出的表现能力可总结如下:一是多模态(语言和图像)理解和文本生成。继承自预训练语言模型的能力,ChatGPT/GPT-4可通过文本和图像的提示来准确理解用户的意图,并将其转化为计算机可以处理的形式 15。这种能力使得ChatCPT/GPT-4能够应用于各种自然语言处理任务,如文本分类、命名实体识别、情感分析等 2 3。此外,ChatCPT可以接收一个初始句子,并以自回归的方式逐步生成连贯的语言,包括摘要生成、长篇文章的自动生成等长文本的场景。并且在回答问题、
20、机器翻译、总结和润色文本等多项文本生成任务中的表现已经达到或超过了人类水平 2 4。二是推理能力强,可模拟人类语言特征。Chat-GPT的训练数据是从真实人类使用的语言中提取的,模型通过学习大量的语料库,可以开发出类似于人类的语言特征,表现出与真正人类交流几乎无异的聊天(对话)场景 2 5。此外,ChatGPT具有良好的推理能力,尤其擅长回答科学问题和复杂逻辑问题 2 6。这得益于它强大的预训练能力和文本理解能力。通过大规模文本数据的预训练,特别是通过在复杂的语境中建立模型,能够达到上下文信息理解和解释文本的能力。这种能力使其在面对复杂的推理任务时具有优势。如ChatGPT可以给出某个定理的证
21、明,并根据逻辑链进行推理,按照用户指定的逻辑链完成各种任务。三是开放领域的通用性。ChatGPT不受限于特定细分领域 2 7。通常情况下,其他的自然语言处理技术只能针对特定领域的语言进行处理,如在医学、法律等领域中。而ChatCPT利用深度神经网络的优势,通过预训练大模型和聚合语言数据集,能够很好地理解语言规则、上下文信息和外部知识库的知识,在各种专业测试和学术基准上的表现与人类相当 9。如在医疗领域,ChatGPT可用于筛选患有某种疾病的患者,并结合医学知识库提供建议和治疗方案;在司法领域,ChatGPT可以帮助律师撰写法律文件,回答2023年第3 期法律相关问题,并且它通过了一场模拟律师考
22、试,缺乏严格的学术训练,也不具备准确表达知识的能得分在所有考生中排名前10%2 8 ;在金融领域,力,因此很难有效参与到知识生产的过程中 3 4 。然ChatGPT能够分析市场趋势、股票价格和证券交易而,ChatGPT的出现改变了这一局面。因具备强大的等数据,并给出有用的建议和决策。知识表达和处理能力,ChatGPT拥有对语言的深人理解,经过广泛的文本训练,可以基于给定的提示和2ChatGPT对知识生产的影响语境生成类似专业人士回复的内容 3 5。因此,借助知识生产是一种实践性活动,指各类知识(如真ChatGPT,任何个体只需要掌握一定的提示工程技理、原则、思想和信息等)的发明、创造、创新和复
23、用巧,就可以引导大模型根据自身需求产生相应的知的过程 2 9 。这一过程涵盖了知识创造和知识产生两识 3 。这为广大用户的知识学习和知识生产提供了种知识生产方式。知识创造指原创性知识的创造 2 9 ,更多机会,扩大了参与知识生产的人群范围。研究人员利用扎实的理论基础和科学方法,通过对2.2加速多学科知识融合真实世界的观察、实验、建模等手段,寻求新的见解ChatGPT能够打破各学科领域间的知识壁垒,和发现,体现为“从0 到1 的知识生产方式。知识产促进多学科知识的融合和跨学科知识的出现。跨学生是指对已有知识基础进行复用以生产知识,研究科研究是指超越一个已知学科边界进行的涉及两个人员以既有知识库为
24、基础,通过对现有知识的重组、或多个学科的研究活动 3 7 ,不仅能够帮助研究人员解释和应用,推动知识的发展和进步 3 0 ,表现为“由1获得更多样化的意见和思维模式,提出更好的研究到N的知识生产方式。ChatCPT作为一种具备自主问题 3 8 ,而且有助于摆脱流行的理论和范式,带来开生成文本能力的AI模型,对人类知识生产能力及知创性的进步 3 9 。然而,人类注意力的有限性限制了不识生产过程产生了革新性的影响。同学科观点的碰撞 4 0 ,且由于学科间的知识壁垒,学2.1知识生产主体趋向多元化习和掌握外来学科的知识需要付出一定的时间成ChatGPT的出现改变了传统知识生产主体的格本和智力成本,阻
25、碍了跨学科形式的知识生产。局,已发展出包括人类、机器和人机协同三种共存形ChatGPT作为AIGC的代表,能够快速理解各领域态,人类和智能机器的联接形成了一个强大的超级的专业知识。借助ChatCPT,研究人员可以通过对话智能体 3 1。首先,人工智能大模型成为知识生产的重的方式较容易获取并理解不同学科领域的专业知要角色。传统意义上知识生产主体主要由学者、专家识,节省了研究人员搜索并学习其他学科知识的时和研究人员等领域专业人士组成,通过演绎推理、实间。此外,ChatGPT强大的推理能力可快速对不同知证归纳等方法,在现有知识的基础上推动新的知识识内容进行分析总结,通过续写文字、头脑风暴和观创新 3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ChatGPT 知识 生产 挑战 治理
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。