AI生成与学者撰写中文论文摘要的检测与差异性比较研究.pdf
《AI生成与学者撰写中文论文摘要的检测与差异性比较研究.pdf》由会员分享,可在线阅读,更多相关《AI生成与学者撰写中文论文摘要的检测与差异性比较研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-05-19摇 摇 摇 摇 摇 摇 修回日期:2023-06-06基金项目:国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究冶(编号:20ATQ007)的研究成果。作者简介:王一博,男,1992 年生,博士研究生,馆员,研究方向:数据分析、用户研究、科学评价;郭摇 鑫,男,1992 年生,博士研究生,研究方向:数据挖掘、科学评价;刘智锋,男,1995 年生,博士研究生,研究方向:学术文本挖掘、科学计量与科学学、计算社会科学;王继民,男,1966 年生,教授,博士生导师,研究方向:机器学习、Web 数据挖掘、科学评价、信息可视化等。通信作者:郭摇 鑫信息
2、管理AI 生成与学者撰写中文论文摘要的检测与差异性比较研究*王一博1,2摇 郭摇 鑫1摇 刘智锋1摇 王继民1(1.北京大学信息管理系摇 北京摇 100871;2.北京大学图书馆摇 北京摇 100871)摘摇 要:研究目的 该研究从实证角度对 AI 生成与学者撰写的中文论文摘要的检测方法进行研究,并分析其文本内容特征差异,可为 AI 生成文本的自动检测及相关研究提供参考。研究方法首先,以图书馆学领域 100 篇高被引论文为例,基于论文题目应用 GPT-4 大模型生成相应的摘要,构建分析数据集;其次,采用有监督的机器学习和深度预训练模型对 GPT-4 生成和学者撰写的摘要进行分类检测,同时采用查
3、重软件对内容的重复率进行检测;最后,分别从摘要长度、句子数量、词汇特征、常用搭配等维度,揭示 AI 生成与学者撰写中文论文摘要之间的异同点。研究结论 基于训练语料所搭建的分类器可有效识别中文论文摘要是否由 AI 生成,其中,逻辑回归(Logistic)、集成学习模型(RF、LightGBM)和 BERT 模型的 F1-Score 均超过 90%。AI 生成的摘要呈现出较高的同质性,具有较强的写作逻辑性,并惯用归纳总结等学术话语体系;而学者撰写的摘要则具有显著的个性化差异,使用凸显实际含义的搭配较多,并常用与国家政策密切相关的词语。关键词:图书馆学;AIGC;GPT-4;论文摘要;摘要检测;文本
4、分类中图分类号:G353摇 摇 摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 摇 文章编号:1002-1965(2023)09-0127-08引用格式:王一博,郭摇 鑫,刘智锋,等.AI 生成与学者撰写中文论文摘要的检测与差异性比较研究J.情报杂志,2023,42(9):127-134.DOI:10.3969/j.issn.1002-1965.2023.09.018Detection and Comparative Study of Differences Between AI-Generated andScholar-Written Chinese AbstractsWa
5、ng Yibo1,2摇 Guo Xin1摇 Liu Zhifeng1摇 Wang Jimin1(1.Department of Information Management,Peking University,Beijing摇 100871;2.Peking University Library,Beijing摇 100871)Abstract:Research purposeThis study investigates the detection methods of AI-generated and scholar-written Chinese paper abstractsfrom
6、an empirical perspective,and analyzes the differences of text content features,providing a reference for the automatic detection of AI-generated text and related research.Research method First,using 100 highly cited papers in the field of library science as an exam鄄ple,we generate corresponding abst
7、racts based on the paper titles using the GPT-4 large model,and construct an analysis dataset.Next,we employ supervised machine learning and deep pre-trained models to classify and detect GPT-4-generated and scholar-written ab鄄stracts,and use plagiarism detection software to examine content duplicat
8、ion rates.Finally,we reveal the similarities and differences be鄄tween AI-generated and scholar-written Chinese paper abstracts in terms of abstract length,sentence count,lexical features,and commoncollocations.Research conclusion The classifier built based on the training corpus can effectively iden
9、tify whether the Chinese paperabstract is generated by AI,among which,the F1-Score of logistic regression(Logistic),ensemble learning models(RF,LightGBM)第 42 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇情摇 报摇 杂摇 志JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.42摇 No.9Sep.摇 2023and BERT model are
10、all over 90%.AI-generated summaries present a high degree of homogeneity,have strong writing logic,and habitu鄄ally use academic discourse systems such as induction and summary;while the abstract written by scholars has significant individual differ鄄ences,uses more word combinations that highlight th
11、e actual meaning,and often uses words closely related to national policies.Key words:library science;AIGC;GPT-4;paper abstract;abstract detect;text classification0摇 引摇 言2022 年底,ChatGPT 的问世受到学术界和工业界的广泛关注。其诞生使得人工智能生成内容(Artifi鄄cial Intelligence Generated Content,AIGC)成为新的研究热点。AIGC 不仅指代人工智能生成的内容及相关的技术,也
12、可指代其具有特定的“生成冶行为,广泛应用于营销、娱乐、创作等场景1。AIGC 的相关研究可追溯到20 世纪90 年代,当时尚处于试验阶段,进入21世纪后,微软等科技巨头开始训练机器生成内容。2007 年,人工智能创作的小说1 The Road问世;2012年微软发布全自动同声传译系统;2014 年 Lan J.Goodfellow 提出生成式对抗网络(GAN)可用于文本的生成2;2019 年 DVD-GAN 模型可用于生成连续性视频3;2022 年 David Holz 工作室开发的 Midjourney只需 1 分钟便可根据人类输入的自然语言生成图片;同年 8 月,AI 生成的画作获得数字艺
13、术类冠军4。目前,AIGC 的应用已经出现在影视、电商、金融、医疗、教育、咨询等垂直行业中。作为生成式人工智能的代表,ChatGPT 具备理解人类语言、解答自然科学问题、应对真实法律案件、辅助医生进行诊断等能力。在学术领域,已有诸多学者将发表的学术论文加入 ChatGPT 作为合著者5-7,来自 S 开展的 1000 名 18 岁以上的学生关于ChatGPT 在课堂上使用情况的调查表明:89%的美国大学生利用 ChatGPT 写作业8。这些案例都说明ChatGPT 在学术领域具有强大的创作能力。2023 年 3月,GPT-4 正式发布,该产品可以处理包含图像、声音等多模态信息,并在各种专业和学
14、术基准测试中表现出近似人类水平的能力9。在此背景下,检测学术论文内容是否由 AI 生成以及生成文本内容的特征已成为一个值得研究的问题。本研究可为 AI 生成文本的质量评估和优化提供参考,促进 AI 技术在学术领域的合理应用和发展,防范 AI生成学术内容的滥用;同时,所揭示的 AI 生成与人类撰写中文论文摘要的特征,可为人机协同写作提供新的研究视角。1摇 相关研究部分国外学者对 ChatGPT 类工具生成的内容与学者撰写的内容进行了分析和对比研究。Kutela B 等以交通安全领域已经发表的 327 篇论文的引言作为数据源,使用有监督的分类算法和无监督的文本网络分析方法,比较 ChatGPT 生
15、成的引言与学者撰写引言的差异性10。该团队还在另一项研究中比较了不同类型的提示语(Prompt)生成引言的文本相似度差异,并使用文本网络分析对不同提示语生成的内容进行比较11。Gao C A 等使用人工智能输出检测器、抄袭检测器和盲审人员比较 ChatGPT 生成的摘要与专家撰写摘要的质量和可信度,发现 ChatGPT 生成的摘要虽然表面上文字通顺,但是不符合期刊的格式要求,数据也是杜撰的12。Taecharungroj V 收集了2022 年11 月30 日至 12 月 31 日讨论 ChatGPT 主题的 Twitter 文本共计 23 万余条,使用 LDA 建模分析,揭示了 3 个一般主
16、题和 5 个功能区域,分析了该类技术对人类可能带来的积极和消极影响13。Biswas S 介绍了 ChatGPT在计算机编程方面的能力,包括代码补全、纠错、预测、Bug 修复、文档生成、代码优化等,并说明了 ChatGPT可以帮助用户理解复杂概念和技术,诊断与发现问题,提供资源列表等14。目前,国内学者对 ChatGPT 等 AIGC 工具开展实证类研究的论文较少,而以理论研究居多。可以概括为如下两个方面:一方面是探讨 AIGC 工具对学科发展造成的影响。如陆伟阐述了大模型对信息资源管理学科研究与实践带来的影响15;曹树金等认为生成式 AI 将从研究问题、数据源和研究范式影响情报学的发展16;
17、张智雄等分析了 ChatGPT 的特点以及对文献情报工作的启示17;此外,尹克寒论述了 ChatGPT 在情报信息机构的功能定位、丰富服务形态等方面影响18。另一方面是对 AIGC 的概念、发展历程、技术特征和发展阶段的归纳总结19;或是分析 ChatGPT 等AIGC 工具为科研工作者20、学术研究成果及人才评价21、智能信息处理22等带来的机遇与挑战;以及对图书馆、文献资源采购和组织、馆员技能等方面的影响23-25;也 有 对 ChatGPT 的 技 术 架 构26、中 文 评测27、用户意愿28等方面的讨论。整体而言,对 ChatGPT 类工具生成内容开展的实证分析以国外学者研究居多,国
18、内学者更加关注该类工具给学科发展及各行业带来的机遇和挑战等,针对中文语料的实证研究相对较少。因此,本研究将重点关注 AIGC 工具生成的中文摘要与学者在期刊论文上821 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷撰写的摘要之间的异同,进一步推动 AIGC 工具在中文环境下的研究和应用。2摇 数据与方法为了比较 AI 生成与学者撰写的中文学术论文摘要的差异,本研究需要构建两类论文摘要作为研究语料。学者撰写的论文摘要来源于已发表的学术论文,获取相对容易;
19、而 AI 生成的论文摘要则需要基于给定的提示语和论文标题进行生成。GPT-4 作为基于 Transformer 架构和自监督预训练的语言模型,是截止目前 OpenAI 发布的最先进、最强大的语言模型9,据此本研究选择 GPT-4 作为中文学术论文摘要生成的模型。经过反复对比实验,最终确定以下提示语作为 GPT-4 摘要生成的输入:“假如您是一位图书馆学领域的知名学者,我请您协助我撰写一篇中文学术论文的摘要,我将提供一个中文学术论文题目,希望您根据这些题目为我撰写相应的论文摘要。第一个论文题目是:XXX。冶本研究所设计的研究框架如图 1 所示,首先构建AI 生成论文数据集和学者撰写论文数据集,并
20、对数据进行预 处理;在此基 础上,分别构建 支 持 向 量 机(SVM)、逻辑回归(Logistic)、随机森林(RF)、轻量级梯度提升机(LightGBM)、朴素贝叶斯(NB)等机器学习和 BERT 深度预训练模型进行分类检测,同时采用维普论文检测系统工具进行查重,以对比分析两者之间的重复率;最后,分别从摘要长度、句子数量、词汇特征、常用搭配等维度对文本进行对比分析和可视化。图 1摇 研究框架摇 2.1摇 数据源和数据预处理本文以图书馆学领域为例,从专业核心期刊中(同时被 CSSCI 收录和北大核心收录)选择 5 种不同的期刊包括中国图书馆学报大学图书馆学报图书馆论坛国家图书馆学刊和图书馆学
21、研究,它们均是图书馆学领域影响因子较高的期刊,可在一定程度上代表该学科高质量论文的研究。接着,本研究分别从每本期刊中筛选 20212022 年间 20 篇按照知网被引频次降序排列的论文共计 100 篇作为研究样本,具体论文数据如表 1 所示。表 1摇 图书馆学五种核心期刊论文数量与平均被引频次分布期刊名称论文数量平均被引频次中国图书馆学报2031.75大学图书馆学报2019.95图书馆论坛2033.05国家图书馆学刊2017.35图书馆学研究2017.80摇 摇 获取到给定提示语和论文标题后,使用 GPT-4 生成所需摘要并将其保存至本地文件,同时将学者撰写的摘要也下载保存至本地文件。如下为数
22、据预处理的主要步骤:第 1 步,领域词表的构建:下载近三年图情领域约5000 篇中文期刊论文的题录信息,将论文的关键词作为初始词表,经过高频词统计、数据去重及人工筛查后,最终选取词频较高的 2172 个论文关键词作为领域词表,为后续中文分词做准备。第 2 步,停用词表的选择:为准确反映 GPT-4 与学者写作风格,本研究仅将常用标点符号和少量无实际意义的单个字纳入到停用词表。第 3 步,中文分词与词性标注:在 jieba 分词中加载领域词表和停用词词表,使用精准模式进行中文分词并标注词性。第 4 步,类别标记:将 GPT-4 生成与学者撰写的摘要合并到一个数据集中,并分别用类标号 1 和 0
23、标记这两种不同的摘要生成方式。摇 2.2摇 分类检测模型的选择本研究的目标是分析 GPT-4 生成和学者撰写论文的摘要之间的差异,探究是否可以通过机器学习或深度学习模型进行自动检测。本研究将检测问题转化为二分类问题,选择 TF-IDF(Term-Frequency-InverseDocument Frequency,词频-逆文档频率)作为文本向量化方法,采用 SVM、NB、Logistic、RF、LightGBM 等常用的机器学习分类算法和深度预训练模型 BERT 进行实验。为了评估分类器的性能,选择准确率、精确率、召回率、F1-Score 作为评估指标,并将数据集的921摇 第 9 期摇 摇
24、 摇 摇 摇 摇 摇 摇 摇 王一博,等:AI 生成与学者撰写中文论文摘要的检测与差异性比较研究70%作为训练集,用于训练模型,剩余的 30%作为测试集,用于评估模型的性能。摇 2.3摇 文本分析方法本研究采用高频词统计法、N-gram、共词分析法等文本分析与挖掘方法,以揭示 GPT-4 生成与学者实际撰写摘要之间的差异。高频词统计法是一种直观有效的方法,文本中出现次数较多的词汇,通常能够反映出该文本主题的核心内容和特点。本研究在完成文本数据预处理后,将GPT-4 生成和学者撰写摘要的词汇数量和词性分别进行统计,并按照出现频率进行排序。N-gram 是指一个语料库或文本中连续出现的 n个词的序
25、列,由 Shannon 最早将马尔科夫链应用于英文文本,并发现 N-gram 模型可以产生自然语言序列,可通过给定序列的概率预测下一个序列的概率29。本研究基于 N-gram 分析了 GPT-4 生成和学者撰写摘要中常用搭配的差异性。共词分析法是一种文本内容分析方法,在一个文本句中,若一对词语共同出现次数越多,表明它们的关系越密切、距离越近30。通过绘制 GPT-4 生成和学者撰写摘要的关键词共现网络,可以更准确地揭示两者写作用词的异同。3摇 结果与分析摇 3.1摇 分类检测结果在对 GPT-4 生成与学者撰写的中文学术论文摘要分类效果进行测试时,我们选择了前文所述的 6 种不同的分类器,分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI 生成 学者 撰写 中文 论文 摘要 检测 差异性 比较 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。