会议论文与期刊论文主题分布的演化关系研究.pdf
《会议论文与期刊论文主题分布的演化关系研究.pdf》由会员分享,可在线阅读,更多相关《会议论文与期刊论文主题分布的演化关系研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、情报分析数字图书馆论坛DigitalLibraryForu会议论文与期刊论文主题分布的演化关系研究郭骅李庆昊 夏天伊!李盛庆?(1.河海大学商学院,南京2 1110 0;2.常熟理工学院,苏州2 1550 0)摘要:为加深对跨文献类型的学术研究主题演化的理解,设计构建会议论文和期刊论文研究主题演化的多步骤分析框架,包括数据准备、主题识别、相似度测量、时滞测度、演化模式分析、主路径识别和关键主题识别等。以中国计算机学会推荐国际学术会议和期刊目录中的A类出版物为例,分析和呈现2 0 0 7 一2021年人工智能核心领域会议论文、期刊论文的研究主题演化情况。研究发现:该领域会议论文的研究主题设置整体
2、上领先期刊1年;多种主题演化模式交又作用,扩展人工智能核心领域的科学知识;会议论文创新促进研究方向的聚焦和知识框架的稳定;一些较晚出现的会议主题更强烈地影响领域知识的持续构建。此外,还分析人工智能术语的分布情况和变化趋势。关键词:主题识别;主题演化;人工智能;会议论文;期刊论文;关键主题中图分类号:G255DOI:10.3772/j.issn.1673-2286.2023.10.003引文格式:郭骅,李庆昊,夏天伊,等,会议论文与期刊论文主题分布的演化关系研究J.数字图书馆论坛,2 0 2 3(10):18-2 8.研究主题由单词集合表达,旨在反映科学文献的核心内涵。主题演化表明研究主题如何随
3、着时间的推移而变化,包括它是否发展成熟或逐渐消亡,是否导入知识或被拆分合并。会议和期刊关注的研究主题可能交又影响,对此类情况的主题演化研究还相对缺乏。研究主题如何在会议论文和期刊论文之间转移和发展?谁处于整体上领先的位置?不同学科领域的情况差别非常大2-4。由于时间序列上的主题相互交织,没有一个关联方案对所有情况都有效2 ,所以本文使用了一个以创新著称的人工智能研究领域的数据集来分析这一问题。人工智能的概念在2 0 世纪50 年代提出。作为一种通用技术,人工智能的研究横跨了许多学科,但是其核心属于计算机科学领域5:人工智能专注于运行通常需要人类智能的计算系统,或通过使用高级算法和模型模拟人类意
4、识和思维过程,赋予机器类似人类的能力7 。在计算机科学领域,领先的学术会议常常吸引高质量的原创论文,并由元审稿人来把关评审的专业性,这促进了收稿日期:2 0 2 3-0 7-2 3*本研究得到国家社会科学基金项目“面向代表作评价的科研论文学术价值测度研究”(编号:2 1CTQ017)资助。182023年第19 卷第10 期知识共享和创新8 。通常认为该领域的会议是创新的摇篮,而期刊的研究成果构成了知识框架9 。已有文献指出人工智能的会议论文引领了研究趋势10 ,但是从会议到期刊的文献研究主题演化模式仍不清晰,并且很少有研究聚焦核心技术。本文试图描绘2007一2 0 2 1年人工智能核心领域的顶
5、级出版物的研究蓝图,达成以下目标:测度从会议到期刊的学术论文研究主题设置的领先-滞后程度;理解从会议到期刊的学术论文研究主题演化特征,识别演化路径和发现关键主题。1文献综述1.1主题分析技术常见的主题分析技术包括引文分析、词汇分析和主题建模分析。引文分析通过统计引用关系识别研究主郭骅,李庆昊,夏天伊,等会会议论文与期刊论文主题分布的演化关系研究题,但引文的延迟性可能会扭曲分析结果。在研究主题设置方面,影响力也并不一定表现为引用12 。词汇分析包括词频分析、共词分析和术语聚集。基于单词或术语的方法对词的选择很敏感,并且可能缺乏对主题的足够解释12 。概率主题模型将主题定义为单词和文档的分布,基于
6、概率挖掘大规模文本中的语义,生成以单词集合表达的主题,总体上优于之前的技术13。许多模型已经被应用于主题识别和表示,如LDA(La t e n t D i-richlet Allocation),CTM(Correlated Topic Model)和BTM(Bi t e r m T o p i c M o d e l)等,尤其LDA模型已经成为语义分析的核心算法4。1.2领先-滞后程度领先-滞后程度计量源自引文统计,如科学论文发表和首次被引的时间差15 或参考文献的年龄特征16 。有关主题的讨论从关键词、术语,甚至特定的研究设备方面对不同文献之间的主题时滞进行分析16 。但是对于大多数的两组
7、语料而言,完全相同的主题实际上并不存在;即便在同一研究领域,不同主题的领先-滞后程度也是分散的17 ,因此有必要衡量整体的时滞值。共词网络分析通过比较两个共词网络的结构相似性来确定领先-滞后关系和程度18 。基于LDA的方法则提供了另一条路径,即通过语义相似性确定时滞值19 。1.3主题演化分析主题常常具有演化的特征,即一个主题影响或刺激了其后的另一个2 0 。主题演化分析大致分为两类:主题强度演化和主题内容演化。强度演化描述主题的热度变化2 1;内容演化则进一步评估主题之间的语义相似度2 2 ,包括构建演化图和分析演化路径。主题演化图表征了文本流的主题演化模式,是演化路径的图形化集合2 0
8、。由于演化路径并非全部显著和可靠,研究人员需要提取关键路径以追踪研究领域的发展轨迹2 3。主路径的概念来自引文网络分析,在语义网络分析中得到发展2 4。主路径搜索以遍历权重为基础,通常选择最长或权重和最高的路径2 5。文本特征差异影响分析技术的选择,对于长跨度的科学研究主题,基于时间序列的相似度计算方法较为适用2 0 。学者最初根据频率和强度识别路径上的关键主题,近年来测量语义网络的节点中心性指标的方法逐渐流行2 6-2 7 。2数据与方法2.1 研究设计提出一个多步骤框架用于分析跨文献类型的研究主题演化情况,包括数据准备、主题识别、相似度测量、时滞测度、主题演化图合成、主路径识别和关键主题识
9、别。研究步骤如下:构建语料库,从WebofScience和计算机科学文献库DBLP(D a t a b a s e Sy s t e msand Logic Programming)中收集会议论文和期刊论文,将论文标题和摘要作为研究语料,将文本语料根据出版时间按年份划分为子集;识别各子集的研究主题,根据困惑度、一致性和JS(Je n s e n-Sh a n n o n)散度指标联合确定主题数和建立概率主题模型,以解决单一指标的过拟合问题,以及论文和期刊两类子集的规模差异导致的不均衡问题;测算从会议到期刊的论文研究主题时滞,根据余弦相似度指标衡量不同子集之间的主题相似程度,按年份构建相似度矩阵
10、,使用匈牙利算法寻找不同年份的研究主题在会议和期刊论文之间转移的最优匹配组合,采用最小二乘法对这一组合进行线性拟合,以获得样本期的整体最优时滞值而非单一年份的最优解;构建主题演化关系,设置演化规则,在排除弱相似性主题后,合成主题演化图;识别主要研究脉络,采用穷举法获取候选路径,根据节点与源之间的累积权重识别主路径,以强调从会议产生并影响期刊论文的创新研究;识别关键的会议研究主题和主题词,构建从会议到期刊的学术论文研究主题转移的分析场景,测算特定场景和业务逻辑下的主题转移概率,运用PageRank算法评价会议研究主题和主题词对期刊论文的长期和广泛的影响。2.2数据准备从第五版中国计算机学会推荐国
11、际学术会议和期刊目录2 8 中选取人工智能A类期刊人工智能(A I)、计算机视觉国际期刊(IJCV)、机器学习研究杂志(JMLR)、I EEE模式分析与机器智能汇刊(TPAMI),以及A类会议人工智能促进协会(A A A I)会议、国际计算语言学协会(ACL)会议、国际计算机视觉与模式识别会议(CVPR)、国际机器学习大会(ICML)、国际人工智能联合会议(IJCAI)、神经信息处理系统大会(NEURIPS)、计算机视觉国际大192023年第19 卷第10 期数字图书馆论坛DigitalLibraryForu会(ICCV),作为论文来源。中国计算机学会推荐国际学术会议和期刊目录将出版物/会议分
12、为A、B、C 三类,其中A类表示极少数的顶级出版物/会议,在历次版本更新中更具稳定性2 9 。在选择研究材料时考虑以下因素。首先,人工智能的核心技术属于计算机科学领域5,10 1。其次,由于高度的创新性,人工智能科学论文的标题、摘要和关键词或许并不包含常用术语5,因此有必要纳入目标出版物/会议的全部论文。最后,在2 0 0 7 年之后顶级期刊论文的被引频次总是比会议论文多,表明其知识框架具有稳定性。要充分评估主题之间的关系,需要较长的时间跨度,因此选取2 0 0 7 一2 0 2 1年作为样本期,同时还考虑以下因素。首先,在计算机科学期刊上重新发表基本相同的会议论文的情况曾经相当普遍,这一传统
13、在2 0 0 0 年之后逐渐改变30 。其次,人工智能科学论文的出版经历了不止一次低谷,最近一次低谷期是2 0 0 5一2 0 10 年31。最后,该领域论文数量和平均被引频次在2 0 0 5年和2 0 0 6 年异常下降,其后恢复到正常水平10 。研究材料包括来自4种期刊的8 0 47 篇论文和7 个会议的52 8 41篇论文。2.3研究主题识别首先提取研究论文的标题和摘要构建文本语料库,会议和期刊语料按出版时间被分别划进15个子集;然后进行数据预处理,去除标点符号、剔除数字、去停用词和还原词形等;最后利用LDA模型识别各子集的研究主题。LDA模型中文档被表示为潜在主题的随机组合,主题被表示
14、为单词的概率分布32 。单词在文档中的生成概率如式(1)所示。p(w,)=Zf-ip(w,lz,=j)p(z;=j)式中:p(w l z,=j)表示主题j中单词w,出现的概率,p(z,=j)表示文档中主题的比例。为获得稳定的主题集而不是随机设置主题数,根据一组有关模型预测能力和可解释性的指标来确定主题数:首先,找到困惑度32-33 的低值拐点和一致性34 的高值拐点,将二者之间的数值范围设为潜在的取值范围。困惑度是给定模型在测试语料库中的几何平均值似然的倒数,困惑度越低表示模型泛化性能越好2 7 。一致性通过测量主题词的共现来衡量主题质量,一致性值越高意味着主题内的单词关联性越强35。因此,该
15、范围内的主题数值具有较好的模型预测能力和可解释性。然后,在该范围内逐一计算每个数值对应的JS散度3,202023年第19 卷第10 期使用pyLDAvis工具绘制气泡图37 ,将满足任意两个主题气泡的重叠度小于50%条件的最大值作为主题数目。JS散度衡量两个概率分布之间的相似性,可以进一步从全局结构评估主题模型的性能。困惑度、一致性和JS散度的计算方式如式(2)(4)所示。主题数目核算过程见表1。P(W)=exp式中:P表示困惑度,W表示文档中单词的集合,Wa表示集合中的单词,p(w a)表示单词的概率,N.表示单词的数量。C=ZM2Zi-10g式中:C表示一致性,N表示文档内单词总数,p(w
16、,w,)是单词wvw,的共现概率。De(p l)=Dk(pl/m)+Dk(allm)2式中:DJs表示JS散度,p表示数据的真实分布,q表示数据的理论分布,DkL表示KL(K u l l-back-Leibler)散度,m为p和q的平均值。为一些重要主题添加了人工标签:首先采用点互信息评估单词之间的相关性,将排名前2 0 的主题词作为表示主题特征的潜在单词;然后根据文档-主题分布择取每个主题对应的10 篇摘要,阅读这2 0 个单词和10 篇摘要,归纳编写标签,以全面反映主题的含义38 。点互信息的计算方式如式(5)所示。I=log2p(wi,w,)p(w/)p(w2)式中:I表示单词w,和w2
17、之间的点互信息。(1)2.4构建语义相似度矩阵使用余弦相似度衡量不同子集之间的主题相似程度。余弦相似度用n维向量空间中两个向量夹角的余弦值来衡量相似性39 ,其计算方式如式(6)所示。S(T,T,)=V(ZK=IPi)(ZK-IP2k)式中:S(T,T 2)是主题T,和T2之间的余弦相似度,P1x和p2k是主题在第k个时间片的概率,n为样本期。余弦值越接近1,相似度越高。最终构建了一个2 2 8 2 2 8的主题相似度矩阵。Z-1log p(wa)ZYiNap(w;,w,)+1p(w.)2ZK-IP1kP2k(2)(3)(4)(5)(6)郭骅,李庆昊,夏天伊,等会议论文与期刊论文主题分布的演化
18、关系研究表1主题数目的核算过程期刊论文主题数年份困惑度低值拐点2007320084200942010320113201232013320143201532016320173201832019320203202132.5领先-滞后程度测度定义年度主题相似度为1个会议子集和1个期刊子集的所有主题的相似度均值,以反映不同子集在整体上的相似程度。年度主题相似度矩阵的元素值为0.13 0.7 3。使用匈牙利算法40 求解所有子集的研究主题从会议向期刊转移的一对一时滞匹配组合。匈牙利算法是一种组合优化算法,其输出为最小和值的矩阵元素组合。为确保得到相似度之和最大的时滞匹配组合,对原始矩阵进行定值取反的预处
19、理。最终得到一组研究主题时滞组合,该组合包含的元素不一定是其所在行或列的最大值,却涵盖了所有行和列的最优匹配组合。在剔除异常值后,采用最小二乘法41 对最优匹配组合进行线性拟合。最小二乘法通过最小化误差的平方和寻找数据的最佳匹配函数。考虑到时间切片为整数年份,年度主题相似度矩阵为方形对称矩阵19 ,使用线性方程y=x+c拟合,时滞值c为整数,具体公式如式(7)所示。(7)式中:L表示观测值与函数值的距离,y和x分别为期刊和会议论文的出版年份。2.6构建主题演化图主题演化图是一个加权有向图,节点表示主题,连会议论文主题数一致性高值拐点最终设定值86544466967711885659799868
20、596106边表示演化关系,连边的权重表示主题相似度2 0 。当相似度大于一定阈值时认为存在演化关系。测试了不同的阈值,包括相同和不同出版场所之间的主题相似度的均值,以及均值的倍数(0.5倍、V2倍、3倍和2倍)。结果显示,将阈值设置为/3倍均值时可以比较清楚地显示主题演化关系。类似的,从会议到期刊的相似度阈值被设置为均值的/3倍。将演化图划分为两个区间,会议主题分布在上半区,期刊主题在下半区。会议和期刊节点标签由数字和字母组合而成,其中数字代表年份,字母C代表会议,字母J代表期刊。例如:2 0 0 7 C2表示根据2 0 0 7 年的会议论文数据识别出的第2 个主题;同理,2 0 0 7 J
21、2表示根据2007年的期刊论文数据识别出的第2 个主题。排除了未能向期刊主题演化的会议主题和无法向会议主题溯源的期刊主题,以突出会议主题的演化路径。图中连边的宽度表示主题之间相似性,节点的高度表示主题的出度和/或入度。22.7演化主路径识别为候选路径设定两个约束条件以聚焦会议论文的研究脉络:所有候选路径的源位于上半区、汇位于下半区;删除会议-会议的连边,使每一个会议主题节点都成为源。对所有源进行分治,以确定由会议主题引发的最重要的期刊主题演化路径。对于每个源,采用穷21困惑度低值拐点444434558888181818一致性高值拐点71011984121210119121012122023年第
22、19 卷第10 期最终设定值666744981010119161616数字图书馆论坛DigitalLibraryForu举搜索的方法生成候选路径。根据候选路径上的节点与源之间的权重和来识别主路径。识别出的主路径具有以下特征:路径上的期刊主题节点在整体上与源最相似;除源以外,其他节点之间的关系不一定是最强的;主路径不一定是最长路径。路径权重Upath的计算方式如式(8)所示。(8)式中:S(T s o u r e e,T)表示路径上的源主题Tsoure和路径上其他主题T之间的相似度。2.8关键主题识别与带主题偏好的页面游走不同42 ,采用带相似性偏好的主题游走的思路,使用PageRank算法43
23、 识别关键主题。将探索研究主题视为一个不断循环的两步骤过程,即“方案设计+信息检索”:方案设计指研究人员分析文献并推断如何设置检索方案;信息检索指根据检索方案获取新的文献。由于信息寻求行为由认知状态介导并修改44,,方案设计主导了主题探索。在网页排名中,阻尼系数d表示用户通过当前网页跳转到链接网页的概率,通常设置为0.8 545,1-d则表示通过输入网址跳转到新页面的概率。在引文网络排名中,d被设置为0.546 。在主题探索的场景中,研究人员既可能独立探索新的研究主题(不依托已有文献是不现实的,可以认为所有已知文献对新主题不产生特定影响,类似于白噪声),也可能通过寻找之前的研究脉络来设置新的主
24、题。这一过程可以模拟为通过主题节点的连边反向查找与该主题相似的前置主题。因此将d定义为一个主题连接之前主题的概率,即它们之间的相似度。计算网络中所有节点对的相似度均值得到d为0.61,表征了样本数据的主题相似度偏好。节点的排名值的表达式如式(9)所示。1-dR,=+dZy(R,xS,)N式中:R,表示链接到节点的节点j的排名值,S,表示与j之间的相似度,N表示节点数。3分析结果3.1会议-期刊的整体时滞程度会议-期刊主题的时滞值线性拟合图(见图1)显222023年第19 卷第10 期示,样本期中的期刊论文主题设置在整体上比会议论文滞后1年。R=0.76,P=0.0 0 0 0 2,模型得到充分
25、解释且统计学意义显著。年度主题相似度矩阵及最优匹配组合见表2,用粗体显示年度主题相似度的最优匹配组合,每个元素所在的行和列分别表示对应的会议年份和期刊出版年份。202220202018201620142012201020082006200620082010201220142016201820202022图1会议-期刊主题的时滞值线性拟合图3.2会议-期刊的主题演化模式从会议到期刊的主题演化路径共有10 38 0 3条。从图2 可见,不同年份的学术会议对其后学术期刊研究主题设置产生的直接影响差别很大,如2 0 14年有7 个会议主题直接影响学术期刊研究主题,而2 0 13年没有会议主题产生影响。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 会议 论文 期刊论文 主题 分布 演化 关系 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。