基于合作者网络社区发现的学科主题分析——以国际统计学期刊为例.pdf
《基于合作者网络社区发现的学科主题分析——以国际统计学期刊为例.pdf》由会员分享,可在线阅读,更多相关《基于合作者网络社区发现的学科主题分析——以国际统计学期刊为例.pdf(22页珍藏版)》请在咨信网上搜索。
1、经济管理学刊 基于合作者网络社区发现的学科主题分析 以国际统计学期刊为例 张妍,厦门大学经济学院,;潘蕊(通信作者),中央财经大学统计与数学学院,;方匡南,厦门大学经济学院,。作者感谢国家自然科学基金面上项目()对本文研究的支持。作者感谢匿名审稿人和编辑部的宝贵意见,当然文责自负。张 妍 潘 蕊 方匡南摘 要:随着大科学时代的到来,科研合作现象越来越普遍。为了了解当前主流研究主题以及科研学者之间的科研合作模式,使得科研学者对学科主题有更好的认知,建立更高效的合作团体,提高科研产出,促进学科发展,本文以国际统计学期刊为例对学科主题进行了深入的研究。首先构建合作者网络并分析其基本属性,其次提取其核
2、心网络并分析其连通分量结构,最后利用 方法和正则化谱聚类算法对第一、二大连通分量进行社区个数的确定及社区划分。结果表明,统计领域科研合作现象日益普遍,合作者网络具有明显的社区结构;结合论文信息和作者属性,本文得到 个不同的学科主题,并发现不同社区之间存在交叉合作的现象,同一社区内部存在不同学科主题的融合。此外,在科研合作模式方面,本文发现同一学科主题或科研单位的学者更容易产生合作关系,同一社区的学者发表论文的期刊具有明显的相似性。关键词:科研合作;学科主题;合作者网络;社区发现中图分类号:分类号:一、引言复杂网络一般是指具有高度复杂性的网络,包括了现实世界的各种元素和它们之间的各种关系。网络中
3、的各种元素称作节点,节点之间的关系称作边。复杂网络以丰富的形式存在于人们的生活当中,例如微信用户之间的好友网络、城市之间的交通网络等。近年来,随着人们对网络结构数据的不断关注和深入研究,复杂网络已被广泛应用到众多学科和场景之中,包括社交网络(贺建风和李宏煜,)、贸易网络(王涛等,)、合作网络(吴翌琳和吴洁琼,)等。复杂网络具有三种特性,分别是小世界特性、无标度特性和社区结构特性。其中,社区结构特性是指网络中的节点会呈现聚集性。社区结构普遍存在于复杂网络中。社区通常又被称为簇或模块,表示可能具有相同或相似性质的个体的集合。例如,在论文合作者网经济管理学刊 第 卷络中,属于同一社区的作者之间的合作
4、次数相对较多,这些作者的研究主题也比较相似。社区发现又被称为社区探测、社区识别或社群发现等,是一个复杂而有意义的过程。在学术研究方面,社区发现方法成为研究知识网络的新视角,被广泛应用于作者合作网络、引文网络等,从而可以探索学科的主要研究主题或作者之间的合作模式(,;,)。近几年,发现及分析复杂网络中的社区结构受到了越来越多学者的关注。然而,目前许多社区发现方法需要预先设定网络中的社区数量。交叉验证()是模型选择和参数调优任务的首选工具(,)。选择合适的社区数量就是一个模型选择的问题,但是直接对网络结构数据进行交叉验证仍然具有挑战性。由于将网络节点进行分割可能会破坏网络结构,因此交叉验证不能直接
5、适用于网络,需要做进一步改进。目前,关于将交叉验证应用于网络的相关研究还较少,使用交叉验证自动确定网络的社区数量是当前社区发现领域的新难题,值得深入研究。随着大数据时代的到来,统计学在挖掘大数据的价值中扮演着极其重要的角色。目前,在很多学科领域中都可以见到统计学的身影,例如生物学、经济管理、交通运输等。统计方法及模型也逐渐丰富起来,包括非参数统计、贝叶斯统计、变量选择等。本文以 年国际统计学期刊为例,利用交叉验证对其合作者网络进行社区个数的确定,并使用正则化谱聚类算法挖掘合作者网络中的社区结构,提炼每个社区的研究主题等特征,以此挖掘统计学者之间的合作模式以及统计学当前的研究热点。本文的研究对了
6、解和掌握统计学的发展现状和核心研究群体具有重要意义。二、相关研究本文利用交叉验证的方法确定统计学期刊论文合作者网络的社区个数,再对该网络进行社区发现。在这一部分,本文回顾了目前国内外对科研合作、社区发现算法和社区个数确定的研究现状。(一)科研合作科研工作者是推动学科发展的重要力量,在大科学时代,越来越多的学者倾向于合作研发,科研合作现象日益普遍。通过科研合作,学者之间可以优势互补,避免重复研究。合作网络具有多种形式,例如地区合作网络(李文辉等,)、项目合作网络(钟自然等,)以及作者合作网络(吴翌琳和吴洁琼,)等,其中合著论文最能体现科研合作。()对 的历史数据进行分析,发现合著文献往往更受学者
7、们的认可。不少学者通过分析作者合作网络来挖掘其中隐藏的信息。吴翌琳和吴洁琼()以中国科技创新领域的核心作者为研究对象并构建作者合作网络,发现科技创新领域的核心作者协同创新程度较低,不利第 期 张妍,等:基于合作者网络社区发现的学科主题分析 以国际统计学期刊为例于科创研究的发展。李海林等()利用聚类算法和 决策树算法分析期刊作者合作网络,从而反映不同网络结构特征对团队创新绩效的影响。张美书等()利用 核模型来对论文及专利的作者合作网络进行凝聚性特征分析,从而为培养高水平科研团队提供指导。部分学者还利用社区发现技术来研究作者合作网络数据,并从中发现同一社区内部和不同社区之间的作者合作特征。()使用
8、社区发现技术研究一个多机构、跨学科的研究小组的合作网络,并将作者合作网络中发现的结构性社区和组成该网络的学者的社会学术特征进行比较,发现同一部门或机构的作者之间更容易发生合作关系。()使用社区发现技术研究 年发表在塞尔维亚数学期刊的论文的作者合作网络,从而发现网络的结构特征,揭示了科学合作的特征模式以及理解作者社区的组织。()做了一个非常有趣的研究,他们收集了 年 上关于网络社区发现的相关文章,构建作者合作网络,通过社区发现技术将作者分为 组,并根据每个社区的作者发表的文章的关键词来设置社区的标签。(二)社区发现算法近年来,学者们提出了许多社区发现算法,用于揭示网络的结构特性和动态行为特征。根
9、据社区发现算法的适用网络类型可以对算法进行分类,常见的分类方法有以下两种:一是有向网络与无向网络的研究。针对无向网络,目前已有大量的社区发现算法被提出(,)。然而,在有向网络中进行社区发现是一项具有挑战性的任务。针对有向网络的社区发现问题,处理边的方向性的最常见方法是忽略它,即将有向网络转化为无向网络。但是,这种简单的处理并不能得到满意的结果,因为一些潜在的信息会被忽略。目前,应用在有向网络中的社区发现算法可以分为两种:一种是扩展应用在无向网络中的社区发现算法,另一种是利用边的方向性提出新的社区发现算法(,)。二是静态网络与动态网络的研究。与动态网络相比,在静态网络中进行社区发现较为容易。针对
10、静态网络,存在多种社区发现算法(,),这些算法大多都是基于优化的算法,即根据定义的目标函数寻找最优解(,)。模块化最大化(,)和谱聚类(,)是静态网络中识别社区的常见方法。然而,大部分真实世界中的网络在本质上是动态的,部分学者也提出了一些研究动态网络演变行为的社区发现方法。()提出了一个动态社区发现的框架,通过识别相对稳定的层次聚类的核心、跟踪已出现的社区和发现新的社区来研究大型动态网络的社区结构的演化。()提出了网络的动态结构聚类算法,该算法计算速度快、损失低,可用于对网络进行动态社区探测。(三)社区个数的确定目前,学者们已经提出了大量的社区发现算法,这些算法大多假设社区的数量经济管理学刊
11、第 卷是先验已知的。然而,在现实世界的网络中,社区数量通常是未知的,需要去估计。因此,如何估计社区个数对于社区发现算法来说是个很重要的问题。近年来,部分学者提出了若干可以估计社区个数的算法,()和 ()基于连续检验在块模型下提出了估计社区个数的方法;()基于贝叶斯推断提出的聚类算法可以在不影响速度的情况下精确地估计随机块模型中的社区数量;()提出了一种基于图的海瑟矩阵或非回溯矩阵的谱特性的方法来估计群落的数量,该方法在多种模型和大范围参数下均有良好的性能。近几年,部分学者将交叉验证方法用于确定社区个数。()提出了一种基于随机块模型及其变种的模型选择交叉验证方法来选择社区个数。该方法低估社区的数
12、量概率接近于零,然而这并不排除过多选择社区的可能性(,),且该方法只适用于块模型。()提出了一个边交叉验证(,)方法来选择社区个数。相比于前者,不局限于块模型,且适用于有向或无向网络、有权或无权网络。三、数据和方法(一)数据来源与预处理本文从 上爬取了 年 个国际统计学期刊上发表的共 篇论文信息。根据美国科学情报研究所 年版期刊引证报告中的影响因子,本文列举了数据集中影响因子排名前十的期刊,见表。对于每一篇论文,本文收集了如下信息:论文题目、期刊名称、发表日期、作者、作者单位、摘要、关键词和引文列表。表 数据集中影响因子排名前十的统计学期刊序号期刊名称出版国家或地区影响因子 美国 美国 美国
13、英格兰 美国 英格兰 英格兰 美国 美国 美国 注:数据来源于 年 。第 期 张妍,等:基于合作者网络社区发现的学科主题分析 以国际统计学期刊为例本文的数据预处理主要是识别文章所有作者的唯一性。由于不同期刊上(甚至是同一期刊上)发表的论文呈现的作者名字格式不同,存在姓名缩写及所属单位变化的问题,因此数据清洗是一个很大的挑战。为了识别文章所有作者的唯一性,首先,本文使用开放研究者与贡献者身份识别码()来区分不同作者。其次,对于没有 标识的作者,本文使用作者的姓名和所属单位来识别作者,若两位作者的姓名和所属单位都很相似,则认为这两位作者是同一人。最后,由于可能出现中文名和所属单位都很相似,但却不是
14、同一人的情况,例如,既可指,又可指,因此本文有选择性地对中文名进行了人工核实。(二)方法基于 ()提出的 方法,本文进一步将其运用于确定核心网络的社区个数,详细步骤如下:算法:输入:作者核心合作网络的邻接矩阵、节点数量、可能的最大社区个数、重复试验的次数 和、训练集占比。输出:社区个数。对于 :()对于 :从 的上三角矩阵对应的节点对中随机抽取()个节点对作为训练集,其余节点对作为验证集。将 的上三角矩阵中所对应的值设为,的下三角矩阵中对称位置的值也设为,得到一个新的对称矩阵记为。对 做 分解,得到前个奇异值 及其对应的左奇异向量构成的 矩阵和右奇异向量构成的 矩阵。对于 :计算,其中()。计
15、算()()(,)(,)。()令 。输出(),即确定的社区个数。注:首先,本文探究作者核心合作网络的最大连通分量中的社区个数,令 ,最终确定最大连通分量的社区个数为。其次,本文探究作者核心合作网络的第二大连通分量中的社区个数,令 ,最终确定第二大连通分量的社区个数为。(三)社区发现算法在 方法的具体使用中本文利用了谱分解的思想来选择社区数量,因此在后经济管理学刊 第 卷续如果能够利用邻接矩阵的谱信息来进行社区发现,得到的结果会更加合理。本文使用正则化谱聚类算法进行社区发现。正则化谱聚类是为了提高稀疏网络中的谱聚类性能而提出的一种方法,但正则化本身往往依赖于一个调节参数。本文使用 ()提出的正则化
16、项,即将通常的标准化图拉普拉斯算子 (是节点的边权和的对角矩阵)中邻接矩阵 替换为正则化邻接矩阵,计算公式为:其中,是网络中节点的平均边权和;是一个 维的全 列向量,是其转置;是调节参数,取值通常在 内。接着对 进行特征值分解,得到前 个特征值对应的特征向量,构成一个 的矩阵。最后对 进行标准化,并对 的行进行 均值聚类,得到每个节点的聚类结果。聚类结果即是每个作者的社区分配结果。正则化项可以提高集中度,但同时也会带来更多噪音,需要正确地选择调节参数来平衡这两种作用,才能提高聚类效果。为了达到改进聚类效果的目的,本文使用 来选择合适的调节参数,损失函数采用 ()提出的计算两个聚类结果的共聚类差
17、异。对于本文研究的作者核心合作网络,本文将节点对划分 次训练集和验证集,并设置 的候选值为 。如果 ,即不进行正则化,在作者核心合作网络这种稀疏邻接矩阵的情况下,谱聚类效果很差。首先,本文使用 选择作者核心合作网络的最大连通分量的调节参数,发现当调节参数取 时,共聚类差异相对较小,正则化谱聚类效果最好。因此,本文选择 作为最大连通分量的正则化谱聚类的调节参数。接着,本文使用 选择作者核心合作网络的第二大连通分量的调节参数,发现当调节参数取 时,共聚类差异相对较小,正则化谱聚类效果最好。因此,本文选择 作为第二大连通分量的正则化谱聚类的调节参数。为了体现本文使用的社区发现算法的合理性,本文对比了
18、正则化谱聚类以及传统谱聚类算法在核心合作者网络的第一大连通分量上的社区划分效果,见表。由于社区发现是个无监督的问题,因此没有统一的评价指标,本文选取了四个常用的评价准则来判断社区划分的好坏,分别是密度()、传导性()、内部密度()以及社区规模。其中,密度计算了位于社区内部的边的比例;传导性是基于如果一个社区连接良好,那么必须删除大量的边才能将其等分的思想;内部密度体现了社区内部连边的密集程度。这三个指标越大,社区发现效果越好。由表 可知,在由 选定社区个数为 的情况下,正则化谱聚类算法的效果优于传统谱聚类算法。此外,本文还比较了其他三个经典的社区发现算法,分别是 算法、算法以及 算法。这三个社
19、区发现算法不需要事先已知社区数量。从表 可以看出,虽然这三个方法在前三个评价指标上表第 期 张妍,等:基于合作者网络社区发现的学科主题分析 以国际统计学期刊为例现较好,但是从其划分的社区规模来看,算法和 算法均划分了 个社区,且都存在一个超大规模的社区,该社区包含了网络中将近一半的作者。从社区划分结果来看,这两个算法划分的社区过于粗糙,不符合实际。算法划分了 个社区,从社区规模来看,该算法划分的社区中存在只有两三个作者的社区过多,并没有很好地体现群体的概念。因此,综合上述结果比较,本文认为使用 算法确定社区数量并结合正则化谱聚类算法进行社区发现,能够对合作者网络进行较好的社区划分。表 社区发现
20、算法结果比较社区发现算法密度()传导性()内部密度()社区规模正则化谱聚类 ,传统谱聚类 ,注:从密度、传导性、内部密度和社区规模四个方面比较正则化谱聚类算法和其他社区发现算法的效果。综合来看,正则化谱聚类算法的效果最好。四、结果分析(一)科研合作模式及核心作者分析本文采用平均每篇论文的作者人数指标来分析作者群体的科研合作模式。图 展示了平均每篇论文的作者人数的年变化曲线。从图 可以看出,年平均每篇论文的作者人数呈现波动上升的趋势。年每篇文章平均有两位作者,年每篇文章平均有三位作者。这表明近年来统计学者越来越趋向于合作发表论文。本文挑选出由两个或两个以上作者发表的论文,即该论文属于合著论文,作
21、者之间存在合作关系。合著论文共有 篇,占比。根据合著论文的作者信息建立合作者网络的边数据。例如,一篇论文由、三个作者完成,则边数据经济管理学刊 第 卷有 、。根据边数据构建一个无向有权重的作者合作网络,网络中的节点为作者。作者之间有连边则代表这两个作者之间有过合作。边的权重代表这两个作者之间的合作次数。构建出来的网络中共有 个节点和 条边。图 年平均每篇论文的作者人数的变化趋势注:年平均每篇论文的作者人数呈波动上升趋势。网络中节点的度是指与该节点相连接的节点的个数。在合作者网络中一个节点的度表示该节点合作的对象总人数,体现了该作者的合作广度。某个作者的度越大,说明该作者的合作范围越广。网络中节
22、点 的度可表示为 其中 为网络中的节点总数,表示节点 和节点 之间是否有连边。若有连边,则;若无连边,则。始终令。为该网络的邻接矩阵。本文构建的合作者网络中有 的节点(个)的度为,即仅与网络中的另外一个作者合作过。表 展示了度较大的前三位统计学者,并且仅展示作者最常使用的姓名和最新的科研单位,下文同理。从表 中可以看出,来自加拿大的麦克马斯特大学的,的度最大,为,即该作者与其他 位统计学者有过合作关系。,也是所有作者当中在 个统计学期刊上发表论文数量最多的作者,高达 篇。表 度前三的统计学者作者姓名科研单位国家度发表论文数,加拿大,美国,比利时 注:一个作者的度表示其合作对象的人数。第 期 张
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 合作者 网络 社区 发现 学科 主题 分析 国际 统计学 期刊
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。