基于对比学习的全局增强动态异质图神经网络.pdf
《基于对比学习的全局增强动态异质图神经网络.pdf》由会员分享,可在线阅读,更多相关《基于对比学习的全局增强动态异质图神经网络.pdf(14页珍藏版)》请在咨信网上搜索。
1、基于对比学习的全局增强动态异质图神经网络焦鹏飞1,4刘欢2吕乐3高梦州1张纪林4刘栋31(杭州电子科技大学网络空间安全学院杭州310018)2(杭州电子科技大学计算机学院杭州310018)3(河南师范大学计算机与信息工程学院河南新乡453007)4(数据安全治理浙江省工程研究中心杭州310018)()Globally Enhanced Heterogeneous Temporal Graph Neural NetworksBased on Contrastive LearningJiaoPengfei1,4,LiuHuan2,LLe3,GaoMengzhou1,ZhangJilin4,andL
2、iuDong31(School of Cyberspace,Hangzhou Dianzi University,Hangzhou 310018)2(School of Computer Science and Technologyy,Hangzhou Dianzi University,Hangzhou 310018)3(College of Computer and Information Engineering,Henan Normal University,Xinxiang,Henan 453007)4(Data Security Governance Zhejiang Enginee
3、ring Research Center,Hangzhou 310018)AbstractGraphneuralnetworks(GNNs)haveattractedextensiveattentioninrecentyearsduetothepowerfulrepresentation capabilities for graph-structured data.Existing GNNs mainly focus on static homogeneous graph.However,complex systems in the real world often contain multi
4、ple types of dynamically evolving entities andrelationships,which are more suitable for modeling as heterogeneous temporal graphs(HTGs).Currently,HTGrepresentation learning methods mainly focus on the semi-supervised learning paradigm,which suffers from theproblemsofexpensivesupervisoryinformationan
5、dpoorgeneralization.Aimingattheaboveproblems,weproposeagloballyenhancedGNNforHTGbasedoncontrastivelearning.Specifically,weuseaheterogeneoushierarchicalattention mechanism to generate proximity-preserving node representations based on historical information.Furthermore,contrastivelearningisusedtomaxi
6、mizethemutualinformationbetweentemporallocalandglobalgraphrepresentations,enrichingtheglobalsemanticinformationofnoderepresentations.Theexperimentalresultsshowthattheself-supervisedHTGrepresentationlearningmethodproposedinthispaperimprovestheAUConthelinkpredictiontaskofmultiplereal-worlddatasetsbyan
7、averageof3.95%.Key words dynamic link prediction;heterogeneous temporal graphs;graph representation learning;contrastivelearning;self-supervisedlearning摘要图神经网络由于其对图结构数据的强大表征能力近年来受到广泛关注.现有图神经网络方法主要建模静态同质图数据,然而现实世界复杂系统往往包含多类型动态演化的实体及关系,此类复杂系统更适合建模为动态异质图.目前,动态异质图表示学习方法主要集中于半监督学习范式,其存在监督信息昂收稿日期:2023-03-
8、31;修回日期:2023-06-01基金项目:浙江省自然科学基金项目(LDT23F01015F01,LDT23F01012F01));浙江省属高校基本科研业务费资助(GK229909299001-008);国家自然科学基金项目(62072160,62003120)ThisworkwassupportedbytheZhejiangProvincialNaturalScienceFoundationofChina(LDT23F01015F01,LDT23F01012F01),theFundamentalResearch Funds for the Provincial Universities o
9、f Zhejiang(GK229909299001-008),and the National Natural Science Foundation of China(62072160,62003120).通信作者:刘栋()计 算 机 研 究 与 发 展DOI:10.7544/issn1000-1239.202330226JournalofComputerResearchandDevelopment60(8):18081821,2023贵和泛化性较差等问题.针对以上问题,提出了一种基于对比学习的全局增强动态异质图神经网络.具体地,所提网络首先通过异质层次化注意力机制根据历史信息来生成未来的邻近
10、性保持的节点表示,然后通过对比学习最大化局部节点表示和全局图表示的互信息来丰富节点表示中的全局语义信息.实验结果表明,提出的自监督动态异质图表示学习方法在多个真实世界数据集的链路预测任务上的 AUC 指标平均提升了 3.95%.关键词动态链路预测;动态异质图;图表示学习;对比学习;自监督学习中图法分类号TP391网络(network)或图(graph)具有对实体及实体之间关系的通用建模能力,被广泛应用于描述现实世界网络,如社交网络、互联网和交通网络等15.为了捕获图数据中丰富的结构信息和语义信息,图表示学习(graphrepresentationlearning)近年来引起了广泛的研究热忱,并
11、在许多领域展现出其显著的性能优势6,如生物信息、智能交通、推荐系统等79.尽管取得了诸多重要成就,目前大部分图表示学习研究集中于单一节点类型的静态同构图(homogeneousstaticgraph).然而,现实世界中广泛存在着包含多种类型的动态演化实体及其交互关系的复杂系统.如图 1 所示,学术网络中包含“作者”(A)、“论文”(P)、“会议”(V)3 种类型的节点和“撰写/被撰写”“发表/被发表”等类型的动态交互关系,通过静态同构图结构难以对 其 进 行 良 好 建 模.而 动 态 异 质 图(heterogeneoustemporalgraph,HTG)由于包含动态演化的多种类型的实体及
12、其交互关系,可以自然地对此类包含多节点和边类型的动态复杂系统进行建模10.撰写发表?待预测边A1A2A3P2P1P3P4V1V2A1A2A3P2P1P3P4V1V2A1A2A3P2P1P3P4V1V2G(t1)G(t+1)G(t)G 异质图快照Fig.1Academicnetworkheterogeneoustemporalgraph图1学术网络动态异质图另一方面,当前针对动态异质图的表示学习方法主要采用半监督学习(semi-supervisedlearning)范式11,即结合无标签拓扑结构和标签信息来指导学习.这类方法通过良好学习输入图数据和监督信号之间的映射关系,在特定任务上通常有着较高
13、的准确率.然而,高质量标签数据通常昂贵而稀缺,需要耗费大量的人力资源和领域知识12-13.同时,在动态异质图数据中往往仅包含单一节点类型的静态标签数据,例如,学术网络异质图中通常仅包含“作者”节点的“研究领域”作为标签信息,并且此类静态标签无法反映网络随时间变化的动态性.因此,对于异质语义信息丰富的动态异质图数据,难以通过这类标签数据作为监督信息得到异质图中所有类型节点的动态表示.此外,在半监督学习范式下学习得到的节点表示往往还存在泛化性较差的问题.针 对 半 监 督 学 习 的 问 题,自 监 督 学 习(self-supervisedlearning)范式提出通过从数据中产生监督信号来指导
14、学习过程,在计算机视觉、自然语言处理等领域取得了显著成就14-15.其中,对比学习(contras-tivelearning)是自监督学习的一类经典方法,其通过构造正负样本对并最大化正样本对之间的一致性完成自监督学习13.尽管对比学习比自监督学习取得了明显的性能提升,但目前的相关研究仍主要集中于同质图数据,对动态异质图中包含的复杂的异质性和动态性信息进行自监督学习存在 2 点挑战:1)在异质性方面.如何自适应地捕获不同动态异质图中包含的异质性信息是挑战之一11,16-17.对于动态异质图每个快照的异质性信息的挖掘质量将影响最终的动态表示质量.对于单快照的异质图,基于元路径(meta-path)
15、的方法是目前常用的异质语义信息挖掘方式16,11,然而该类方法得到的表示质量严重依赖于元路径的设计,并且往往只能得到单一节点类型的语义相关性.此外,设计能够有效反映语义信息的元路径需要异质图数据的专家经验,对于异质拓扑较复杂的图数据的元路径设计存在一定困难.2)在动态性方面.如何从大量的历史快照中捕焦鹏飞等:基于对比学习的全局增强动态异质图神经网络1809获有价值的历史信息,从而支撑动态预测性任务是另一项挑战1820.真实世界中复杂系统往往存在随时间动态变化的特性,因此对其建模得到的异质图数据随时间而不断发生演化.如图 1 所示,随着学术网络中作者撰写和发表论文的增长,动态异质图数据不断新增边
16、,并且这种动态演化呈现出类型相关的规律性.从动态异质图的历史演化中捕获这种快照间的演化关系对于动态性预测任务至关重要.因此,本文设计了一种基于对比学习的全局增强动态异质图神经网络,其能够自适应地捕获动态异质图数据中存在的丰富异质性,是动态性信息的自监督方法.具体地,为了建模网络的异质性,本文在每个时间快照内通过层次注意力机制聚合每个节点及其邻域的节点特征,即空域消息传递,从而得到在当前时间快照中的局部拓扑表示;为了更好地融合历史信息,在时间维度上通过注意力机制聚合时间窗内的局部表示来捕获多时间快照网络的动态性特征;为了避免节点表示过度关注低阶结构,通过对比学习策略完成时序性局部表示和全局表示的
17、互信息最大化,从而使得节点包含更多的全局性信息;使用一个简单的解码器通过节点表示来生成未来时刻的异质拓扑结构,并与真实的拓扑结构计算重构误差,完成模型的优化.为了验证模型有效性,本文在 3 个真实世界动态异质图数据集上进行了多项实验.实验结果表明,相比于基线模型,本文提出的模型在动态链路预测实验中的 AUC 指标上得到了平均 3.95%的性能提升.总结而言,本文的贡献有 3 点:1)研究了现有表示学习无法综合处理动态性和异质性的问题,提出了一个基于对比学习的动态异质图表示学习方法.2)基于对比学习及层次注意力实现了全局增强动态异质图神经网络模型,其包含扰动图生成、动态异质图编码和生成-对比联合
18、优化 3 个模块.3)在 3 个数据集上进行了全面的实验来验证模型的有效性,实验结果表明本文提出的动态异质图表示方法在动态链路预测任务上相比于基线模型有了明显的性能提升.1相关工作图表示学习旨在学习一个能够将离散的图数据映射为低维嵌入表示的映射函数,使得低维嵌入表示能够良好地反映图数据包含的拓扑结构、原始特征和语义信息6.本节介绍基于图神经网络的方法和基于对比学习的图对比学习方法.1.1图神经网络图神经网络通过将图表示学习与深度神经网络方法相结合,近年来在许多领域展现出了卓越的性能,成为图数据表示与挖掘的主要方式6,21-23.根据图数据中是否存在多种节点和边类型,可以将现有的表示学习方法分为
19、面向包含单一节点和边类型的同质图神经网络和面向多类型的异质图神经网络.在同质图表示学习方面,GCN24提出通过谱图卷积的一阶近似在图结构数据上进行高效逐层传播从而完成图数据的半监督学习.为了进一步提升表达能力,VGAE25提出通过将 GCN 编码器24与变分自编码器26相结合完成图数据的无监督学习.另一方面,GraphSAGE27在图结构中采样指定数目的邻域节点进行消息传递并通过多种方式的聚合操作完成图数据的归纳式学习.为了使模型关注于最相关的邻域节点,GAT28通过注意力机制计算不同邻居的注意力系数来为不同节点分配不同的重要性.在动态图方面,EvolveGCN29通过使用循环神经网络来建模不
20、同时间快照下的 GCN 模型参数.此外,DySAT30提出在每个快照上通过在结构自注意力机制得到的节点表示的基础上,利用时序自注意力机制进行时间维度的节点聚合.然而,此类同质图神经网络假设图结构中节点和边类型均为单一类型,因此无法有效处理类型丰富的异质图数据.在异质图表示学习方面,metapath2vec31提出通过基于元路径指导的随机游走来采样节点的异质上下文信息,并通过 skip-gram32模型进行节点嵌入的学习.为了更好地利用知识图谱异质图中多类型关系的输入特征,R-GCN33通过对不同类型的邻域节点使用不同的权重矩阵进行图卷积聚合.为了能够对异质图数据中不同邻域的节点分配不同的注意力
21、权重,HAN34提出通过元路径将异质图转化为多个元路径图并通过节点级注意力机制进行邻域聚合,并通过语义级注意力机制聚合不同元路径表示从而得到最终表示.为了同时考虑不同边类型的重要程度,HGT35提出为不同节点类型和边类型分别计算注意力权重并进行异质注意力聚合.为了处理包含动态信息的异质图数据,DHNE36通过元路径指导的时序随机游走来采样时域和空域上下文信息并通过 skip-gram32模型来学习节点嵌入.类似地,THINE37同样通过时序随机游走序列来采样动态异质邻域序列,并通过 Hawkes过程和注意力机制聚合随机游走序列得到节点表示.1810计算机研究与发展2023,60(8)DyHNE
22、10通过对不同元路径图的一阶和二阶近似和加权求和来捕获结构和语义信息,并通过扰动更新的方式捕获动态变化.HTGNN38提出通过层次注意力机制来捕获每个时间快照和不同时间的节点表示.目前,异质图神经网络的研究主要关注于静态的异质图数据,这些方法无法从历史演化过程中捕获动态性信息.此外,基于元路径的方法如HAN34、DHNE10等,其有效性较依赖于关于图数据的专家经验和人工 设 计16,并 且 此 类 方 法 通 常 只 得 到 单 一 类 型的节点表示,无法完成涉及多类型节点的下游任务.1.2图对比学习图对比学习方法主要关注于不依赖人工标注信息的数据增强策略和代理任务的设计12-13.根据图数据
23、的类型,这里将对比学习方法分为针对同构图数据的方法和针对异质图数据的方法.针对同构图的方法中,GraphCL39通过 4 种图增强方式得到原始图的 2 个增强视图,并分别计算 2 个视图的图表示,最终通过最大化相同原始图表示之间的互信息进行对比学习.DGI40提出通过特征扰动得到负图,并通过以无监督的方式最大化原始图的局部拓扑表示和全图总结表示之间的互信息得到能够反映图结构信息的节点表示.类似地,MVGRL41通过图数据增强得到原始图的 2 个视角,通过最大化图 2 视图之间的互信息完成对比学习.组内注意力组内注意力组内注意力判别器?A1A2A3P2P1P3P4V1V2生成图G(T+1)异构图
24、解码器扰动图节点嵌入H原始图节点嵌入H原始图图嵌入gA2A1A3P1P3P4P2V2V1A1A2A3P2P1P3P4V1V2空域消息传递时域消息传递类内特征打乱动态异构图=G(t)Tt=1扰动图=G(t)Tt=1G(t)G(t)组间注意力时序注意力位置编码p(t)撰写发表?待预测边Fig.2Overallstructureofthegloballyenhancedheterogeneoustemporalgraphneuralnetworksbasedoncontrastivelearning图2基于对比学习的全局增强动态异质图神经网络整体结构尽管上述针对同构图的方法通过自监督学习取得了较高的
25、准确率,但这些方法只能处理节点和边类型单一的同构图数据,无法建模异质图数据中存在的丰富结构和语义信息.针对异质图的对比学习,HDGI42提出通过元路径图以及 2 层注意力机制来得到节点表示,并采用与 DGI40类似的对比策略完成局部表示与全局特征的互信息最大化.此外,HeCo43提出了一种异质图的网络模式与元路径图双视角的对比机制,并最大化2 个视角下共有元路径数较多的样本之间的互信息完成对比学习.上述针对异质图的对比学习方法尽管取得了明显的性能提升,然而它们均通过元路径图建模异质性,其有效性依赖于元路径的设计,在缺乏关于异质图数据的专家经验或面对较复杂的异质图数据时此类方法的性能优势较为有限
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 对比 学习 全局 增强 动态 异质图 神经网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。