基于随机游走和GAN的异质信息网络表征方法.pdf
《基于随机游走和GAN的异质信息网络表征方法.pdf》由会员分享,可在线阅读,更多相关《基于随机游走和GAN的异质信息网络表征方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023 年第 5 期计算机与数字工程收稿日期:2022年11月13日,修回日期:2022年12月19日作者简介:蒋宗礼,男,博士,教授,博士生导师,研究方向:网络信息搜索与处理。谢欣彤,女,硕士研究生,研究方向:网络表征学习。1引言各种类型的网络可以看做是这个世界在某些方面的抽象,关于它的研究也一直是学术界的一个热点。如社交网络,它是人们社会关系网络的抽象,这种网络仅由一种类型的节点和边构成,也被称为同质信息网络。与之相对应的,包含一种或多种类型的节点和边的网络被称为异质信息网络(Heterogeneous Information Network,HIN)1。相较于同质信息网络,HIN将网络
2、中的对象和关系进行了区分,能够表达更丰富的信息,如图1所示。图1HIN举例HIN中通常包含大量的节点,这些节点分布在高维稀疏空间中。复杂而庞大的网络数据往往难以处理2,网络表征学习(Network RepresentationLearning,NRL)3则是应对以上问题的一种典型方总第 403期2023 年第 5期计算机与数字工程Computer&Digital EngineeringVol.51No.5基于随机游走和 GAN 的异质信息网络表征方法蒋宗礼谢欣彤(北京工业大学信息学部北京100124)摘要近年来,异质信息网络的表征学习逐渐成为了研究热点。已有的研究中,有使用生成对抗网络来应对这
3、个任务的方法,取得了不错的效果。但是该方法未能有效地利用节点的上下文语义信息。为此,论文提出一种结合生成对抗网络和截断随机游走思想的异质信息网络表征学习方法。首先使用截断随机游走方法获取一个节点的上下文信息,也即游走出的路径,然后基于这些路径借助生成对抗网络来训练模型。基于标准数据集的实验也证明了论文方法的有效性。关键词异质网络;表征学习;随机游走;生成对抗网络中图分类号O141.4DOI:10.3969/j.issn.1672-9722.2023.05.023Heterogeneous Network Representation Learning Based on RandomWalk a
4、nd GANJIANG ZongliXIE Xintong(Faculty of Information Technology,Beijing University of Technology,Beijing100124)AbstractIn recent years,representational learning of heterogeneous information networks has gradually become a researchhotspot.In the previous studies,there is a method to deal with it by u
5、sing generative adversarial network,which has achieved goodresults.However,this method fails to make use of the nodes contextual semantic information effectively.Therefore,this paper proposes an approach combining generative adversarial network and truncated random walk to apply to representation le
6、arning of heterogeneous information network.Firstly,the context of a node is obtained through truncated random walk algorithm,it is the traversedpaths.Then based on these paths,the model is trained under the framework of generative adversarial network.Experiments based onstandard data sets show the
7、effectiveness of our approach.Key Wordsheterogeneous information networks,representation learning,random walk,GANClass NumberO141.41101第 51 卷法。NRL将网络中的节点在高维空间的稀疏向量表示映射成低维空间稠密的向量表示,能够在一定程度上保留原始网络中的信息。由于低维的向量很容易被机器学习算法处理,故可有效地应用于节点分类、聚类、链接预测、社区发现和推荐等任务中4。本文的研究任务就是HIN的表征学习。目前已经有一些关于 NRL 的工作。Perozzi 等提出
8、的DeepWalk5就是一种经典的NRL方法。但该方法仅适用于同质信息网络的表征学习,在HIN上的表征学习效果并不好。Goodfellow等提出的生成对抗网络(Generative Adversarial Network,GAN)6由一个生成网络和一个判别网络组成,通过两个神经网络相互博弈的方式进行学习。Hu 等将其应用于HIN的表征学习,提出了HeGAN7。该方法利用一个节点的邻居节点作为该节点的上下文语义信息,融合到模型中,取得了不错的效果。但是,仅仅考虑邻居节点并不能完全反应该节点的上下文信息。因此我们提出利用DeepWalk的随机游走的方法,尽可能多地获取一个节点的上下文信息,再结合
9、GAN 的生成对抗思想,提出 RHGAN模型,并取得了较好的效果。2相关研究随着机器学习技术的发展,学习网络中的节点特征成为了一项新兴研究任务89。2014年,Perozzi等提出的 DeepWalk通过随机游走遍历网络中的节点,得到有序的节点序列。利用Word2Vec10思想和skip-gram11模型,由单个节点预测前后序列,从而学习得到该节点的向量表示。该方法可以处理无权重的无向图。LINE12由 Tang 等于 2015年提出,该算法保留了节点的一阶相似度和二阶相似度,可以处理任意类型的大规模网络,包括有权重或无权重的有向或无向图。2016年,Grover等在DeepWalk的基础上,
10、通过引入两个超参数p和q来控制游走策略,即采用宽度优先搜索或广度优先搜索进行游走,从而提出了node2vec13。该方法可处理有权重或无权重的有向或无向图。由同质信息网络表征学习方法得到启发,一些学者尝试将同质信息网络中的NRL思想应用到HIN中。Dong等采用 了 node2vec 中 的 随 机 游 走 的 思 想,结 合Skip-gram模型,提出了metapath2vec14。该方法对随机游走和Skip-gram模型分别进行改进,采用基于元路径的方式来控制随机游走,同时使改进后的Skip-gram模型能够在输出层上区分节点的类型。Wang等由GAN得到启发,提出了GraphGAN 15
11、。该方法根据生成器在线生成策略,使生成器为每个节点生成假样本。将真实数据与生成器生成数据同时输入到判别器中,由判别器进行区分,并将区分结果反馈给生成器。但该方法仅适用于同质信息网络。Hu等提出的HeGAN方法,结合GAN的思想,设计了关系感知的判别器和生成器。广义生成器虽然能够直接从连续分布中采样“潜在节点”,并且不局限于原始网络中的节点,但没有充分考虑节点的上下文信息。3本文提出的模型-RHGAN本文提出的RHGAN模型利用随机游走,将节点的上下文信息融入到GAN中,以充分挖掘网络的结构和语义信息。模型中用到的参数如表1所示。表1RHGAN模型用到的参数参数NeG、eDMG、MDPRpG、D
12、含义异质信息网络(HIN)生成模型、判别模型的表征向量生成模型、判别模型的关系矩阵节点通过随机游走得到的路径的集合P=(p1p2p3)路径p中所有关系的序列Rp=(r1r2r3)生成模型、判别模型的参数3.1截断的随机游走随机游走就是在网络上不断重复地随机选择游走路径,最终形成一条贯穿网络的路径。从某个特定的端点开始,游走的每一步都从与当前节点相连的边中随机选择一条,沿着选定的边移动到下一个顶点,不断重复这个过程。而截断随机游走(Truncated Random Walk)实际上就是长度固定的随机游走。它在DeepWalk中被用于同质网的表征学习,算法1对该算法进行了描述。算法1 截断随机游走
13、(Truncated Random Walk)输入:源节点u,随机游走步长sl输出:以节点u为起点的路径uPath1)将u加入uPath;2)while uPath的长度!=2*sl+1 do3)令currU为uPath中的最后一个节点;4)从currU所具有的关系中随机选取一种关系作为selR5)从currU通过关系selR链接到其他邻居节点的序列中随机选择一个节点作为selU6)分别将selR、selU加入uPath7)end while蒋宗礼等:基于随机游走和GAN的异质信息网络表征方法11022023 年第 5 期计算机与数字工程直观上,节点u的上下文和u之间的关系更加紧密,可以用u的
14、上下文来表示u所蕴含的语义信息。我们使用截断随机游走算法,来获取节点u的语义信息。我们为每一个节点采样一批路径,路经p 表示为p:ur1vr2u3r3rslusl+1,其中,u表示源节点,v表示节点u的邻居,sl表示随机游走的步长。我们令Rp=(r1r2r3rsl),表示路径 p中所有关系的序列。同时,我们将采样得到的路径作为新的训练集,用ucontext表示节点u的上下文。以图1中的HIN为例,从节点business1出发,随机游走步长分别为1、2、3时,我们可以得到三条游 走 的 路 径p1:business1re3star level 1,p2:business1re2user1re1b
15、usiness2,以 及p3:business1re2user1re1business2re3starlevel 2。这些路径本身包含了可解释的语义,如p1表示商家business1的星级star level 1,p2表示用 户user1同 时 关 注 了 商 家business1和business2,p3表示用户user1同时关注了商家business1和星级为star level 2的商家business2。正是因为这些随机游走出来的路径包含了丰富的语义,因此我们希望通过随机游走的方式尽可能多的游走一个节点的上下文,以充分挖掘这些语义信息。3.2RHGAN中的判别模型按算法1对节点u进行随
16、机游走,可以得到路径p:ur1vr2u3r3rslusl+1,路径 p 中的关系序列Rp为(r1r2r3rsl),v为u的邻居节点。u 的上下文信息ucontext由 u 和Rp得到。令ucontext为正样本。负样本产生方式如下:随机选择Rp中的一种关系进行替换,得到Rp=(r1r2r3rsl),此时路径中的两个节点存在一种错误的关系。负样本即为u的错误的上下文信息ucontext,由u和Rp得到。将路径p放入生成模型中,得到假样本,即u的生成的上下文信息uGcontext。判别模型的目的是对采样得到的正样本、负样本和假样本进行判别,根据节点u的上下文信息和节点u的邻居的关系,从而判断该样本
17、是否来自原始网络。判别模型的目标函数如式(1)所示。D()ev|(uRp);D=11+exp(eDuTMDRpev)(1)eDu表示节点u在判别模型中的表示向量,MDRp表示路径p中的关系序列Rp在判别模型中的矩阵乘积,MDRp=MDr1MDr2MDr3MDrsl。若为正确的上下文信息,则节点u的邻居节点v与u的上下文信息相近,判别器的值接近1,说明该样本属于原始网络的可能性较大;反之,判别器的值接近0,说明该样本属于原始网络的可能性较小。正 样 本 的 损 失 函 数 如 式(2)所 示。uRpvP表示从集合P中取路径p,u为p中的源节点,Rp为p中的关系序列,v为p中节点u的邻居。LDp=
18、EuRpvP(logD()eDv|(uRp)(2)负样本的损失函数如式(3)所示。RpPRp表示随机替换Rp中的任意一种关系得到Rp。LDn=EuvPRpPRp(log(1D()eDv|(uRp)(3)假样本的损失函数如式(4)所示。ev表示由生成模型生成的上下文信息的向量表示。LDf=EuRpPevG()uRp;G(log(1D()ev|(uRp)(4)判别模型的损失函数由正样本、负样本和假样本的损失函数构成,如式(5)所示。D是判别模型中用于控制正则化的参数。D是判别模型中所有节点u的向量表示eDu和对应关系序列Rp的矩阵MDRp的集合,由最小化判别模型的损失函数进行更新。LD=LDp+L
19、Dn+LDf+D|D|22(5)3.3RHGAN中的生成模型将路径p和随机噪声放入生成模型中,用以生成节点u的上下文信息的表示向量。生成模型的目标函数如式(6)所示:G()uRp;G=f(WLf()w1e+b1+bL)(6)f表示激活函数,模型所采用的激活函数为带泄露线性整流函数(Leaky ReLU)。同时,为增强伪装性,还增加了多层感知器,WL、bL分别表示第L层的权重矩阵和偏置矩阵。e的求法如式(7)所示。e(uRp)=eGuTMGRp+z(7)eGu表示节点u在生成模型中的表示向量,MGRp表示路径p中关系序列Rp在生成模型中的矩阵乘积,MGRp=MGr1MGr2MGr3MGrsl,z
20、表示随机噪声。生成模型的目标是尽可能地生成节点u的真实的上下文信息,以混淆判别模型的判断。其损失函数定义如式(8)所示。LG=EuRpPevG()uRp;G()logD()ev;uRp1103第 51 卷+G|G|22(8)G是生成模型中用于控制正则化的参数。G是生成模型中所有节点u的向量表示eGu和对应关系序列Rp的矩阵MGRp以及多层感知器中的参数WL和bL的集合,由最小化生成模型的损失函数进行更新。RHGAN模型的整体训练过程如算法2所示。算法2RHGAN模型训练输入:HIN N;模型的训练次数epoch;生成模型、判别模型的训练次数Gepoc、Depoc;每个节点的采样次数nsampl
21、e;随机游走步长sl输出:eG、eD1)初始化D、G2)for e=0;eepoch do:3)for n=0;nDepocdo:4)for num=0;numnsampledo:5)N中每个节点进行步长为sl的随机游走,得路径p6)由p可得路径p中的源节点u的关系序列Rp7)由u和Rp得到正样本,即u的上下文信息8)随机替换路径p中的任一关系得到Rp(RpPRp),由u和Rp得到负样本9)将路径p放入生成模型中,得到u的生成的上下文信息G()uRp;G10)通过式(5),更新D11)end for12)end for13)for n=0;nGepocdo:14)for num=0;numns
22、ampledo:15)N中每个节点进行步长为sl的随机游走,得路径p16)由p可得路径p中的源节点u的关系序列Rp17)通过u和Rp生成u的上下文信息G()uRp;G18)通过式(8),更新G19)end for20)end for21)end for4实验与结果4.1数据集本文在YELP数据集上验证了RHGAN模型的有效性。YELP数据集中的实体类型及数量如表2(a)所示,关系类型及数量如表2(b)所示。由表2(a)和2(b)可以看出,YELP数据集中包含用户(User,U)、商家(Business,B)、服务(Service,S)、星级(Star level,St)、预定(Reservat
23、ion,R)六种节点类型和B-U、U-B、B-S、S-B、B-St、St-B、B-R、R-B八种关系类型,共计3913个节点,38680条边。表2(a)YELP数据集中的实体类型及数量实体类型UserBusinessServiceStar LevelReservation总计数量1,2862,6142923,913表2(b)YELP数据集中的关系类型及数量关系类型Business-User/User-Business(B-U/U-B)Business-Service/Service-Business(B-S/S-B)Business-Star level/Star level-Business
24、(B-St/St-B)Business Reservation/Reservation-Business(B-R/R-B)总计数量30,8382,6142,6142,61438,6804.2评价指标本文通过RHGAN在聚类任务上的表现,来验证其有效性。归一化互信息(NMI)常被选作为评价聚类效果的标准。NMI值越大,表明聚类效果越好。其范围为 0,1。计算方法见式(9)。NMI()XY=I(X;Y)(H()X+H(Y)/2)(9)I表示互信息,即两个随机变量X和Y之间的关联程度。X 与 Y 关系越密切,则I(X;Y)的值越大。计算方法见式(10)。I()X;Y=kjP()wkcjlogP()w
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 游走 GAN 信息网络 表征 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。