![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于对抗训练的伪标签约束自编码器.pdf
《基于对抗训练的伪标签约束自编码器.pdf》由会员分享,可在线阅读,更多相关《基于对抗训练的伪标签约束自编码器.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 11期2023年 11月Computer Engineering 计算机工程基于对抗训练的伪标签约束自编码器富坤,孙明磊,郝玉涵,刘赢华(河北工业大学 人工智能与数据科学学院,天津 300401)摘要:社会网络的节点经常存在标注缺失、标注错误和人工标注成本高的现象,这种现象对监督或半监督的网络表示学习效果产生了不利的影响。提出一个自监督学习的网络表示学习模型基于对抗训练的伪标签约束自编码器(AT-PLCAE)。设计一个伪标签约束自编码器,通过缩短原始图的伪标签和网络表示的伪标签之间的距离,减少编码过程中产生的信息损失,约束和引导模型有效学习。同时,设计与伪标签约束自编码器相适应
2、的对抗网络,组织表示的潜在空间结构。将潜在表示后验分布与输入的特定先验分布相匹配后,该模型能够缓解过拟合问题并提升模型的泛化能力。在 Cora、Citeseer、Wiki和 Pubmed 这 4 个公开数据集上进行节点分类实验,结果表明,AT-PLCAE 模型在分类准确率方面学习效果优于基准方法,与基准方法的最高分类准确率相比,在 Cora数据集上提升 0.018,在 Citeseer和 Pubmed 数据集上均提升 0.011。同时消融实验结果表明,针对伪标签约束自编码器的对抗训练增强了模型的泛化能力。关键词:自监督学习;网络表示学习;伪标签;自编码器;对抗训练;泛化开放科学(资源服务)标志
3、码(OSID):中文引用格式:富坤,孙明磊,郝玉涵,等.基于对抗训练的伪标签约束自编码器 J.计算机工程,2023,49(11):123-130.英文引用格式:FU K,SUN M L,HAO Y H,et al.Adversarial training based pseudo label constraint auto-encoder J.Computer Engineering,2023,49(11):123-130.Adversarial Training Based Pseudo Label Constraint Auto-EncoderFU Kun,SUN Minglei,HAO
4、Yuhan,LIU Yinghua(School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China)【Abstract】Nodes in social networks often suffer from missing labels,labeling errors,and high manual labeling costs,which negatively affect supervised and semi-supervised network representation lea
5、rning.In this paper,a self-supervised network representation learning model,the Adversarial Training based Pseudo Label Constraint Auto-Encoder(AT-PLCAE)is proposed,whereby an autoencoder constrained by pseudo-label is designed.By reducing the distance between the pseudo-label of the original graph
6、and that of the network representation,the model reduces information loss during the coding process,thereby learning effectively.Adversarial networks are designed so that the pseudo-label-constrained auto-encoder can organize the potential spatial structure of the representation layer.By forcing the
7、 posterior distribution of the latent representation to match the specific prior distribution of the input,the model alleviates the overfitting problem and improves generalization.Node classification experiments on four public datasets:Cora,Citeseer,Wiki,and PubMed,showed that the AT-PLCAE model is
8、superior to the benchmark method.Compared with the benchmark method,AT-PLCAE improved the highest classification accuracy value by 0.018 on Cora,0.011 on CiteSeer,and PubMed,respectively.The ablation experiment results showed that adversarial networks designed for the pseudo-label-constrained auto-e
9、ncoder enhance the generalization of the model.【Key words】self-supervised learning;network representation learning;pseudo label;auto-encoder;adversarial training;generalizationDOI:10.19678/j.issn.1000-3428.00659360概述 现实世界中存在着大量的图结构数据,如引文网络、社交网络、蛋白质相互作用网络等,研究和挖掘网络深层的信息具有重大的意义。网络表示学习1是研究图结构数据最常用的方法,其目
10、的是学基金项目:国家自然科学基金面上项目(62072154)。作者简介:富 坤(1979),女,副教授、博士,主研方向为社会网络分析、网络表示学习;孙明磊、郝玉涵、刘赢华,硕士研究生。收稿日期:2022-10-08 修回日期:2023-01-11 Email:人工智能与模式识别文章编号:1000-3428(2023)11-0123-08 文献标志码:A 中图分类号:TP182023年 11月 15日Computer Engineering 计算机工程习网络顶点的潜在、低维表示,同时保留网络拓扑结构、顶点内容和其他边信息,之后这些作为节点表示的向量就可以应用到后续的任务场景中,如节点分类、链接预
11、测、社区发现、推荐系统等任务。由于现实中的网络节点存在着标注缺失、标注错误和人工标注成本高的现象,因此监督或半监督的网络表示学习受到了很大的限制。为了解决这一问题,图自监督学习从数据本身自动获取监督信息,而不需要手动标注,这样模型就能够从未标记数据中学习更多的信息,从而在各种下游任务中表现出更好的性能2-4。图自编码器是一种重要的自监督学习模型5,它利用输入数据作为监督,通过编码得到低维的中间表示层,然后表示层再由解码器重构输入数据。整个学习过程以输入数据作为监督信号,无需引入节点标签,因此,利用自编码器的 自 监 督 优 势 进 行 网 络 表 示 学 习 受 到 了 广 泛 的关注。图自编
12、码器算法在下游的任务中被证明是有效的,但仍然有 2个重要的问题有待改进:1)由于缺乏有效的约束,导致编码过程中隐含的类别信息丢失,影响模型的学习能力。对此,一个可行的解决办法是设计相应的约束模块,最小化原始数据的生成类别概率分布和网络表示的生成类别概率分布之间的距离,减少编码过程中造成的隐含的类别信息损失,从而使得网络表示在下游分类任务中表现出更好的性能。2)图自编码器算法通过最小化输入和重构的距离构造目标函数,忽略了中间表示层的潜在数据分布,网络表示学习受限于原始数据的规模,在数据量相对较少时容易产生过拟合,导致模型泛化能力弱,在处理真实世界的稀疏网络和有噪声的网络数据时容易效果不佳。处理这
13、个问题的方法是引入正则化约束,强制潜在空间服从特定的概率分布。AAE6、AFL7、ALI8、ARGA9利用对抗框架去解决这个问题,它们引入对抗网络去组织潜在空间,通过误差反向传播的方式使得潜在空间服从特定的先验概率分布,从而增强模型的泛化能力。本文提出一种新的网络表示学习模型:基于对抗训练的伪标签约束自编码器(Adversarial Training based Pseudo Label Constraint Auto-Encoder,AT-PLCAE)。该模型能够充分利用网络中的结构和属性信息,减少编码信息损失,增强模型的泛化能力。本文主要工作如下:1)在自编码器的潜在空间设计一个伪标签约束
14、模块,通过减小原始图的伪标签和网络表示的伪标签之间的距离来约束模型,引导模型有效地学习,减小编码过程中产生的信息损失;2)设计与伪标签约束自编码器相适应的对抗网络,组织表示的潜在空间结构,使得潜在表示后验分布与输入的特定先验分布相匹配,缓解过拟合问题,增强模型的泛化能力。1相关工作 基于生成方法的图自监督表示学习的思想源于自动编码器,通过编码器网络将数据向量压缩为低维表示,然后采用解码器网络重构数据向量,将输入数据作为监督信号,以输入数据和重构数据的距离(相似性)来衡量表示学习的成果。该方法不依赖于数据标签,而是从无标签的数据中学习到良好的表示,再应用到下游的多个应用场景中。根据重构的内容不同
15、,基于生成方法的图自监督表示学习可分为属性生成和结构生成 2类。常见的基于属性生成的图自监督表示学习方法有 Graph Completion10、MGAE11、GALA12等。Graph Completion 掩 盖 部 分 结 点 的 属 性,采 用GCN13进行编码,利用上下文信息(输入的拓扑结构和未掩盖的属性信息)恢复掩盖的节点属性,帮助模型学习到更好的特征表示;MGAE 将邻接矩阵和随机破坏的结点属性矩阵通过 GCN 网络映射成重构的属性矩阵,通过多次输入不同的破坏节点属性矩阵,最小化结点属性矩阵和重构节点属性矩阵的距离偏差,以生成结构和属性融合良好的特征矩阵;GALA 提出一个完全对
16、称的图卷积自动编码器,编码器执行拉普拉斯平滑,而解码器执行拉普拉斯锐化。通过训练这个拉普拉斯平滑-锐化图自动编码器模型,可以将输入图重建成原始的属性特征矩阵。常见的基于结构生成的图自监督表示学习方法有 SDNE14、GAE15、VGAE16等。SDNE 采用自编码器重构拓扑结构,通过一阶相似度以及二阶相似度约束自编码器得到网络节点的表示。GAE 采用GNN13,16-17编码器将原始图映射到潜在空间,然后经由内积函数解码成重构邻接矩阵,最后应用均方误差最小化原始邻接矩阵和重构邻接矩阵的距离。VGAE 将变分自动编码器18的思想集成到 GAE 中,它采用了一个基于推理模型的编码器,生成 2 个并
17、行输出层的均值和偏差,通过重采样技术得到潜在空间后验概率分布,再采用 KL 散度来测量先验分布和后验分布的距离,从文献报道来看,GAE 和VGAE 在链路预测和图聚类任务上都取得了很好的结果。2本文方法 给定一个图G=VAX,其中,V表示节点集合,n=|V|表示节点数量,A=01n n表示邻接矩阵,X Rn D表示输入节点的属性矩阵。AT-PLCAE 模型的目标是将 G 映射到低维空间,生成图的低维表示Z Rn d,其 中,d为 网 络 表 示 矩 阵 的 维 度 且d D。Z作为嵌入矩阵,能很好地保留拓扑结构信息和属性信息,并用于下游节点分类任务。AT-PLCAE 由编码-解码阶段和对抗阶段
18、组成,如图 1 所示(彩色效果见 计算机工程 官网 HTML124第 49卷 第 11期富坤,孙明磊,郝玉涵,等:基于对抗训练的伪标签约束自编码器版,下同)。编码-解码阶段的具体过程如下:首先,为了确保自编码器的重构信息能充分接近原始输入图的结构信息和属性信息,引入 PPMI矩阵来融合图结构信息和属性信息;其次,为了得到良好的网络表示层,采用编码器生成潜在空间,再经由解码器重构PPMI 矩阵,通过重构损失函数来优化潜在空间;最后,为了在编码过程中减少信息损失,在潜在空间设计一个伪标签约束模块,通过减小原始数据的伪标签和潜在空间数据的伪标签之间的距离来优化编码器。对抗阶段的具体过程如下:为了解决
19、潜在空间缺乏组织性和产生过拟合的问题,引入对抗网络去组织潜在空间,使得潜在空间服从特定的先验概率分布。上述 2 个阶段交替进行训练,从而优化整个模型,最终生成最优的潜在空间。2.1自编码器设计自编码器设计由 2 个部分组成:一部分为结构-属性融合矩阵,用于将图结构信息和属性信息统一到一个融合矩阵中;另一部分为伪标签约束自编码器,通过设计伪标签约束项来减小编码产生的信息损失。2.1.1结构-属性融合矩阵 PPMI为了充分利用结构信息和属性信息,将图的结构信息和属性信息融合到 PPMI矩阵,该矩阵融合了节点的高阶信息和邻域关联信息,并将稀疏的表示矩阵转化成信息率较高的高信息密度表示矩阵。在构建 P
20、PMI矩阵时,先融合结构信息和属性信息,形成结构-属性联合转移矩阵;再通过随机冲浪算法形成共现概率矩阵;最后生成 PPMI 矩阵。构建 PPMI矩阵的具体步骤如下:1)为了融合和平衡结构信息和属性信息这 2 种信息源,根据 DNRL19算法融合结构信息和属性信息的策略,生成结构-属性联合转移矩阵T,计算方法见式(1):Ti=TXiTAi=0TAi+()1-TXi其他(1)其中:TA表示结构转移概率,TX表示属性转移概率,分别从结构和属性 2 个角度描述从节点vi到节点vj的转移概率;超参数用于调整结构转移矩阵和属性转移矩阵所占的比重,越大,结构转移矩阵所占的比重越大,越小,属性转移矩阵所占的比
21、重越大。2)为了有效捕获节点正确的上下文信息,克服随机游走过程中存在的步长限制问题,采用随机冲浪20策略生成共现概率矩阵P,计算方法见式(2):Pk=Pk-1T+(1-)P0(2)其中:每个实值表示第 i 个节点在 k 步转换后到达第 j 个节点的概率;P0为初始的单位矩阵;超参数表示进行随机冲浪过程的概率,而随机冲浪过程返回到原始节点并重新启动的概率为 1。3)为了避免转移到次要节点的概率过大(这种情况会降低整体表示结构的准确性),根据点态互信息(PMI)矩阵20的原理对共现概率矩阵P进行归一化,计算得到 PPMI矩阵,计算方法见式(3):PPPMI(ij)=max(lbP(ij)P(i)P
22、(j)0)(3)其中:P(i)=jP(ij)表示对第 i 行的共现概率之和;P(j)=iP(ij)表示对第 j列的共现概率之和。2.1.2伪标签约束自编码器编码器将 PPMI 矩阵作为编码器的输入并生成潜在空间。生成的潜在空间分为 2 个部分:一部分为标签隐藏层,该层主要反映节点的伪标签信息;另一部分为表示隐藏层,即嵌入矩阵Z。表示隐藏层经由解码器得到重构的 PPMI矩阵。通过最小化重构损失函数来训练编码器和解码器,得到优化后的表示隐藏层。图 1模型框架Fig.1Model framework1252023年 11月 15日Computer Engineering 计算机工程整个自编码器网络采
23、用全连接网络,将 PPMI矩阵(用M表示)作为编码器的输入,生成标签隐藏层C=fc(Mc)和表示隐藏层Z=fz(Mz)。为了使 2个隐藏层承载不同的信息,在编码器的最后一层权重不共享,标签隐藏层采用 Softmax 函数激活,表示隐藏层不激活,而其余层权重共享。然后由生成的表示隐藏层解码得到重构的 PPMI 矩阵M=g(Zg),最后通过最小化输入数据和重构数据之间的距离进行优化,损失项计算方法见式(4):Lr=12M-M22(4)为了减小编码过程造成的隐含的类别信息损失,本文设计一个伪标签约束模块:应用一个生成器来生成表示隐藏层的伪标签,代表网络表示的类别概率分布,而标签隐藏层代表着输入数据的
24、类别概率分布,这 2 个概率分布都代表节点类别的概率分布,应属于同一分布,所以,当这 2 个概率分布越接近,编码过程造成的隐含的类别信息损失会越少。原始数据由编码器分别生成标签隐藏层C和表示隐藏层Z。原始数据的标签隐藏层C可以表示原始数据的伪标签Yc,再设置一个全连接神经网络生成器来生成表示隐藏层Z的类别Cz=fzc(Zz),用来代表表示隐藏层的伪标签Yc。采用交叉熵损失项Lc来衡量这 2种标签的距离,见式(5):Lc=Ycln Yz+(1-Yc)ln(1-Yz)(5)为了在模型训练过程中使 2 个层的分类标签更接近,应该最小化交叉熵损失项Lc。编码-解码阶段的最终目标是生成良好的表示隐藏层Z
25、。为了达到这一目标,编码-解码阶段联合自编码器和伪标签约束模块同时进行学习,损失函数见式(6):L=Lr+Lc(6)其中:为超参数,用于控制自编码器损失项和伪标签约束损失项的比重。2.2对抗阶段编码-解码阶段采用的是基本的自编码器模型,直接得到的表示隐藏层空间中缺乏可解释和可利用的结构,即缺乏规则性,易产生过拟合现象。为解决这一问题,模型生成的潜在表示后验分布应与输入的特定先验分布相匹配,从而有规则地组织隐藏空间的结构。变分自编码器(VAE)18通过使编码器生成隐空间服从一定概率分布,并在损失函数中添加一 个 正 则 项 来 调 整 隐 空 间 概 率 分 布 的 规 则 性。DNRL 算法和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 对抗 训练 标签 约束 编码器
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。