分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于对抗训练的伪标签约束自编码器.pdf

基于对抗训练的伪标签约束自编码器.pdf

上传人：自信****多点

文档编号：2177260

上传时间：2024-05-22

格式：PDF

页数：8

大小：1.75MB

《基于对抗训练的伪标签约束自编码器.pdf》由会员分享，可在线阅读，更多相关《基于对抗训练的伪标签约束自编码器.pdf（8页珍藏版）》请在咨信网上搜索。

1、第 49卷第 11期2023年 11月Computer Engineering 计算机工程基于对抗训练的伪标签约束自编码器富坤，孙明磊，郝玉涵，刘赢华（河北工业大学人工智能与数据科学学院，天津 300401）摘要：社会网络的节点经常存在标注缺失、标注错误和人工标注成本高的现象，这种现象对监督或半监督的网络表示学习效果产生了不利的影响。提出一个自监督学习的网络表示学习模型基于对抗训练的伪标签约束自编码器（AT-PLCAE）。设计一个伪标签约束自编码器，通过缩短原始图的伪标签和网络表示的伪标签之间的距离，减少编码过程中产生的信息损失，约束和引导模型有效学习。同时，设计与伪标签约束自编码器相适应

2、的对抗网络，组织表示的潜在空间结构。将潜在表示后验分布与输入的特定先验分布相匹配后，该模型能够缓解过拟合问题并提升模型的泛化能力。在 Cora、Citeseer、Wiki和 Pubmed 这 4 个公开数据集上进行节点分类实验，结果表明，AT-PLCAE 模型在分类准确率方面学习效果优于基准方法，与基准方法的最高分类准确率相比，在 Cora数据集上提升 0.018，在 Citeseer和 Pubmed 数据集上均提升 0.011。同时消融实验结果表明，针对伪标签约束自编码器的对抗训练增强了模型的泛化能力。关键词：自监督学习；网络表示学习；伪标签；自编码器；对抗训练；泛化开放科学（资源服务）标志

3、码（OSID）：中文引用格式：富坤，孙明磊，郝玉涵，等.基于对抗训练的伪标签约束自编码器 J.计算机工程，2023，49（11）：123-130.英文引用格式：FU K，SUN M L，HAO Y H，et al.Adversarial training based pseudo label constraint auto-encoder J.Computer Engineering，2023，49（11）：123-130.Adversarial Training Based Pseudo Label Constraint Auto-EncoderFU Kun，SUN Minglei，HAO

4、Yuhan，LIU Yinghua（School of Artificial Intelligence，Hebei University of Technology，Tianjin 300401，China）【Abstract】Nodes in social networks often suffer from missing labels，labeling errors，and high manual labeling costs，which negatively affect supervised and semi-supervised network representation lea

5、rning.In this paper，a self-supervised network representation learning model，the Adversarial Training based Pseudo Label Constraint Auto-Encoder（AT-PLCAE）is proposed，whereby an autoencoder constrained by pseudo-label is designed.By reducing the distance between the pseudo-label of the original graph

6、and that of the network representation，the model reduces information loss during the coding process，thereby learning effectively.Adversarial networks are designed so that the pseudo-label-constrained auto-encoder can organize the potential spatial structure of the representation layer.By forcing the

7、 posterior distribution of the latent representation to match the specific prior distribution of the input，the model alleviates the overfitting problem and improves generalization.Node classification experiments on four public datasets：Cora，Citeseer，Wiki，and PubMed，showed that the AT-PLCAE model is

8、superior to the benchmark method.Compared with the benchmark method，AT-PLCAE improved the highest classification accuracy value by 0.018 on Cora，0.011 on CiteSeer，and PubMed，respectively.The ablation experiment results showed that adversarial networks designed for the pseudo-label-constrained auto-e

9、ncoder enhance the generalization of the model.【Key words】self-supervised learning；network representation learning；pseudo label；auto-encoder；adversarial training；generalizationDOI：10.19678/j.issn.1000-3428.00659360概述现实世界中存在着大量的图结构数据，如引文网络、社交网络、蛋白质相互作用网络等，研究和挖掘网络深层的信息具有重大的意义。网络表示学习1是研究图结构数据最常用的方法，其目

10、的是学基金项目：国家自然科学基金面上项目（62072154）。作者简介：富坤（1979），女，副教授、博士，主研方向为社会网络分析、网络表示学习；孙明磊、郝玉涵、刘赢华，硕士研究生。收稿日期：2022-10-08 修回日期：2023-01-11 Email：人工智能与模式识别文章编号：1000-3428（2023）11-0123-08 文献标志码：A 中图分类号：TP182023年 11月 15日Computer Engineering 计算机工程习网络顶点的潜在、低维表示，同时保留网络拓扑结构、顶点内容和其他边信息，之后这些作为节点表示的向量就可以应用到后续的任务场景中，如节点分类、链接预

11、测、社区发现、推荐系统等任务。由于现实中的网络节点存在着标注缺失、标注错误和人工标注成本高的现象，因此监督或半监督的网络表示学习受到了很大的限制。为了解决这一问题，图自监督学习从数据本身自动获取监督信息，而不需要手动标注，这样模型就能够从未标记数据中学习更多的信息，从而在各种下游任务中表现出更好的性能2-4。图自编码器是一种重要的自监督学习模型5，它利用输入数据作为监督，通过编码得到低维的中间表示层，然后表示层再由解码器重构输入数据。整个学习过程以输入数据作为监督信号，无需引入节点标签，因此，利用自编码器的自监督优势进行网络表示学习受到了广泛的关注。图自编

12、码器算法在下游的任务中被证明是有效的，但仍然有 2个重要的问题有待改进：1）由于缺乏有效的约束，导致编码过程中隐含的类别信息丢失，影响模型的学习能力。对此，一个可行的解决办法是设计相应的约束模块，最小化原始数据的生成类别概率分布和网络表示的生成类别概率分布之间的距离，减少编码过程中造成的隐含的类别信息损失，从而使得网络表示在下游分类任务中表现出更好的性能。2）图自编码器算法通过最小化输入和重构的距离构造目标函数，忽略了中间表示层的潜在数据分布，网络表示学习受限于原始数据的规模，在数据量相对较少时容易产生过拟合，导致模型泛化能力弱，在处理真实世界的稀疏网络和有噪声的网络数据时容易效果不佳。处理这

13、个问题的方法是引入正则化约束，强制潜在空间服从特定的概率分布。AAE6、AFL7、ALI8、ARGA9利用对抗框架去解决这个问题，它们引入对抗网络去组织潜在空间，通过误差反向传播的方式使得潜在空间服从特定的先验概率分布，从而增强模型的泛化能力。本文提出一种新的网络表示学习模型：基于对抗训练的伪标签约束自编码器（Adversarial Training based Pseudo Label Constraint Auto-Encoder，AT-PLCAE）。该模型能够充分利用网络中的结构和属性信息，减少编码信息损失，增强模型的泛化能力。本文主要工作如下：1）在自编码器的潜在空间设计一个伪标签约束

14、模块，通过减小原始图的伪标签和网络表示的伪标签之间的距离来约束模型，引导模型有效地学习，减小编码过程中产生的信息损失；2）设计与伪标签约束自编码器相适应的对抗网络，组织表示的潜在空间结构，使得潜在表示后验分布与输入的特定先验分布相匹配，缓解过拟合问题，增强模型的泛化能力。1相关工作基于生成方法的图自监督表示学习的思想源于自动编码器，通过编码器网络将数据向量压缩为低维表示，然后采用解码器网络重构数据向量，将输入数据作为监督信号，以输入数据和重构数据的距离（相似性）来衡量表示学习的成果。该方法不依赖于数据标签，而是从无标签的数据中学习到良好的表示，再应用到下游的多个应用场景中。根据重构的内容不同

15、，基于生成方法的图自监督表示学习可分为属性生成和结构生成 2类。常见的基于属性生成的图自监督表示学习方法有 Graph Completion10、MGAE11、GALA12等。Graph Completion 掩盖部分结点的属性，采用GCN13进行编码，利用上下文信息（输入的拓扑结构和未掩盖的属性信息）恢复掩盖的节点属性，帮助模型学习到更好的特征表示；MGAE 将邻接矩阵和随机破坏的结点属性矩阵通过 GCN 网络映射成重构的属性矩阵，通过多次输入不同的破坏节点属性矩阵，最小化结点属性矩阵和重构节点属性矩阵的距离偏差，以生成结构和属性融合良好的特征矩阵；GALA 提出一个完全对

16、称的图卷积自动编码器，编码器执行拉普拉斯平滑，而解码器执行拉普拉斯锐化。通过训练这个拉普拉斯平滑-锐化图自动编码器模型，可以将输入图重建成原始的属性特征矩阵。常见的基于结构生成的图自监督表示学习方法有 SDNE14、GAE15、VGAE16等。SDNE 采用自编码器重构拓扑结构，通过一阶相似度以及二阶相似度约束自编码器得到网络节点的表示。GAE 采用GNN13，16-17编码器将原始图映射到潜在空间，然后经由内积函数解码成重构邻接矩阵，最后应用均方误差最小化原始邻接矩阵和重构邻接矩阵的距离。VGAE 将变分自动编码器18的思想集成到 GAE 中，它采用了一个基于推理模型的编码器，生成 2 个并

17、行输出层的均值和偏差，通过重采样技术得到潜在空间后验概率分布，再采用 KL 散度来测量先验分布和后验分布的距离，从文献报道来看，GAE 和VGAE 在链路预测和图聚类任务上都取得了很好的结果。2本文方法给定一个图G=VAX，其中，V表示节点集合，n=|V|表示节点数量，A=01n n表示邻接矩阵，X Rn D表示输入节点的属性矩阵。AT-PLCAE 模型的目标是将 G 映射到低维空间，生成图的低维表示Z Rn d，其中，d为网络表示矩阵的维度且d D。Z作为嵌入矩阵，能很好地保留拓扑结构信息和属性信息，并用于下游节点分类任务。AT-PLCAE 由编码-解码阶段和对抗阶段

18、组成，如图 1 所示（彩色效果见计算机工程官网 HTML124第 49卷第 11期富坤，孙明磊，郝玉涵，等：基于对抗训练的伪标签约束自编码器版，下同）。编码-解码阶段的具体过程如下：首先，为了确保自编码器的重构信息能充分接近原始输入图的结构信息和属性信息，引入 PPMI矩阵来融合图结构信息和属性信息；其次，为了得到良好的网络表示层，采用编码器生成潜在空间，再经由解码器重构PPMI 矩阵，通过重构损失函数来优化潜在空间；最后，为了在编码过程中减少信息损失，在潜在空间设计一个伪标签约束模块，通过减小原始数据的伪标签和潜在空间数据的伪标签之间的距离来优化编码器。对抗阶段的具体过程如下：为了解决

19、潜在空间缺乏组织性和产生过拟合的问题，引入对抗网络去组织潜在空间，使得潜在空间服从特定的先验概率分布。上述 2 个阶段交替进行训练，从而优化整个模型，最终生成最优的潜在空间。2.1自编码器设计自编码器设计由 2 个部分组成：一部分为结构-属性融合矩阵，用于将图结构信息和属性信息统一到一个融合矩阵中；另一部分为伪标签约束自编码器，通过设计伪标签约束项来减小编码产生的信息损失。2.1.1结构-属性融合矩阵 PPMI为了充分利用结构信息和属性信息，将图的结构信息和属性信息融合到 PPMI矩阵，该矩阵融合了节点的高阶信息和邻域关联信息，并将稀疏的表示矩阵转化成信息率较高的高信息密度表示矩阵。在构建 P

20、PMI矩阵时，先融合结构信息和属性信息，形成结构-属性联合转移矩阵；再通过随机冲浪算法形成共现概率矩阵；最后生成 PPMI 矩阵。构建 PPMI矩阵的具体步骤如下：1）为了融合和平衡结构信息和属性信息这 2 种信息源，根据 DNRL19算法融合结构信息和属性信息的策略，生成结构-属性联合转移矩阵T，计算方法见式（1）：Ti=TXiTAi=0TAi+()1-TXi其他（1）其中：TA表示结构转移概率，TX表示属性转移概率，分别从结构和属性 2 个角度描述从节点vi到节点vj的转移概率；超参数用于调整结构转移矩阵和属性转移矩阵所占的比重，越大，结构转移矩阵所占的比重越大，越小，属性转移矩阵所占的比

21、重越大。2）为了有效捕获节点正确的上下文信息，克服随机游走过程中存在的步长限制问题，采用随机冲浪20策略生成共现概率矩阵P，计算方法见式（2）：Pk=Pk-1T+(1-)P0（2）其中：每个实值表示第 i 个节点在 k 步转换后到达第 j 个节点的概率；P0为初始的单位矩阵；超参数表示进行随机冲浪过程的概率，而随机冲浪过程返回到原始节点并重新启动的概率为 1。3）为了避免转移到次要节点的概率过大（这种情况会降低整体表示结构的准确性），根据点态互信息（PMI）矩阵20的原理对共现概率矩阵P进行归一化，计算得到 PPMI矩阵，计算方法见式（3）：PPPMI(ij)=max(lbP(ij)P(i)P

22、(j)0)（3）其中：P(i)=jP(ij)表示对第 i 行的共现概率之和；P(j)=iP(ij)表示对第 j列的共现概率之和。2.1.2伪标签约束自编码器编码器将 PPMI 矩阵作为编码器的输入并生成潜在空间。生成的潜在空间分为 2 个部分：一部分为标签隐藏层，该层主要反映节点的伪标签信息；另一部分为表示隐藏层，即嵌入矩阵Z。表示隐藏层经由解码器得到重构的 PPMI矩阵。通过最小化重构损失函数来训练编码器和解码器，得到优化后的表示隐藏层。图 1模型框架Fig.1Model framework1252023年 11月 15日Computer Engineering 计算机工程整个自编码器网络采

23、用全连接网络，将 PPMI矩阵（用M表示）作为编码器的输入，生成标签隐藏层C=fc(Mc)和表示隐藏层Z=fz(Mz)。为了使 2个隐藏层承载不同的信息，在编码器的最后一层权重不共享，标签隐藏层采用 Softmax 函数激活，表示隐藏层不激活，而其余层权重共享。然后由生成的表示隐藏层解码得到重构的 PPMI 矩阵M=g(Zg)，最后通过最小化输入数据和重构数据之间的距离进行优化，损失项计算方法见式（4）：Lr=12M-M22（4）为了减小编码过程造成的隐含的类别信息损失，本文设计一个伪标签约束模块：应用一个生成器来生成表示隐藏层的伪标签，代表网络表示的类别概率分布，而标签隐藏层代表着输入数据的

24、类别概率分布，这 2 个概率分布都代表节点类别的概率分布，应属于同一分布，所以，当这 2 个概率分布越接近，编码过程造成的隐含的类别信息损失会越少。原始数据由编码器分别生成标签隐藏层C和表示隐藏层Z。原始数据的标签隐藏层C可以表示原始数据的伪标签Yc，再设置一个全连接神经网络生成器来生成表示隐藏层Z的类别Cz=fzc(Zz)，用来代表表示隐藏层的伪标签Yc。采用交叉熵损失项Lc来衡量这 2种标签的距离，见式（5）：Lc=Ycln Yz+(1-Yc)ln(1-Yz)（5）为了在模型训练过程中使 2 个层的分类标签更接近，应该最小化交叉熵损失项Lc。编码-解码阶段的最终目标是生成良好的表示隐藏层Z

25、。为了达到这一目标，编码-解码阶段联合自编码器和伪标签约束模块同时进行学习，损失函数见式（6）：L=Lr+Lc（6）其中：为超参数，用于控制自编码器损失项和伪标签约束损失项的比重。2.2对抗阶段编码-解码阶段采用的是基本的自编码器模型，直接得到的表示隐藏层空间中缺乏可解释和可利用的结构，即缺乏规则性，易产生过拟合现象。为解决这一问题，模型生成的潜在表示后验分布应与输入的特定先验分布相匹配，从而有规则地组织隐藏空间的结构。变分自编码器（VAE）18通过使编码器生成隐空间服从一定概率分布，并在损失函数中添加一个正则项来调整隐空间概率分布的规则性。DNRL 算法和

26、 VGAE 算法均用 VAE 进行降维，以特定概率分布组织潜在空间，取得了优于直接采用自编码器进行降维的效果。然而，VAE 仍然存在 2 个固有的缺陷：1）只支持显性的概率分布形式，即必须给出精确的概率分布函数，无法从未知的数据中进行采样和学习隐性的概率分布；2）VAE理论复杂，在实际的应用过程中存在变分下界，即 VAE 最后的训练结果和预定目标存在偏差。生成对抗网络（GAN）21-22是最近几年比较流行的生成网络，在编码-解码阶段增加对抗训练与 VAE在目标上是一致的，均能保证模型生成的潜在表示后验分布与特定先验分布相匹配。同时在编码-解码阶段增加对抗训练与 VAE 相比具有以下 2 个优点

27、：1）不同于 VAE 需要获得先验分布的精确函数形式，GAN 可以从显性概率分布中采样，如标准正态分布，也可以从未知的数据中采样，生成隐性的概率分布；2）相比 VAE，GAN 没有变分下界，如果鉴别器训练良好，那么生成器可以更好地学习到样本的分布。GAN 模型可看作是 2 个神经网络在进行一场“最大-最小”博弈。GAN 由 2个网络组成，一个网络是生成网络G，另一个网络是鉴别网络D。G的任务是从一个概率分布空间中生成负样本，同时混淆D，使其认为自己生成的样本为正样本。D的任务是区分输入的样本是由生成网络生成的负样本，还是实际存在的正样本。在不断地迭代后训练网络最终达到一种平衡，这时，D无法判断

28、样本是来自生成网络还是实际存在的，G便可以生成符合先验数据分布的数据。GAN的博弈过程可用式（7）21表示：minGmaxDExp(data)ln D(x)+Ezp(z)ln(1-D(G(z)（7）标签隐藏层作为原始数据的伪标签，用于标识节点类别，每个节点的类别可以通过一个 K 维的one-hot向量来表示，因此，假定标签隐藏层C的概率分布应与 0-1 分布相匹配。本文设计的第 1 个生成对抗网络从 0-1分布空间中采样，采用全连接网络生成数据Gx(01)(x)作为正样本。与其对抗的负样本来自自编码器生成的标签隐藏层C=fc(Mc)，因此，生成器即为编码器fc(Mc)，记为GA(M)。正样本和

29、负样本经过鉴别器分别得到Dc(Gx(01)(x)和Dc(GA(M)。当生成对抗网络收敛之后，自编码器生成的标签隐藏层的概率分布与 0-1分布相匹配。表示隐藏层用于表示高维空间的结构信息和属性信息，其概率分布应为连续的实值。中心极限定理认为多个独立同分布的随机变量之和近似于正态分布，所以，对于概率分布未知的表示隐藏层，假定其服从正态分布是合理的。本文设计的第 2个生成对抗网络的生成器从高斯分布中采样，采用全连接网络生成数据GxGauss(x)作为正样本。与其对抗的负样本为自编码器生成的表示隐藏层Z=fz(Mz)，因此，生成器即为编码器fz(Mz)，记为GB(M)。正样本和

30、负样本经过鉴别器分别得到Dz(GxGauss(x)和Dz(GB(M)。当生成对抗网络收敛之后，自编码器生成的表示隐藏层Z的概率分布与高斯分布相匹配。在对抗阶段，无论是第 1 个生成对抗网络还是126第 49卷第 11期富坤，孙明磊，郝玉涵，等：基于对抗训练的伪标签约束自编码器第 2 个生成对抗网络，生成器均定义为生成负样本的网络，即为编码-解码阶段中的编码器。对抗阶段的最终目标是通过对抗训练的方式训练出性能优良的编码器，使得编码器生成的标签隐藏层和特征隐藏层分别服从特定的概率分布，从而解决自编码器的潜在空间存在的无组织性和过拟合的问题。通过式（8）对

31、对抗训练阶段的模型进行优化：minGmaxD1ni=1nln(DA(Gx(01)(x)+ln(1-DA(GA(M)+ln(DB(Gx gauss(x)+ln(1-DB(GB(M)（8）2.3伪代码AT-PLCAE伪代码描述如下：算法 AT-PLCAE输入 PPMI 矩阵M n n，嵌入空间维度 d，数据类别数 l，迭代次数 epoch输出嵌入矩阵Z n dfor i=1 to epoch：编码网络：生成C=fc(M，c)n l和Z=fz(M，z)n d。生成对抗网络 A：从 C 空间采样c(1)，c(2)，c(n)；从 0-1分布空间随机采样x(1)0-1，x(2)0-1

32、，x(n)0-1。生成对抗网络 B：从 Z 空间采样z(1)，z(2)，z(n)；从高斯分布空间随机采样x(1)Guass，x(2)Guass，x(n)Guass。鉴别器优化（梯度上升）：d1ni=1nln(DA(GA(x(i)0-1)+ln(1-DA(c(i)+（ln(DB(GB(x(i)guass)+ln(1-DB(z(i)生成器优化（梯度下降）：c，z1nln(1-DA(c(i)+ln(1-DB(z(i)伪标签生成网络：生成Cz=fzc(Z，zc)n l。解码网络：解码 Z得到M=g(Z，g)n n。目标函数式（6）优化（梯度下降）：c=c-Lc，z=z-Lz，zc=zc-Lzcend

33、forreturn Z n d3实验为了测试 AT-PLCAE模型的性能，将 AT-PLCAE模型与基准方法在 4 个引文网络数据集上进行比较，通过学习到的网络表示在下游任务的节点分类实验，验证该模型在网络表示学习方面的有效性。3.13.3 节分别介绍数据集、基准方法和实验的参数设置。3.4节和 3.5节实施节点分类任务以及可视化，表明 AT-PLCAE 模型进行节点分类任务的有效性。3.6节进行消融实验，分析不同模块对模型产生的影响。3.7 节对低维嵌入表示维度和目标函数中的超参数进行敏感性分析。3.1数据集本文应用4个引文网络数据集来评估AT-PLCAE模型的表示学习能力，分别为 Cor

34、a、Citeseer、Wiki和Pubmed。Cora 数据集包含来自 7 个类的 2 708 篇机器学习论文以及 5 429 篇链接，每个文档由一个1 433 维的二进制向量描述；Citeseer 数据集包含来自 6 个类的 3 312 个出版物和它们之间的 4 732 个链接，每篇论文都用一个 3 703 维的二进制向量来描述；Wiki 数据集包含来自 19 个类的 2 405 个文档和它们之间的 12 761 个链接，该数据集的属性矩阵有4 973 列；Pubmed 数据集包括来自 Pubmed 数据库的19 717 篇关于糖尿病的科学出版物和 44 338

35、个链接，分为 3 类。该数据集中的每个出版物都由一个由 500个唯一单词组成的字典中的 TF/IDF加权词向量来描述。3.2基准方法本文将提出的 AT-PLCAE 模型与常用的基准方法进行比较，常用的基准方法主要有 DeepWalk23、node2vec24、DNGR20、AANE25、GAE和 MGAE。DeepWalk 算法通过随机游走的方式，充分利用了网络结构中的随机游走序列的信息，将未加权的图结构转换成反映图拓扑结构信息的线性序列的集合，然后利用 Skip-Gram23模型学习顶点的低维表示。node2vec模型将广度优先搜索和深度优先搜索引入随机游走序列的生成过程。DNGR 算法首先

36、运用 random surfing方法获取网络的高维节点表示，然后使用去噪自编码器学习节点的低维表示。AANE则通过矩阵分解将节点的结构信息与属性信息结合在一起，利用矩阵分解来学习低维表示。GAE 为基于结构生成的自监督学习算法。MGAE为基于属性生成的自监督学习算法。3.3实验设置实验采用深度学习框架 PyTorch0.4.1，编程语言为 Python，解释器版本号为 3.6.1。AT-PLCAE 模型中伪标签约束自编码器的编码器设置成 3层全连接网络，解码器设置成与编码器对称的 3 层全连接网络。在对抗网络中，生成网络采用 3层全连接网络，判别网络采用 3层全连接网络。将模型学习率控制在

37、0.0010.01 之间，可以更好地训练模型。标签隐藏层表示的是原始数据的伪标签，因此，其维度等于节点的类别数，而表示隐藏层维度受网络层数、图规模等因素影响，通过实验分析将表示隐藏层维度设置为 256维。目标函数式（6）中的权重通过实验分析设置为 0.1。3.4节点分类实验节点分类是衡量网络表示学习算法的一个主要实验，本文随机抽取 50%带标记的嵌入层特征作为训练集，剩下的 50%未标记的嵌入层特征作为测试集进行下游的节点分类任务。本文节点分类器采用Logistic 分类器，将 F1 分数（包括 Mi-F1 分数和Ma-F1分数）作为节点分类的评价指标。为消除偶然误差的影响，对于每

38、个数据集下的每种算法均取 10 次实验结果的平均值作为最终的1272023年 11月 15日Computer Engineering 计算机工程F1分数，实验结果如表 1、表 2所示，其中加粗数据表示最优值。通过实验结果可以看出：AT-PLCAE 算法节点分类的 Mi-F1 分数相对于基准方法的最高值，在Cora 数据集上超出 0.018，在 Citeseer 数据集上超出0.011，在 Wiki 数据集上低 0.003，在 Pubmed 数据集上超出 0.011；AT-PLCAE 算法节点分类的 Ma-F1 分数相对于基准方法的最高值，在 Cora数据集上超出0.015，在 Citeseer

39、数据集上超出 0.012，在 Wiki 数据集上超出 0.008，在 Pubmed 数据集上超出 0.013。由此可见，在节点分类任务上，AT-PLCAE 算法性能优于基准方法。AT-PLCAE 算法在融合结构信息和属性信息时采用的 PPMI矩阵是基于随机冲浪策略的，虽然随机冲浪能克服随机游走有限步长的问题，但有限次随机冲浪确定的节点的转移概率在边数与结点数比值变大的情况下，不确定性和复杂性会增加。从本质上来，随机冲浪采样得到的概率仍是对局部拓扑结构的表示更有效，而不利于全图信息表示。AANE是一种基于矩阵分解的算法，更关注全局信息。当边数与结点数的比值变大时，则增加了全局信息，AANE 算

40、法的性能会明显提升。采用 E/N 来表示边数与结点数的比值，Wiki 数据集的 E/N 为 5.31，而Cora 数据集、Citeseer 数据集和 Pubmed 数据集的E/N 分别为 2.00、1.43 和 2.25。相对于 Cora 数据集、Citeseer 数据集和 Pubmed 数据集，Wiki 数据集的E/N更大。从实验结果中可以看出：AANE算法节点分类的准确率随着 E/N 的增大而增大；而 AT-PLCAE算法在节点数相差不大的情况下，E/N 增加会使得算法节点分类的准确率降低。所以，在 Wiki数据集上，AT-PLCAE 算法节点分类

41、的表现不如 AANE算法。3.5可视化实验分别采用 DeepWalk 算法、AANE 算法、DNGR算法和 AT-PLCAE 算法得到 Cora 数据集的网络表示，表示层的维度为 256维，然后采用非线性降维技术 tSNE 算法将表示层维度降至 2 维，进行可视化显示。从图 2 中可以看出：由于 AANE 是基于矩阵分解的算法，更关注全局信息，因此节点可视化分布发散，边界不够清晰；而 DeepWalk 采样过程基于随机游走的策略，DNGR、AT-PLCAE 的采样过程基于随机冲浪的策略，相对于 AANE 更容易提取局部拓扑结构信息，更关注节点的局部信息，所以，节点可视化分布较为聚集，

42、边界较为清晰。3.6消融实验AT-PLCAE 算法融合结构和属性信息，通过伪标签约束的自编码器学习到网络表示，并采用对抗网络组织潜在空间来增强模型的泛化能力。为了分析自编码器的伪标签约束项和对抗训练的不同组合对 AT-PLCAE 模型表示学习能力的影响，应用PPMI+AE、PPMI+AAE、PPMI+VAE 和 AT-PLCAE 模型来进行消融实验。这 4 个模型均采用 PPMI 模型作为输入，只是进行降维的方式不同，降维方式分别为自编码器（AE）、对抗自编码器（AAE）、变分自编码器（VAE）和伪标签约束对抗自编码器（GAAE）。其中：AE 为最基本的模型参照；AAE

43、用来说明对抗训练对模型产生的影响；为了说明对抗自编码器和变分自编码器组织隐藏空间的相似效果，采用 VAE来进行实验；而 AT-PLCAE 用以说明增加伪标签约束项对模型产生的影响。本节在 4个数据集上运用4种模型学习低维嵌入表示之后，再进行训练集比例为 50%的节点分类实验，采用 F1分数（包括 Mi-F1分表 1各算法节点分类的 Mi-F1分数对比 Table 1Comparison of Mi-F1 scores of node classification of each algorithm算法DeepWalknode2vecDNGRAANEGAEMGAEAT-PLCAECora0.83

44、50.8140.8160.7230.8420.8490.867Citeseer0.5940.5950.5850.7050.7150.7240.735Wiki0.6670.6560.6580.7500.7380.748.0.747Pubmed0.8170.8070.8180.7920.8160.8200.831表 2各算法节点分类的 Ma-F1分数对比 Table 2Comparison of Ma-F1 scores of node classification of each algorithm算法DeepWalknode2vecDNGRAANEGAEMGAEAT-PLCAECora0.82

45、80.8050.8100.6700.8330.8390.854Citeseer0.5450.5440.5410.6540.6620.6700.682Wiki0.5480.5300.5390.6200.6260.6320.640Pubmed0.7890.7930.8100.7500.8080.8130.826图 2Cora数据集的表示层可视化图Fig.2Visualization diagrams of presentation layer of Cora dataset128第 49卷第 11期富坤，孙明磊，郝玉涵，等：基于对抗训练的伪标签约束自编码器数和 Ma-F1 分数）作为评价指标。对

46、于每个数据集下的每种模型，仍取 10次实验结果的平均值作为最终的 F1分数，实验结果如表 3、表 4所示。通过实验结果可以得到以下结论：1）PPMI+AE 在 Cora、Citeseer 和 Wiki 数据集上的节点分类表现略好于 PPMI+VAE 和 PPMI+AAE，在 Pubmed 数据集上的分类表现差于 PPMI+VAE 和PPMI+AAE。VAE算法指出由于在潜在空间增加噪音，使得潜在空间的特征表示由离散的单点变成连续的概率分布，这样在数据输入差异较大的情况下，模型也能生成稳定的特征表示。所以，这一现象的产生，很可能与 PPMI+AE 出现了过拟合有关，自编码器生成的潜在空间是以离散

47、的单点存在的，容易产生过拟合现象。2）在 4 个数据集上，采用对抗 PPMI+VAE 和PPMI+AAE 节点分类表现相近，AAE 算法证明了对抗自编码器与变分自编码器的强相关性，两者均能达到潜在空间以概率分布形式存在的目标，所以，这一实验结果说明这 2 种方法具有相似的效果，同时相对于标准自编码器，采用对抗网络训练自编码器，增强了模型的泛化能力。3）AT-PLCAE 在 4 个数据集上的节点分类表现好于 PPMI+AE、PPMI+AAE、PPMI+VAE，表明引入的伪标签约束项改善了模型性能，提高了节点分类准确率。3.7超参数分析本节通过实验分析 AT-PLCAE 模型中表示隐

48、藏层的维数 d 和伪标签约束项权重对下游节点分类任务性能的影响。分析超参数时，在 4 个数据集上先应用本文模型学习低维嵌入表示，再进行下游节点分类的实验，训练集比例为 50%，评价指标为Mi-F1 分数，每个数据集仍取 10 次实验结果的平均值作为最终的 F1分数。分析隐藏层的维数 d 时，固定其他参数，分别设置 d=64、128、256、512。从图 3中可以看出：4个数据集 d-F1 数值在 d=128 时发生巨大转折，当表示隐藏层维度 d 低于 128 维时，节点分类效果较差，所以，d的最低要求应为 128；当 d128 时，d-F1 数值变化平缓，在 d=2

49、56时 F1值达到最大，即在表示隐藏层维度d=256 时，AT-PLCAE 模型性能最好。所以，完全考虑算法性能时，表示隐藏层维度取为 256，同时考虑性能和内存要求时，表示隐藏层维度可取为 128。分析伪标签约束项权重时，固定其他参数，分别设置=0.001、0.010、0.100、1.000。从图 4 中可以看出，Cora、Citeseer、Wiki 和 Pubmed 数据集在伪标签约束项权重=0.100 时结点分类 F1 分数达到最大，所以，伪标签约束项权重=0.1，AT-PLCAE 模型在下游节点分类任务中性能达到最优。4结束语本文针对图自编码器模型存在的信息损失和泛化能力差的问题，提

50、出一个自监督学习的网络表示学习模型 AT-PLCAE。该模型通过伪标签约束减少编码过程中的信息损失，同时采用对抗训练的方式隐性地组织隐藏层特征的概率分布，增强模型的泛化能力。在 Cora、Citeseer、Wiki和 Pubmed 这 4 个公开数据集上的节点分类实验表明，AT-PLCAE 的学表 3AT-PLCAE变体算法的节点分类的 Mi-F1分数 Table 3Mi-F1 scores of node classification of AT-PLCAE variant algorithms算法PPMI+AEPPMI+VAEPPMI+AAEAT-PLCAECora0.8380.8320.

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于对抗训练标签约束编码器

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。