1、第 卷第 期重庆邮电大学学报(自然科学版).年 月 ().:./.面向点击通过率预测的交互边选择算法研究收稿日期:修订日期:通讯作者:陈乔松 .基金项目:重庆市自然科学基金():()陈乔松曹 凤江泳锋由博文孙开伟邓 欣王 进朴昌浩(.重庆邮电大学 计算机科学与技术学院重庆.重庆邮电大学 自动化学院/工业互联网学院重庆 )摘 要:点击通过率()作为推荐系统中必不可少的核心任务分支提高其预测准确性既能改善用户的浏览体验也能为平台增加收益 以往模型在对点击通过率进行建模预测时保留所有的交互特征存在信息冗余交互低效等问题 针对这一问题提出了一种面向点击通过率预测的交互边选择模型通过自动识别冗余信息来动
2、态选择有益的交互特征主要由交互边选择网络层图节点相似度注意力层构成 交互边选择网络层引入过滤阈值机制并结合动态关联矩阵来去除冗余信息图节点相似度注意力层通过学习相似度权重矩阵来解决节点过度平滑问题 在 和 两个公开数据集上的大量实验证明该模型的预测能力优于已有模型关键词:点击通过率注意力交互边选择网络图节点相似度中图分类号:文献标志码:文章编号:()(./.):().:引 言在许多 应用(例如社交媒体购物平台)中推荐系统在解决信息爆炸问题方面发挥着核心作用 其中点击通过率预测()是一项至关重要的任务其目的是预测用户点击推荐商品(广告电影)的概率因此如何准确地推荐给用户感兴趣的物品提高用户的体验
3、和平台的收益这已经成为学术界和工业界非常重视的一项研究特征交互在 预测中发挥着非常重要的作用例如篮球爱好者偏向于点击运动产品程序员更偏好点击电脑产品这就表明交互特征比特征或者在 预测性能上效果更好 传统的 预估模型常以机器学习模型为基础例如线性模型()和树模型()这些模型结构简单需要结合复杂的特征工程才能达到令人满意的预测结果 因子分解机()通过向量内积学习二阶特征交互 注意力因子分解机()加入一个注意力子网络去学习特征交互的重要性但缺乏学习非线性特征交互近几年随着深度学习技术的发展基于神经网络的推荐模型也层出不穷如神经网络因子分解机()深度与交叉神经网络()显隐式特征交互网 络()图神经网络
4、用于特征交互()等深度学习网络能够学习高阶特征交互但这些模型只是简单地枚举了所有的特征交互存在可解释性差、特征交互冗余等缺点此外无用的交互特征也会带来不必要的噪声使训练过程复杂化针对目前存在的交互特征冗余等问题本文提出了基于图神经网络的交互边选择模型()具体来说 将特征之间的联系转化为一种图结构图中的每个节点对应相应的特征域不同域之间的特征交互就转换为图中节点之间的交互边主要创新点如下)提出一种交互边选择网络()结合图神经网络通过引入一个过滤阈值机制在聚合所有邻居节点信息之前来自动选择有利于预测结果的交互边从而获得节点最优的聚合信息)基于图和注意力机制提出了节点相似度注意力机制()去学习一个相
5、似度权重矩阵来解决图节点过度平滑的问题本文提出的 模型在 和 两个公开数据集上的大量实验证明本文模型的预测能力优于 预测领域已有的最佳模型 相关工作.预测任务中的特征交互特征交互在 预测任务中至关重要传统的 预估模型常以机器学习模型为基础例如和 是预测 的简单基线模型然而基于人工经验的特征工程非常繁琐低效使模型表达能力有限 将每个特征嵌入到一个低维稠密的向量中并通过向量内积学习二阶特征交互但没有区分特征交互之间的重要性若用该模型进行高阶交互则会出现计算复杂度高、开销大等问题 加入一个注意力子网络去学习特征交互的重要性区别对待不同的特征让它们对预测结果的贡献程度不同但模型中没有使用更深层次的网络
6、去学习高阶交叉特征 在深度学习领域基于神经网络的推荐系统模型也层出不穷 在嵌入层和深度神经网络层之间增加一个双向交互池化层来模拟二阶特征交互相比于之前的模型 降低了参数量 引入了一个交叉网络以显式的方式进行高阶特征交互 引入一个压缩交互网络()进行向量外积.图神经网络用于 预测任务特征域之间的简单非结构化组合将不可避免地限制特征交互的建模能力图是一种对一组对象和关系建模的数据结构由于图的强大表示能力近几年有很多与之相关的研究出现 图神经网络()是在图结构数据上学习嵌入的一种方法图神经网络中的节点通过聚合其邻居节点的信息和更新邻居节点的隐藏状态来与其他节点进行交互 门控图神经网络()使用门控循环
7、单元()作为更新器 图卷积神经网络()引入卷积网络作为节点信息聚合器 引入多头自注意第 期 陈乔松等:面向点击通过率预测的交互边选择算法研究力机制()来捕获对特征域之间的依赖关系 虽然通过图结构能够非常灵活和明确地来对特征交互进行建模但仍然存在一些问题比如 明确指出构造的是完全连接图即任意 个特征之间都存在交互但是列举所有特征交互会带来特征信息冗余和交互低效等问题无用的交互也会带来不必要的噪声使训练过程更复杂.特征选择近年来特征选择在很多领域都有应用通过特征选择机制能有效提高模型预测准确率 因子分解机模型下的自动特征交互选择模型()在 模型的基础上对交互特征进行选择把较大的离散型迭代搜索的问题
8、转换为连续型的系数求解问题 快速自适应特征约简模型()为每个对象生成不同的邻域处理没有先验知识可用的场景极大地降低了模型的时间复杂度 检测推荐系统中有益特征交互()通过 正则化自下而上地发现有意义的特征组合 基于图的特征过滤方法()利用矩阵幂级数的性质和马尔科夫链的基本原理对特征进行排序并去除低排名的特征 基于样本和特征搜索空间不断缩小特征选择模型采用特征冗余概念缩减特征的搜索范围来移除冗余特征 面向点击通过率预测的交互边选择算法研究.总体框架 整体框架如图 所示 由以下几部分组成:数据输入层、数据嵌入层、交互边选择网络层、节点相似度注意力层、输出层 其中数据嵌入层的处理方式最早是由.提出特征
9、嵌入()是 预测的前提条件因为点击记录包含离散的分类项不能直接应用于数值计算通过嵌入层将高维稀疏的特征嵌入到一个低维稠密的向量中 在经过嵌入层之后通过交互边选择图神经网络层对图中特征交互的边进行选择获取对预测结果最有益的特征交互边通过多层的图神经网络层就可以达到不同特征之间的高阶交互其中在每一层交互边选择网络层之后都输入到一个节点相似度注意力网络层通过为每一个图节点分配一个注意力权重防止节点间出现过度平滑问题 最后将所有的特征拼接为一维的张量最后把该张量输入到多层感知机网络进行预测图 整体架构图.重 庆 邮 电 大 学 学 报(自然科学版)第 卷.数据输入层 预测领域的数据通常包含数值型和类别
10、型特征类别特征通常是稀疏离散的不能直接用于数值计算因此要对其进行独热()编码将其转换为高维的稀疏向量 比如一部电影其由特征类型:喜剧语言:中文导演:史蒂芬构成通过独热编码转换为高维稀疏特征:所有的数据实例可以表示为 类别特征数值特征()()式中:表示类别特征个数 表示数值特征个数表示第个 特征分为独热编码向量和数值标量.数据嵌入层由于独热编码之后的数据是高维稀疏的常用做法是将其嵌入到低维密集的实值向量中 模块是后续模型的基石直接影响最终的预测准确率本文通过 模块的映射向量 将特征 嵌入到一个低维的向量 中表达式为()()式中:表示数据张量的维度标识是特征 的种类数 表示低维向量的嵌入维数特征
11、模块的输出是将多个嵌入向量拼接为 ()()式中:表示数据中单个样本所有的特征域.特征图结构以往研究中只是简单地将特征向量拼接到一起学习特征交互信息之后输入到深度神经网络中进行训练预测本文采用图结构将特征表示为图结构形式特征图可以表示为 ()()()式中:表示所有的节点域 每个节点 对应每个特征 表示节点 的所有邻居节点 它是一个完全连通图不同的节点可以通过边进行交互作用而边的值就是特征交互的重要性因此特征交互就转换为图中节点之间的交互.交互边选择网络层模型 在特征图上对所有节点进行交互建模图中所有特征交互边的存在会带来特征信息冗余和交互低效等问题无用的交互边也会带来不必要的噪声使训练过程复杂
12、因此本文提出的 模型能够在特征图结构中自动选择有益的交互边 在本节中将详细说明该网络是如何工作的以及最后图神经网络是如何聚合节点间交互边信息的在 中图结构状态由下面节点组成()()式中 表示交互步骤数据嵌入层学习到的特征表示作为该层的初始节点状态 节点通过多层图神经网络循环地进行交互边选择和节点状态的更新如图 所示图 交互边选择网络层.第 期 陈乔松等:面向点击通过率预测的交互边选择算法研究 在每一个交互步骤中 通过设置可训练的动态关联矩阵来动态地获取每一层交互步骤中节点之间的交互关系通过过滤阈值机制来过滤动态关联矩阵的值符合条件的值被保留并对应选择一个交互边最后通过张量内积的计算方式来聚合交
13、互边信息 的实现细节如下.节点交互边选择网络传统的图神经网络模型中的邻接矩阵通常是二进制形式的包含 和 它反映节点之间的连通关系并且以往模型中的图结构都是完全连接图且不能反映节点之间边的重要性程度 为了便于算法的实现 引入动态关联矩阵 它同时学习图中节点之间的连通关系和边的重要性程度建模灵活的交互整个动态关联矩阵的运算流程为 ()()式中:()()是结构参数表示图中交互边对最终预测的相对贡献值通过梯度下降来自动学习表示矩阵元素位乘法()()是权重参数()表示节点 和节点 之间的交互程度通过注意力机制获得()()()()()式中:是权重矩阵是连接操作符 表示 的所有邻居节点最后图中任意 个节点之
14、间的边的值存在负数这会导致模型产生不必要的噪声贡献程度偏小的边也会成为冗余特征因此本文引入过滤阈值机制来自动选择对最终预测结果有益的交互边 为一个固定的阈值在.节中将讨论不同阈值下的性能差异 是动态关联矩阵中交互边的值.表示过滤之后的值 ()()()式中表示通过过滤阈值机制后的交互边选择动态关联矩阵.节点交互边信息聚合策略在传统图神经网络中每个节点将聚合邻居节点的状态信息 模型以另外一种方式对节点的所有交互边的信息进行加权聚合学习到更多具有鉴别力的节点嵌入 ()()式中:表示张量积张量积用于初始节点状态与动态关联矩阵进行交互边信息聚合.节点相似度注意力层在经过多层的图神经网络图中的节点之间会出
15、现过度平滑的现象 等将相似度算法与加权的 相似度算法有效结合受.等激发本文提出节点相似度注意力层在 预测中如果 个用户的行为特征相似则这 个用户就相似因此在图结构中如果 个节点的所有邻居节点聚合信息相似则这 个节点就相似就会导致过度平滑现象.节点相似度注意力网络 模型中的节点相似度注意力层()通过对相似的节点分配不同的权重使之不相似定义节点相似度注意力矩阵 ()()()()()()()式中:表示所有节点表示 范数用于防止模型过拟合()表示任意 个节点之间的相似度度量两节点相似度越小则注意力权重越大在.节中将讨论有无节点相似度注意力层对预测结果的影响最后为每个节点分配权重采用张量积的方式 ().
16、图节点状态更新在传统的门控图神经网络()中节点的状态是根据当前层聚合节点信息和它上一层的节点信息通过 进行更新得来的由于第 层只包含 层节点交互信息受改进的深度交叉网络()激发将低阶和高阶特征结合在一起对预测结果有效因此本文将残差网络与 结合使用公式为()().输出层在进行 层节点交互之后每个节点捕获了全局信息先对图中节点进行拼接由 变为 分别预测每个特征域最终的结果为()模型分别预测每一个特征域的结果然后用一个注意力机制进行求和以获得对最终结 重 庆 邮 电 大 学 学 报(自然科学版)第 卷果的整体预测 使用 个多层感知机对每个特征域 和注意力 进行建模表示为 ()()()()()实验结果
17、与分析.实验设置.数据集本文在 和 两个公开数据集上进行实验这两个数据集在已有的论文中被广泛使用其统计分析情况如表 所示表 数据集统计情况.数据集样本数特征域特征数正例率 .:这是工业界著名的 预测基准数据集其中包含大约 万用户的点击记录和 个特征字段(包含 个类别特征和 个数值特征)这些特征字段都是匿名的:该数据集包含用户在移动广告上的点击行为其中包含大约 万条用户点击记录和 个类别特征字段对于这 个数据集本文在参考多篇论文中的数据处理方式之后将 种数据集都按 的比例划分进行训练验证和预测此外由于数据中的数值特征可能会有很大的方差因此本文对特征值大于 的数值特征进行变换:().评估指标在真实
18、的训练数据中通常会遇到正样本很少负样本很多的情况对数损失函数()很低但正样本的预测效果却很不理想因此本文使用受试者工作特征曲线()下与坐标轴围成的面积()和 这 个指标同时来评估模型:是衡量分类模型优劣的一种评价指标表示预测的正样本排在负样本前面的概率 值越高表示模型效果越好:又称二分类交叉熵损失函数反应样本的平均偏差作为模型的损失函数来做优化衡量预测结果与真实结果之间的距离 越低模型性能越好 ()()()()()式中:表示总的样本数表示第 个样本的真实标签表示第 个样本的预测标签.基线模型如.节所述本文对比了 预测领域已有的模型包括传统的一阶交互模型:二阶交互模型:高阶交互模型:等模型.模型
19、实现细节基线模型的实施遵循所有模型方法的 嵌入大小设置为 批处理大小设置为 学习率为.神经网络优化器采用 图节点嵌入维数和图神经网络层数为在.节中讨论 本文所有的模型都是基于 .深度学习框架来实现计算机操作系统为:.显卡为 内存为.模型效果比较模型效果比较如表 所示本文提出的 模型的性能在两个数据集上比之前出现的模型都好在广告点击率预测领域数据集上 指标.的提升是具有重要意义的 具体地相比于侧重于图神经网络的 模型在 和 两个数据集上的 分别提升了.和.在 上分别降低了.和.模型在 数据集的相对改进程度高于 数据集这是因为 数据集拥有更多的特征字段能够更好地利用图结构的表示能力.超参数研究本节
20、主要是对 模型的超参数进行研究主要包括图节点嵌入维数图神经网络的层数这些参数的变化对模型有一定的影响.图节点嵌入维数对模型性能的影响实验过程中除特别说明的参数之外其他参数都按照.节设置实验首次对比了不同图节点嵌入维数对模型性能的影响维数设置从 到 图神经网络层数设置为 表 是不同图节点嵌入第 期 陈乔松等:面向点击通过率预测的交互边选择算法研究维数下模型的性能指标其中 数据集最佳表现的嵌入维数为 为.为.这是因为数据集更大需要更大的维度来进行训练 数据集最佳表现的嵌入维数为当使用更大的嵌入维数模型会过拟合表 各模型在 和 上的表现.模型.(本文).表 不同图节点嵌入维数对模型性能的影响.嵌入维
21、数.图神经网络层数对模型性能的影响在确定了最优的图节点嵌入维数之后本节继续讨论不同图神经网络层数对模型性能的影响层数设置从 到 和 两个数据集的实验结果变化趋势如图 所示两个数据集上的最佳表现层数分别为 和 这是合理的因为两个数据集的数据量非常大需要更多的交互步骤来获取更多的特征交互信息.不同阈值的性能差异在确定最优的超参数之后本节进一步讨论不同的过滤阈值对交互边选择的影响本文比较了阈值为.下的模型效果 表示没有设置阈值其模型就是基线模型 如表 所示 其中在 和 两个数据集上 模型效果最优的阈值为.分数分别为.和.阈值设置越大效果越低这是因为当阈值过大图结构中的交互边信息更少阈值过低或者没有设
22、置都会导致图结构中存在大量的冗余交互边信息模型在训练过程中产生了噪声从而影响模型的性能图 不同图神经网络层数对模型性能的影响.表 不同阈值下模型的性能.阈值.消融实验为了评估这 种改进对 模型的有效性在.节确定最优的参数条件下本文进行了消融实验研究来验证各个模块是否起到了正向作用:去除本文提出的两种网络结 重 庆 邮 电 大 学 学 报(自然科学版)第 卷构:交互边选择网络()和节点相似度注意力机制():模 型 去 除 交 互 边 选 择 网 络():模型去除节点相似度注意力机制()表 不同网络模块对模型性能的影响.模型.模型性能对比通过表 可以看出与 模型相比本文提出的 和 在两个数据集上的
23、表现效果确实更好其中 在两个数据集上的 分别上涨了.和.这表明交互边选择网络层对该模型至关重要 比 提升效果更明显在 数据集上 提升了.这说明交互边选择比节点相似度注意力机制更有效 结束语本文提出的 模型旨在弥补以往模型中交互特征信息冗余交互低效等缺陷将建模特征交互转换为图上的节点交互其中交互边选择网络层自动选择有利于预测结果的交互边从而获得节点最优的聚合信息在每个节点获得最优的全局信息之后本文进一步通过节点相似度注意力层去学习一个相似度权重矩阵从而解决在经过多层图神经网络交互之后出现图节点过度平滑的问题 在 和 两个数据集上的性能有显著提高这表明 模型优于该领域已有的最佳模型基于 的架构思路
24、是一种行之有效的提高 预估准确性的方法参考文献:.:/.:./.:./.().:/./.:/.:.:.():./.:.:/.:./.:./.:.:/.:.:/.:.():./.().:/./.第 期 陈乔松等:面向点击通过率预测的交互边选择算法研究 ./().:./.().:/././.:.:/.:.:.():./.:():.:.():.杨燕燕张晓李翔宇等.基于样本和特征搜索空间不断缩小的模糊粗糙集特征选择.重庆邮电大学学报(自然科学版)():.()():./.:.赵文涛张烁.稀疏数据下基于用户偏好的协同过滤算法.重庆邮电大学学报(自然科学版)():.()():.:/.:.():.:/.:.:/.:.:/.().:/./.作者简介:陈乔松()男重庆人副教授博士主要研究方向为图像处理图像理解人工智能及计算机视觉:.曹 凤()女四川广安人硕士研究生主要研究方向为数据挖掘与机器学习:.(编辑:刘 勇)重 庆 邮 电 大 学 学 报(自然科学版)第 卷