面向点击通过率预测的交互边选择算法研究.pdf
《面向点击通过率预测的交互边选择算法研究.pdf》由会员分享,可在线阅读,更多相关《面向点击通过率预测的交互边选择算法研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 卷第 期重庆邮电大学学报(自然科学版).年 月 ().:./.面向点击通过率预测的交互边选择算法研究收稿日期:修订日期:通讯作者:陈乔松 .基金项目:重庆市自然科学基金():()陈乔松曹 凤江泳锋由博文孙开伟邓 欣王 进朴昌浩(.重庆邮电大学 计算机科学与技术学院重庆.重庆邮电大学 自动化学院/工业互联网学院重庆 )摘 要:点击通过率()作为推荐系统中必不可少的核心任务分支提高其预测准确性既能改善用户的浏览体验也能为平台增加收益 以往模型在对点击通过率进行建模预测时保留所有的交互特征存在信息冗余交互低效等问题 针对这一问题提出了一种面向点击通过率预测的交互边选择模型通过自动识别冗余信息来动
2、态选择有益的交互特征主要由交互边选择网络层图节点相似度注意力层构成 交互边选择网络层引入过滤阈值机制并结合动态关联矩阵来去除冗余信息图节点相似度注意力层通过学习相似度权重矩阵来解决节点过度平滑问题 在 和 两个公开数据集上的大量实验证明该模型的预测能力优于已有模型关键词:点击通过率注意力交互边选择网络图节点相似度中图分类号:文献标志码:文章编号:()(./.):().:引 言在许多 应用(例如社交媒体购物平台)中推荐系统在解决信息爆炸问题方面发挥着核心作用 其中点击通过率预测()是一项至关重要的任务其目的是预测用户点击推荐商品(广告电影)的概率因此如何准确地推荐给用户感兴趣的物品提高用户的体验
3、和平台的收益这已经成为学术界和工业界非常重视的一项研究特征交互在 预测中发挥着非常重要的作用例如篮球爱好者偏向于点击运动产品程序员更偏好点击电脑产品这就表明交互特征比特征或者在 预测性能上效果更好 传统的 预估模型常以机器学习模型为基础例如线性模型()和树模型()这些模型结构简单需要结合复杂的特征工程才能达到令人满意的预测结果 因子分解机()通过向量内积学习二阶特征交互 注意力因子分解机()加入一个注意力子网络去学习特征交互的重要性但缺乏学习非线性特征交互近几年随着深度学习技术的发展基于神经网络的推荐模型也层出不穷如神经网络因子分解机()深度与交叉神经网络()显隐式特征交互网 络()图神经网络
4、用于特征交互()等深度学习网络能够学习高阶特征交互但这些模型只是简单地枚举了所有的特征交互存在可解释性差、特征交互冗余等缺点此外无用的交互特征也会带来不必要的噪声使训练过程复杂化针对目前存在的交互特征冗余等问题本文提出了基于图神经网络的交互边选择模型()具体来说 将特征之间的联系转化为一种图结构图中的每个节点对应相应的特征域不同域之间的特征交互就转换为图中节点之间的交互边主要创新点如下)提出一种交互边选择网络()结合图神经网络通过引入一个过滤阈值机制在聚合所有邻居节点信息之前来自动选择有利于预测结果的交互边从而获得节点最优的聚合信息)基于图和注意力机制提出了节点相似度注意力机制()去学习一个相
5、似度权重矩阵来解决图节点过度平滑的问题本文提出的 模型在 和 两个公开数据集上的大量实验证明本文模型的预测能力优于 预测领域已有的最佳模型 相关工作.预测任务中的特征交互特征交互在 预测任务中至关重要传统的 预估模型常以机器学习模型为基础例如和 是预测 的简单基线模型然而基于人工经验的特征工程非常繁琐低效使模型表达能力有限 将每个特征嵌入到一个低维稠密的向量中并通过向量内积学习二阶特征交互但没有区分特征交互之间的重要性若用该模型进行高阶交互则会出现计算复杂度高、开销大等问题 加入一个注意力子网络去学习特征交互的重要性区别对待不同的特征让它们对预测结果的贡献程度不同但模型中没有使用更深层次的网络
6、去学习高阶交叉特征 在深度学习领域基于神经网络的推荐系统模型也层出不穷 在嵌入层和深度神经网络层之间增加一个双向交互池化层来模拟二阶特征交互相比于之前的模型 降低了参数量 引入了一个交叉网络以显式的方式进行高阶特征交互 引入一个压缩交互网络()进行向量外积.图神经网络用于 预测任务特征域之间的简单非结构化组合将不可避免地限制特征交互的建模能力图是一种对一组对象和关系建模的数据结构由于图的强大表示能力近几年有很多与之相关的研究出现 图神经网络()是在图结构数据上学习嵌入的一种方法图神经网络中的节点通过聚合其邻居节点的信息和更新邻居节点的隐藏状态来与其他节点进行交互 门控图神经网络()使用门控循环
7、单元()作为更新器 图卷积神经网络()引入卷积网络作为节点信息聚合器 引入多头自注意第 期 陈乔松等:面向点击通过率预测的交互边选择算法研究力机制()来捕获对特征域之间的依赖关系 虽然通过图结构能够非常灵活和明确地来对特征交互进行建模但仍然存在一些问题比如 明确指出构造的是完全连接图即任意 个特征之间都存在交互但是列举所有特征交互会带来特征信息冗余和交互低效等问题无用的交互也会带来不必要的噪声使训练过程更复杂.特征选择近年来特征选择在很多领域都有应用通过特征选择机制能有效提高模型预测准确率 因子分解机模型下的自动特征交互选择模型()在 模型的基础上对交互特征进行选择把较大的离散型迭代搜索的问题
8、转换为连续型的系数求解问题 快速自适应特征约简模型()为每个对象生成不同的邻域处理没有先验知识可用的场景极大地降低了模型的时间复杂度 检测推荐系统中有益特征交互()通过 正则化自下而上地发现有意义的特征组合 基于图的特征过滤方法()利用矩阵幂级数的性质和马尔科夫链的基本原理对特征进行排序并去除低排名的特征 基于样本和特征搜索空间不断缩小特征选择模型采用特征冗余概念缩减特征的搜索范围来移除冗余特征 面向点击通过率预测的交互边选择算法研究.总体框架 整体框架如图 所示 由以下几部分组成:数据输入层、数据嵌入层、交互边选择网络层、节点相似度注意力层、输出层 其中数据嵌入层的处理方式最早是由.提出特征
9、嵌入()是 预测的前提条件因为点击记录包含离散的分类项不能直接应用于数值计算通过嵌入层将高维稀疏的特征嵌入到一个低维稠密的向量中 在经过嵌入层之后通过交互边选择图神经网络层对图中特征交互的边进行选择获取对预测结果最有益的特征交互边通过多层的图神经网络层就可以达到不同特征之间的高阶交互其中在每一层交互边选择网络层之后都输入到一个节点相似度注意力网络层通过为每一个图节点分配一个注意力权重防止节点间出现过度平滑问题 最后将所有的特征拼接为一维的张量最后把该张量输入到多层感知机网络进行预测图 整体架构图.重 庆 邮 电 大 学 学 报(自然科学版)第 卷.数据输入层 预测领域的数据通常包含数值型和类别
10、型特征类别特征通常是稀疏离散的不能直接用于数值计算因此要对其进行独热()编码将其转换为高维的稀疏向量 比如一部电影其由特征类型:喜剧语言:中文导演:史蒂芬构成通过独热编码转换为高维稀疏特征:所有的数据实例可以表示为 类别特征数值特征()()式中:表示类别特征个数 表示数值特征个数表示第个 特征分为独热编码向量和数值标量.数据嵌入层由于独热编码之后的数据是高维稀疏的常用做法是将其嵌入到低维密集的实值向量中 模块是后续模型的基石直接影响最终的预测准确率本文通过 模块的映射向量 将特征 嵌入到一个低维的向量 中表达式为()()式中:表示数据张量的维度标识是特征 的种类数 表示低维向量的嵌入维数特征
11、模块的输出是将多个嵌入向量拼接为 ()()式中:表示数据中单个样本所有的特征域.特征图结构以往研究中只是简单地将特征向量拼接到一起学习特征交互信息之后输入到深度神经网络中进行训练预测本文采用图结构将特征表示为图结构形式特征图可以表示为 ()()()式中:表示所有的节点域 每个节点 对应每个特征 表示节点 的所有邻居节点 它是一个完全连通图不同的节点可以通过边进行交互作用而边的值就是特征交互的重要性因此特征交互就转换为图中节点之间的交互.交互边选择网络层模型 在特征图上对所有节点进行交互建模图中所有特征交互边的存在会带来特征信息冗余和交互低效等问题无用的交互边也会带来不必要的噪声使训练过程复杂
12、因此本文提出的 模型能够在特征图结构中自动选择有益的交互边 在本节中将详细说明该网络是如何工作的以及最后图神经网络是如何聚合节点间交互边信息的在 中图结构状态由下面节点组成()()式中 表示交互步骤数据嵌入层学习到的特征表示作为该层的初始节点状态 节点通过多层图神经网络循环地进行交互边选择和节点状态的更新如图 所示图 交互边选择网络层.第 期 陈乔松等:面向点击通过率预测的交互边选择算法研究 在每一个交互步骤中 通过设置可训练的动态关联矩阵来动态地获取每一层交互步骤中节点之间的交互关系通过过滤阈值机制来过滤动态关联矩阵的值符合条件的值被保留并对应选择一个交互边最后通过张量内积的计算方式来聚合交
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 点击 通过 预测 交互 选择 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。