结合注意力机制和图神经网络的CTR预估模型_夏义春.pdf
《结合注意力机制和图神经网络的CTR预估模型_夏义春.pdf》由会员分享,可在线阅读,更多相关《结合注意力机制和图神经网络的CTR预估模型_夏义春.pdf(9页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第3期总第331期0引言在计算广告、搜索、排序等推荐任务中,点击率(CTR)预测是核心算法,直接影响着互联网公司最后的盈利。大多数CTR预估模型由2个核心组件构成:一个是嵌入层组件,它将原始的输入数据转换成低维稠密的嵌入向量;另外一个是特征学习组件,它用来学习有效的特征交叉组合并计算模型的最终输出。然而,之前的研究主要集中在特征学习组件的自动化设计,很少关注嵌入层组件。这是因为大部分研究者都是在理解图像的基础上进行算法设计,其中学习组件对模型性能非常重要,而输入组件则微不足道,因为图像像素已经是浮点形式。与图像领域不同的是大量
2、离散项(如产品、广告或视频)的推荐问题在工业环境中普遍存在,当类别特征作为输入时需要把one-hot编码的特征向量转为低维稠密向量,人工启发式选择嵌入维度会严重影响模型的准确性。基于此,本文借鉴AutoEmb1模型的思想,给出一个端到端的可微框架,该框架可以根据特征的受欢迎程度自动选择不同的嵌入维度,对于流行度高的物品特征嵌入选择大的维数,反之选择一个小的嵌入维数。在特征学习组件中,寻找原始特征的有效转换是结合注意力机制和图神经网络的CTR预估模型夏义春,李汪根,李豆豆,葛英奎,王志格(安徽师范大学计算机与信息学院,安徽 芜湖 241002)文章编号:1006-2475(2023)03-002
3、9-09摘要:大多数CTR预测的算法都是将特征嵌入初始化为一个固定的维度,忽略了长尾物品特征的流行度不高。把它和头部物品的嵌入向量设置为相同长度会导致模型训练不平衡,影响最后的预测结果。基于此,本文首先使用一个端到端的可微框架,该框架可以根据特征的流行度自动选择不同的嵌入维度。其次,引入挤压激励网络机制和具有残差连接的多头自注意力机制,分别从不同角度动态地学习特征的重要性以及识别重要的特征组合,然后使用图神经网络代替传统内积和哈达玛积显式建模二阶特征交互。最后为了进一步提高性能,将DNN组件与浅层模型相结合形成深度模型,利用贝叶斯优化算法为深度模型选择一组超参数,避免复杂的调参过程,并且在2个
4、基准数据集上实验,结果验证模型的有效性。关键词:点击率预测;自动嵌入搜索;挤压激励网络;多头自注意力机制;图神经网络;贝叶斯优化中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.03.006CTR Prediction Model Combining Attention Mechanism and Graph Neural NetworkXIA Yi-chun,LI Wang-gen,LI Dou-dou,GE Ying-kui,WANG Zhi-ge(School of Computer and Information,Anhui Nor
5、mal University,Wuhu 241002,China)Abstract:Most CTR prediction algorithms initialize the feature embedding as a fixed dimension,ignoring the low popularity ofthe long tail feature.Setting it to the same length as the head object embedding vector will lead to unbalanced model training andaffect the fi
6、nal recommendation results.Based on this,this paper first uses an end-to-end differentiable framework,which canautomatically select different embedded dimensions according to the popularity of features.Secondly,this paper introducessqueeze excitation network mechanism and multi-head self-attention m
7、echanism with residual connection to dynamically learnthe importance of features and identify important feature combinations from different angles,and then uses graph neural networkto explicitly model the second-order feature interaction instead of traditional inner product and Hadamard product.Fina
8、lly,in order to further improve the performance,this paper combines the DNN component with the shallow model to form the depthmodel,uses the Bayesian optimization algorithm to select a set of super parameters for the depth model to avoid the complex parameter adjustment process,and the experimental
9、results on two benchmark datasets verify the effectiveness of the model.Key words:CTR prediction;automatic embedded search;squeeze excitation network;multi-head self-attention mechanism;graph neural network;Bayesian optimization收稿日期:2022-04-14;修回日期:2022-05-25基金项目:高校领军人才引进与培育计划项目(051619)作者简介:夏义春(1996
10、),男,安徽肥西人,硕士研究生,研究方向:推荐系统,计算广告,深度学习,E-mail:;李汪根(1973),男,安徽太湖人,教授,博士,研究方向:生物计算,智能计算,E-mail:;李豆豆(1996),男,安徽淮北人,硕士研究生,研究方向:图像处理,深度学习,E-mail:;葛英奎(1997),男,安徽马鞍人,硕士研究生,研究方向:推荐系统,深度学习,E-mail:;王志格(1997),男,安徽宣城人,硕士研究生,研究方向:推荐系统,深度学习,E-mail:。计算机与现代化2023年第3期一种常用提高模型的预测能力的手段。特征组合是最主要的特征转换类型,大量文献表明高阶特征组合对模型准确的预测
11、是至关重要的。例如,向一个8岁的男孩推荐魂斗罗游戏,三阶组合特征对预测是非常有用的。然而,寻找这种有意义的高阶组合特征很大程度上依赖于领域专家。此外,手工制作全部有意义的特征组合几乎是不可能的。因此为了对不同阶次的特征组合进行自动化建模,研究者们做出了许多探索。各种基于因子分解机2(FM)的模型被开发出来用于建模特征交互,并被证明对各种任务都是有效的3-7。随着深度学习在计算机视觉、自然语言处理等许多研究领域取得巨大成功,近年来提出了许多基于深度学习的CTR 模型。例如 FNN8、Wide&Deep9模型、注意因子分解机10(AFM)、DeepFM11、xDeepFM12等。本文在寻找交叉特征
12、的基础上,使用 SENet(Squeeze-and-Excitation Networks)注意力机制对嵌入向量加权得到特征的重要性,使用多头注意力机制得到新的特征表达,通过图神经网络学习二阶特征交互,最后经过几层全连接网络得到高阶非线性的特征交互并预测结果。本文提出一种新的模型 AE-Attention-GNNET,用于自动搜索不同特征域的嵌入维度,动态学习特征重要性和更加细致的二阶特征交互。考虑不同特征字段在推荐系统中受欢迎程度不同,模型嵌入层应该允许不同的嵌入维度。另外,不同的特征对于目标任务有不同的重要性,例如,当模型预测一个人的收入时,职业特征比爱好特征更为重要。考虑这一点,本文 借
13、 鉴 FiBiNET13模 型 引 入 挤 压 激 励 网 络(SENet)14机制动态学习特征的权值。多头自注意力机制是Vaswani等人15提出来的一种基于普通注意力机制的变形,它减少了对外部信息的依赖,更擅长捕捉词向量之间的内部相关性。本文引入多头自注意力机制,建模不同特征域之间的相关性,得到线性加权后的组合特征。最后本文把特征字段之间的复杂交互转化为对特征图上的节点交互进行建模,通过一次 GRU 网络更新自己的状态得到二阶特征交互,比之前的内积、哈达玛积更加细粒地捕捉特征之间的组合。本文主要工作如下:1)提出一个端到端的可微框架,该框架可以根据不同特征域的受欢迎程度以线性加权的方法自动
14、选择不同的嵌入维度最后和目标CTR一起优化。2)结合SENet机制,抑制贡献少的特征,增强贡献多的特征,动态地学习特征的权值,并且使用带残差结构的多头自注意力机制,自注意力机制能够得到不同特征域的相关性,多头可以学习不同空间的交叉特征,残差结构则保留原始一阶特征。基于此,模型可以得到更高阶特征的非线性交互。3)使用图神经网络,用更灵活有效的方式显式建模二阶特征交互,利用贝叶斯优化算法给模型一组超参数组合,避免复杂的调优过程。4)在2个基准数据集上做多次实验,实验结果表明,AE-Attention-GNNET 的各项性能优于其他最先进的深度模型。1相关工作本章讨论确定特征嵌入维数的常用策略以及梳
15、理相关的CTR预估算法。1.1自动嵌入搜索算法大多数CTR预估算法都遵循着输入层-嵌入层-特征交叉学习层-预测层的模型结构,把重点放在特征交叉学习层,思考如何设计一种自动化建模高阶特征交互的算法。但是这样做法忽略了嵌入层的表达能力,因为在CTR预估中不同流行度的特征所需要的嵌入维数不同,对于那些高流行度的特征,更大的嵌入维数会有更好的预测效果。相反,对于那些低流行度的特征,更大的嵌入维数预测效果会变差。嵌入维数的大小一般根据经验值确定一个范围,然后不断尝试出合适的嵌入维数,但是这种做法很浪费时间和计算资源。目前学术界和业界常采用降维方法和监督学习方法合理地设计嵌入维数的大小。FM216模型对数
16、据集的特征字段进行PCA17降维,通过控制协方差矩阵的阈值得到不同特征域的嵌入维数。自从NAS18发表以来,以自动化的、数据驱动的方式设计神经网络的架构吸引了大量研究者的兴趣。比如AutoEmb 模型利用 darts算法构建一个控制器,为不同的特征字段选择合适的嵌入维数。谷歌NIS19论文提出了多尺度嵌入,对于同一个特征不同的item分配不同的嵌入维度。NIS模型在ENAS19策略的基础上设计了新的搜索空间,用来选择多尺度嵌入向量。FaceBook的MDE20模型提出了混合维(MD)嵌入层,其中特定对象的嵌入维数随该对象的流行度而变化,而不是保持固定的嵌入维数。1.2CTR预估浅层模型CTR预
17、估模型中,最开始是逻辑回归21(LR)算法,它捕捉特征之间的线性关系,在工程上易于大规模并行化训练和部署。但是线性拟合缺少特征交叉,因此需要做大量的特征工程。因子分解机通过2个嵌入向量的内积建模二阶特征交叉,近些年许多基于FM的模型被提出。域因子分解机21(FFM)在FM的基础上引入了filed的概念,把相似的特征划分为一个域,对不同域各自建模,但带来了参数量过大的问题,模型容易过拟合。GBFM22和 AFM 考虑了不同域特征相互作用的重要性。由于FM仅是对二阶特征交叉建模,在它基础上的模型性能也被极大限制了。1.3CTR预估深层模型随着深度学习的发展,研究者们对设计 CTR预测的深度模型越来
18、越感兴趣。NFM23模型舍弃了FM算法用嵌入向量的内积做特征交叉的方法,而是使用了Bi-interaction Pooling 层,通过2个嵌入向量的哈达玛积做特征交叉,最后通过堆叠DNN来捕捉302023年第3期夏义春,等:结合注意力机制和图神经网络的CTR预估模型高阶非线性的特征交叉。DeepFM 的架构类似于Wide&deep,它初始化 2 组嵌入向量分别送入 FM 组件和DNN组件,最后并行预测结果。DCN24明确了特征交叉的阶数,xDeepFM通过一种明确的方式在特征字段上生成特征交互,改进了 DeepFM 和 DCN。FGCNN25利用卷积神经网络生成新的特征,在增强的特征空间上建
19、立深度分类器。AutoInt26引入多头注意力机制,通过叠加多个交互层可以实现不同阶交叉特征的建模。自适应因子分解网络27(AFN)引入对数神经网络将特征组合的幂转换为系数乘法的累加,用来建模交叉特征的组合。Fi-GNN28首次引入图结构,将复杂的特征交互转化为对特征图上的节点进行显式建模。还有其他模型以隐式方式学习高阶特征交互,如PNN29、FNN、DeepCrossing30等。2CTR预估模型这章具体介绍各个模块的实现以及推导,本文提出的模型结构如图1所示。.输入层嵌入层11e21e.1ke.12e22e2ke.1me2mekme.线性变换层11e?21e?1ke?.12e?22e?2k
20、e?.1me?2me?.kme?线性加权层软性注意力机制软性注意力机制软性注意力机制.变换嵌入层1e2eme.变换嵌入层向量多头注意力机制挤压激励网络机制GNN特征交互层DNNDNN1 y2 y y2k112k12k图1AE-Attention-GNNET模型结构图2.1输入层在 CTR预估领域中,特征字段一般都是由类别特征和数值特征组成,首先将所有特征字段表示为一个稀疏向量,将所有特征字段连接。具体表示为:x=x1,x2,xn,xn+1,xm(1)其中,m是所有特征字段的总数,xi是第i个特征字段的特征表示。其中前n个是类别特征,后m-n+1个是数值特征,则类别特征使用one-hot向量表示
21、,数值特征是归一化01之间的标量值。2.2嵌入层输入层的类别特征经常用one-hot向量表示,但在大规模推荐系统中这些输入会变成高维稀疏的向量。由于高维稀疏的向量非0值特别少,在进行特征组合时大部分0值会造成特征组合的权重系数无法学习,最后严重影响到模型的性能。所以模型需要将高维稀疏的one-hot编码用嵌入层转为低维稠密的向量。具体来说,本文分别对类别特征和数值特征进行如下转换:ei=Vixi(2)ej=vjxj(3)其中,Vi是第i个类别特征的嵌入矩阵,xi是one-hot向量。为了实现类别特征和数值特征之间的相互作用,模型把数值特征也嵌入到相同的低维空间,其中vj是第j个数值特征的嵌入向
22、量,xj是标量值,嵌入维度设为d。最后得到所有特征的一个串联表达式为:e=e1,e2,em(4)其中,eRmd。以上步骤是一般 CTR算法嵌入层的处理过程,缺点是预设了嵌入维度,导致所有特征嵌入维度都是固定的,模型应该让流行的特征嵌入维度更大,非流行的特征嵌入维度更小。因此,本文在嵌入层对上述方法进行改进,在预定的嵌入维度d之内,让所有特征选择适合自己的嵌入维度。首先,本文对每一个输入特征设置一组不同的嵌入向量,然后经过线性变换层和线性加权层用每个特征不同嵌入向量的加权和替代固定嵌入维度的嵌入向量。在嵌入层本文的具体做法为:ei=e1i,e2i,eki(5)其中,k是每一个特征设置不同嵌入向量
23、的总数,ei是第i个特征字段不同嵌入向量的串联。2.3线性变换层由于为每一个特征字段设置了多个不同嵌入维度的嵌入向量,因此需要将所有的嵌入向量转换为同一个嵌入维度d,计算方法用全连接来实现,具体为:eij=F(eij,wij)=relu(wijeij)(6)其中,F()是全连接函数,eji代表第i个特征字段设31计算机与现代化2023年第3期置的第j个嵌入向量,eij Rdj;wij是对应的权重参数,wij Rd dj。最后第i个特征字段的嵌入向量可以表示为:e?i=e?1i,e?2i,.,e?ki(7)这里,e?i Rk d。2.4线性加权层和变换嵌入层本节主要采用了一种软编码的方式给每个特
24、征字段选择合适的嵌入向量,本文通过计算不同嵌入向量之间的相似性,用它们的加权和来替代固定维度的嵌入向量。本文使用的软性注意力机制模型如图2所示。图2软性注意力结构图这里,首先给定目标任务的查询向量Query,根据 Query 计算第 i个特征字段不同嵌入向量的相关性,得到每个嵌入向量对应Value的权重系数,然后对Value进行加权求和,得到最后的Attention值。本文采用双线性打分模型,因为在计算相似度时比点积模型多了非对称性有利于平滑分数,计算方法为:s(eij,q)=(eij)TWq(8)然后根据双线性打分机制,得到第i个特征的第j个嵌入向量和查询向量的内积,W是额外引入的学习参数,
25、在学习过程中参与优化为:ij=softmax(s(ei,q)(9)在这里用softmax函数得到不同嵌入向量的注意力分布,最终得到第i个特征字段的嵌入向量表示为:att(ei,q)=jkijeij(10)综上,对每个特征字段都使用注意力模块,最后得到变换后的嵌入矩阵表示为:e=e1,e2,em(11)此时,从软性注意力机制加权后得到的嵌入向量具有良好的泛化性能,可以根据特征的流行度选择适合自己的嵌入维数。最后把此时的嵌入矩阵作为输入,模型在训练的时候会加强这种正反馈,实验结果也表明模型在AUC和Logloss上都得到了显著提升。2.5多头注意力机制近年来,多头自注意力机制在复杂关系建模方面取得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 注意力 机制 神经网络 CTR 预估 模型 夏义春
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。