2023阿里妈妈技术年刊:广告算法与工程实践精选.pdf
《2023阿里妈妈技术年刊:广告算法与工程实践精选.pdf》由会员分享,可在线阅读,更多相关《2023阿里妈妈技术年刊:广告算法与工程实践精选.pdf(440页珍藏版)》请在咨信网上搜索。
1、序阿里妈妈成立于 2007 年,是淘天集团商业数智营销中台。秉承着“让每一份经营都算数”的使命,阿里妈妈技术团队深耕 AI 在互联网广告领域的探索和大规模应用,并通过技术创新驱动业务高速成长,让商业营销更简单高效。2021 年 5 月,我们开始通过阿里妈妈技术微信公众号持续分享我们的技术实践与经验,覆盖广告算法实践、AI 平台及工程引擎、智能创意、风控、数据科学等多个方向。每年此时,我们都会整理过去一年颇具表性和创新性的工作沉淀制作成册。2023 阿里妈妈技术年刊涵盖机制策略、召回匹配、预估模型、智能创意、算法工程/引擎/系统建设等内容,这些工作有的已为业务创造实际收益,有的是一些常见问题的新
2、解法,希望可以为相关领域的同学带来一些新的思路。期待明年此时,每位朋友都有新的收获,而我们也带着更多探索实践来与大家分享交流 如果对这本电子书有想要探讨的问题,或有更好的建议,也欢迎通过阿里妈妈技术 微信公众号与我们联系。最后,祝大家新春快乐 祝福如初,愿不负追求与热爱,万事尽可期待!本书共 435 页,全部内容近 48 万字。如果觉得还不错,别忘了分享给身边的朋友 阿里妈妈技术团队|目录目录机制策略 1迈步从头越-阿里妈妈广告智能决策技术(自动出价&拍卖机制)的演进之路 1Bidding 模型训练新范式:阿里妈妈生成式出价模型(AIGB)详解 26万字长文,漫谈广告技术中的拍卖机制设计(经典
3、篇)36PerBid:在线广告个性化自动出价框架 55 Auction Design in the Auto-bidding World 系列一:面向异质目标函数广告主的拍卖机制设计 69自动出价下机制设计系列(二):面向私有约束的激励兼容机制设计 79增广拍卖二跳页下的拍卖机制探索 89Score-Weighted VCG:考虑外部性的智能拍卖机制设计 99合约广告中端到端流量预估与库存分配 108强化学习在广告延迟曝光情形下的保量策略中的应用 123MiRO:面向对抗环境下约束竞价的策略优化框架 134预估模型 142排序和准度联合优化:一种基于混合生成/判别式建模的方案 142转化率预估
4、新思路:基于历史数据复用的大促转化率精准预估 154基于特征自适应的多场景预估建模 174HC2:基于混合对比学习的多场景广告预估建模 183AdaSparse:自适应稀疏网络的多场景 CTR 预估建模 193贝叶斯分层模型应用之直播场景打分校准 203召回匹配 216代码开源!阿里妈妈展示广告 Match 底层技术架构最新进展 216|目录BOMGraph:基于统一图神经网络的电商多场景召回方法 220CC-GNN:基于内容协同图神经网络的电商召回方法 229RGIB:对抗双边图噪声的鲁棒图学习 241Memorization Discrepancy:利用模型动态信息发现累积性注毒攻击 25
5、1智能创意 262ACM MM23|4 篇论文解析阿里妈妈广告创意算法最新进展 262上下文驱动的图上文案生成 267基于无监督域自适应方法的海报布局生成 273基于内容融合的字体生成方法 278化繁为简,精工细作阿里妈妈直播智能剪辑技术详解 286视频分割新范式:视频感兴趣物体实例分割 VOIS 297风控技术 305阿里妈妈内容风控模型预估引擎的探索和建设 305大模型时代的阿里妈妈内容风控基础服务体系建设 323隐私计算 344广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台 SDH 344阿里妈妈营销隐私计算平台 SDH 在公用云的落地实践 353算法工程/引擎/系统建设 363
6、积沙成塔阿里妈妈动态算力技术的新演进与展望 363阿里妈妈智能诊断工程能力建设 380广告深度学习计算:向量召回索引的演进以及工程实现 390Dolphin:面向营销场景的超融合多模智能引擎 398阿里妈妈 Dolphin 智能计算引擎基于 Flink+Hologres 实践 414Dolphin Streaming 实时计算,助力商家端算法第二增长曲线 4241|机制策略迈步从头越-阿里妈妈广告智能决策技术(自动出价&拍卖机制)的演进之路作者:妙临、霁光、玺羽导读随着智能化营销产品和机器学习的发展,阿里妈妈将深度学习和强化学习等 AI 技术越来越多地应用到广告智能决策领域。在阿里妈妈技术同学
7、们的持续努力下,我们推动了业界广告决策智能技术的代际革新。本文结合时代发展的视角分享了阿里妈妈广告智能决策技术的演化过程,希望能给从事相关工作的朋友带来一些新思路。1.前言在线广告对于大多数同学来说是一个既熟悉又陌生的技术领域。搜广推、搜推广等各种组合耳熟能详,但广告和搜索推荐有本质区别:广告解决的是“媒体-广告平台-广告主”等多方优化问题,其中媒体在保证用户体验的前提下实现商业化收入,广告主的诉求是通过出价尽可能优化营销目标,广告平台则在满足这两方需求的基础上促进广告生态的长期繁荣。广告智能决策技术在这之中起到了关键性的作用,如图 1 所示,它需要解决如下问题在内的一系列智能决策问题:1.为
8、广告主设计并实现自动出价策略,提升广告投放效果;2.为媒体设计智能拍卖机制来保证广告生态系统的繁荣和健康。机制策略2|机制策略图 1 广告智能决策通过自动出价和拍卖机制等方式实现多方优化随着智能化营销产品和机器学习的发展,阿里妈妈将深度学习和强化学习等 AI 技术越来越多地应用到广告智能决策领域,如 RL-based Bidding(基于强化学习的出价)帮助广告主显著提升广告营销效果,Learning-based Auction Design(基于学习的拍卖机制设计)使得多方利益的统筹优化更加高效。我们追根溯源,结合时代发展的视角重新审视广告智能决策技术的演化过程,本文将以阿里妈妈广告智能决策
9、技术的演进为例,分享我们工作和思考。也希望能以此来抛砖引玉,和大家一块探讨。2.持续突破的自动出价决策技术广告平台吸引广告主持续投放的核心在于给他们带来更大的投放价值,典型的例子就是自动化的出价产品一经推出便深受广告主的喜爱并持续的投入预算。在电商场景下,我们不断地探索流量的多元化价值,设计更能贴近营销本质的自动出价产品,广告主只需要简单的设置就能清晰的表达营销诉求。3|机制策略图 2 出价产品逐步的智能化&自动化,广告主只需要简单的设置即可清晰的表达出营销诉求极简产品背后则是强大的自动出价策略支撑,其基于海量数据自动学习好的广告投放模式,以提升给定流量价值下的优化能力。考虑到广告优化目标、预
10、算和成本约束,自动出价可以统一表示为带约束的竞价优化问题。其中 为广告主的预算,为成本约束,该问题就是要对所有参竞的流量进行报价,以最大化竞得流量上的价值总和。如果已经提前知道要参竞流量集合的全部信息,包括能够触达的每条流量的价值 和成本 等,那么可以通过线性规划(LP)方法来求得最优解。然而在线广告环境的动态变化以及每天到访用户的随机性,竞争流量集合很难被准确的预测出来。因此常规方法并不完全适用,需要构建能够适应动态环境的自动出价算法。对竞价环境做一定的假设(比如拍卖机制为单坑下的 GSP,且流量竞得价格已知),通过拉格朗日变换构造最优出价公式,将原问题转化为最优出价参数的寻优问题9:对于每
11、一条到来的流量按照此公式进行出价,其中 为在线流量竞价时可获得的流量信息,为要求解的参数。而参数并不能一成不变,需要根据环境的动态变4|机制策略化不断调整。参竞流量的分布会随时间发生变化,广告主也会根据自己的经营情况调整营销设置,前序的投放效果会影响到后续的投放策略。因此,出价参数的求解本质上是动态环境下的序列决策问题。2.1 主线:从跟随到引领,迈向更强的序列决策技术如何研发更先进的算法提升决策能力是自动出价策略发展的主线,我们参考了业界大量公开的正式文献,并结合阿里妈妈自身的技术发展,勾勒出自动出价策略的发展演进脉络。图 3 自动出价策略的演进主线:迈向更强的决策能力整体可以划分为 4 个
12、阶段:第一代:经典控制类 把效果最大化的优化问题间接转化为预算消耗的控制问题。基于业务数据计算消耗曲线,控制预算尽可能按照设定的曲线来消耗。PID1及相关改进210是这一阶段常用的控制算法。当竞价流量价值分布稳定的情况下,这类算法能基本满足业务上线之初的效果优化。第二代:规划求解类 相比于第一代,规划求解类(LP)算法直接面向目标最大化优问题来进行求解。可基于前一天的参竞流量来预测当前未来流量集合,从而求解出价参数。自动5|机制策略出价问题根据当前已投放的数据变成新的子问题,因此可多次持续的用该方法进行求解,即 Online LP34。这类方法依赖对未来参竞流量的精准预估,因此在实际场景落地时
13、需要在未来流量的质和量的预测上做较多的工作。第三代:强化学习类 现实环境中在线竞价环境是非常复杂且动态变化的,未来的流量集合也是难以精准预测的,要统筹整个预算周期投放才能最大化效果。作为典型的序列决策问题,第三阶段用强化学习类方法来优化自动出价策略。其迭代过程从早期的经典强化学习方法落地5689,到进一步基于 Offline RL 方法逼近在线真实环境的数据分布9,再到末期贴近问题本质基于 Online RL 方法实现和真实竞价环境的交互学习13。第四代:生成模型类 以 ChatGPT 为代表的生成式大模型以汹涌澎湃之势到来,在多个领域都表现出令人惊艳的效果。新的技术理念和技术范式可能会给自动
14、出价算法带来革命性的升级。阿里妈妈技术团队提前布局,以智能营销决策大模型 AIGA(AI Generated Action)为核心重塑了广告智能营销的技术体系,并衍生出以AIGB(AI Generated Bidding)14为代表的自动出价策略。为了让大家有更好地理解,我们以阿里妈妈的实践为基础,重点讲述下强化学习在工业界的落地以及对生成式模型的探索。2.1.1 强化学习在自动出价场景的大规模应用实践跟随:不断学习、曲折摸索作为典型的序列决策问题,使用强化学习(RL)是很容易想到的事情,但其在工业界的落地之路却是充满曲折和艰辛的。最初学术界8做了一些探索,在请求粒度进行建模,基于 Model
15、-based RL 方法训练出价智能体(Agent),并在请求维度进行决策。如竞得该 PV,竞价系统返回该请求的价值,否则返回 0,同时转移到下一个状态。这种建模方法应用到工业界遇到了很多挑战,主要原因在于工业界参竞流量巨大,请求粒度的建模所需的存储空间巨大;转化信息的稀疏性以及延迟反馈等问题也给状态构造和 Reward 设计带来很大的挑战。为使得 RL 方法能够真正落地,需要解决这几个问题:MDP 是什么?由于用户到来的随机性,参竞的流量之间其实并不存在明显的马尔6|机制策略可夫转移特性,那么状态转移是什么呢?让我们再审视下出价公式,其包含两部分:流量价值和出价参数。其中流量价值来自于请求粒
16、度,出价参数为对当前流量的出价激进程度,而激进程度是根据广告主当前的投放状态来决定的。一种可行的设计是将广告的投放信息按照时间段进行聚合组成状态,上一时刻的投放策略会影响到广告主的投放效果,并构成新一时刻的状态信息,因此按照时间段聚合的广告主投放信息存在马尔可夫转移特性。而且这种设计还可以把问题变成固定步长的出价参数决策,给实际场景中需要做的日志回流、Reward 收集、状态计算等提供了时间空间。典型的工作5678912 基本上都是采用了这样的设计理念。Reward 如何设计?Reward 设计是 RL 的灵魂。出价策略的 Reward 设计需要让策略学习如何对数亿计流量出价,以最大化竞得流量
17、下的价值总和。如果 Reward只是价值总和的话,就容易使得策略盲目追求好流量,预算早早花光或者成本超限,因此还需要引导策略在约束下追求更有性价比的流量。另外,自动出价是终点反馈,即直到投放周期结束才能计算出完整的投放效果;且转化等信号不仅稀疏,还存在较长时间的回收延迟。因此我们需要精巧设计 Reward 让其能够指导每一次的决策动作。实践下来建立决策动作和最终结果的关系至关重要,比如9在模拟环境中保持当前的最优参数,并一直持续到终点,从而获取到最终的效果,以此来为决策动作设置较为精准的 Reward。另外,在实际业务中,为了能够帮助模型更好的收敛,往往也会把业务经验融入到 Reward 设计
18、中。如何训练?强化学习本质是一个 Trail-and-Error 的算法,需要和环境进行交互收集到当前策略的反馈,并不断探索新的决策空间进一步更新迭代策略。但在工业界,由于广告主投放周期的设置,一个完整的交互过程在现实时间刻度上通常为一天。经典的 RL 算法要训练好一般要经历上万次的交互过程,这在现实系统中很难接受。在实践中,通常构造一个模拟竞价环境用于 RL 模型的训练,这样就摆脱现实时空的约束提升模型训练效率。当然在线竞价环境非常复杂,如何在训练效率和训练效果之间平衡是构造模拟环境中需要着重考虑的事情。这种训练模式,也一般称之为 Simulation RL-based Bidding(简称
19、 SRLB),其流程如下图所示:7|机制策略图 4 SimulationRL-basedBidding(SRLB)训练模式基于 SRLB 训练模式,我们实现了强化学习类算法在工业界场景的大规模落地。根据我们的调研,在搜广推领域,RL 的大规模落地应用较为少见。创新:立足业务、推陈出新随着出价策略不断的升级迭代,“模拟环境和在线环境的差异”逐渐成为了效果进一步提升的约束。为了方便构造,模拟环境一般采用单坑 GSP 来进行分配和扣费且假设每条流量有固定的获胜价格(Winning Price)。但这种假设过于简单,尤其是当广告展现的样式越来越丰富,广告的坑位的个数和位置都在动态变化,且Learnin
20、g-based 拍卖机制也越来约复杂,使得模拟环境和在线实际环境差异越来越大。基于 Simulation RL-based Bidding 模式训练的模型在线上应用过程中会因环境变化而偏离最优策略,导致线上效果受到损失。模拟环境也可以跟随线上环境不断升级,但这种方式成本较高难度也大。因此,我们期待能够找到一种不依赖模拟环境,能够对标在线真实环境学习的模式,以使得训练出来的 Bidding 模型能够感知到真实竞价环境从而提升出价效果。结合业务需求并参考了 RL 领域的发展,我们先后调研了模仿学习、Batch RL、Offline RL 等优化方案,并提出的如下的 Offline RL-based
21、 Bidding 迭代范式,期望能够以尽可能小的代价的逼近线上真实的样本分布。8|机制策略图 5 OfflineRL-basedBidding训练模式,与 SRLB 模式差异主要在训练数据来源和训练方式在这个范式下,直接基于线上决策过程的日志,拟合 reward 与出价动作之间的相关性,从而避免模拟样本产生的分布偏差。尽管使用真实决策样本训练模型更加合理,但在实践中往往容易产生策略坍塌现象。核心原因就是线上样本不能做到充分探索,对样本空间外的动作价值无法正确估计,在贝尔曼方程迭代下不断的高估。对于这一问题,我们可以假设一个动作所对应的数据密度越大,支撑越强,则预估越准确度越大,反之则越小。基于
22、这一假设,参考 CQL21的思想,构建一种考虑数据支撑度的 RL 模型,利用数据密度对价值网络估值进行惩罚。这一方法可以显著改善动作高估问题,有效解决 OOD 问题导致的策略坍塌,从而使得 Offline RL-based 能够部署到线上并取得显著的效果提升。后续我们又对这个方法做了改进,借鉴了 IQL22(Implicit Q learning)中的 In-sample learning 思路,引入期望分位数回归,基于已有的数据集来估计价值网络,相比于 CQL,能提升模型训练和效果提升的稳定性。图 6 从 CQL 到 IQL,OfflineRL-basedBidding 中训练算法的迭代9|
23、机制策略总结下来,在这一阶段我们基于业务中遇到的实际问题,并充分借鉴业界思路,推陈出新。Offline RL-based Bidding 通过真实的决策数据训练出价策略,比基于模拟环境训练模式(SRLB)能够更好的逼近线上真实环境的数据分布。突破:破解难题、剑走偏锋让我们再重新审视 RL-based Bidding 迭代历程,该问题理想情况可以通过与线上真实环境进行交互并学习的方式求解,但广告投放系统交互成本较高,与线上环境交互所需要的漫长训练时间成本和在线上探索过程中可能需要遭受的效果损失成本,让我们在早期选择了 Simulation RL-based Bidding 范式,随后为解决这种范
24、式下存在的环境不一致的问题,引入了 Offline RL-based Bidding 范式。图 7 重新审视 RL-basedBidding 发展脉络为了能够进一步突破效果优化的天花板,我们需要找到一种新的 Bidding 模型训练范式:能够不断的和线上进行交互探索新的决策空间且尽可能减少因探索带来的效果损失。还能够在融合了多种策略的样本中进行有效学习。即控制训练时间成本和效果损失成本下的 Online RL-based Bidding 迭代范式,如下图所示:10|机制策略图 8 OnlineRL-basedBidding训练模式,与前两种模式的差别在于能够和环境进行直接交互学习13提出了可持
25、续在线强化学习(SORL),与在线环境交互的方式训练自动出价策略,较好解决了环境不一致问题。SORL 框架包含探索和训练两部分算法,基于 Q函数的 Lipschitz 光滑特性设计了探索的安全域,并提出了一个安全高效的探索算法用于在线收集数据;另外提出了 V-CQL 算法用于利用收集到的数据进行离线训练,V-CQL 算法通过优化训练过程中 Q 函数的形态,减小不同随机种子下训练策略表现的方差,从而提高了训练的稳定性。图 9 SORL 的训练模式在这一阶段中,不断思考问题本质,提出可行方案从而使得和在线环境进行交互训练学习成为可能。11|机制策略2.1.2 引领生成式 Bidding 的新时代(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 阿里 妈妈 技术 年刊 广告 算法 工程 实践 精选
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。