分享
分销 收藏 举报 申诉 / 32
播放页_导航下方通栏广告

类型机器学习在搜索排序中的应用.pptx

  • 上传人:xrp****65
  • 文档编号:13157388
  • 上传时间:2026-01-27
  • 格式:PPTX
  • 页数:32
  • 大小:3.18MB
  • 下载积分:10 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    机器 学习 搜索 排序 中的 应用
    资源描述:
    机器学习,在搜索排序中的应用,一淘及搜索事业部,-,搜索技术 仁,重,agenda,背景,LTR,方法,评估,并行化与多目标,LTR,在淘宝搜索应用的背景,第一部分,背景,背景,用户输入,Query,引擎召回商品,商品计算,feature,Rank,项目背景,-,特征,相关性,购买转化率(,GDBT,),点击,转化率(,LR,),二跳率(,LR,),反作弊,商业业务逻辑,预估模型,规则,个性化(,LR,、,GDBT,),图片质量(,SVM,),f(X)=w,1,*x,1,+w,2,*x,2,+,w,3,*x,3,+,w,4,*x,4,+,w,5,*x,5,+,w,6,*x,6,+,=,通过线性模型来组合非线性的特征,计算效率高,可,解释性好,背景问题,如何确定,各个特征的权重,W,能否不同的类目给出不同的权重,W,如何为新加入的特征设置权重,W,如何在不同的系统中快速的迁移特征,之前,用,ABTest,,现在使用,LTR,Learning,To Rank,,使用机器学习的方法来进行排序优化。,LTR,应用的方法,第三部分,方法,转化为,pairwise,问题,把整体的排序问题转换为商品对好坏问题,两,个商品哪个更好,Ctr,Cvr,价格,VS,优化目标与样本,样本选择,人工标注,(,工作量巨大,),商品,Ctr,商品转化率,详情页浏览时间,论文中使用的样本选择,样本选择,单,次,pv,点击位置,Click,Skip,Above,Last Click Skip,Above,Click Earlier,Click,Last Click Skip,Previous,Click No-Click,Next,f,A,f,B,f,C,f,D,f,E,f,A,=w*x,A,f,B,=w*x,B,f,C,=w*x,C,f,D,=w*x,D,f,E,=w*x,E,整体统计,ctr,样本选择,A Ctr,:,1,C Ctr,:,0.1,B Ctr,:,0.5,D Ctr,:,0.1,E Ctr,:,0.6,A E B C=D,A E,A B,A C,A D,E,B,E,C,E,D,B C,B D,相同,Query,统计商品,ctr,来生成,pair,c,tr,差值需要有一定置信度,没有位置信息,相同,query,ctr,单次,PV,样本选择,B,整体,Ctr:0.5,A,整体,Ctr:1,C,整体,Ctr:0.1,D,整体,Ctr:0.1,E,整体,Ctr:0.6,A E,A B,A C,A D,E,B,E,C,E,D,B C,B D,计算特征值需要还原到单,次,PV,下具体的用户以及当前环境,通过规则过滤掉其中的噪音,购买,点击,无行为,B,产生了购买行为,,D,产生了点击行为,优化目标与样本,避免样本选取的偏差,Pvlog,特征分布,(,人气,卖家,文本,)100,亿数据,训练样本分布,(,人气,卖家,文本,),千万训练样本,样本特征分析,特征分布不好的特征进行改进,对分布不合理的特征样本进行按比例抽样,样本特征分析,特征与目标值的关系,相关性差,相关性好,无点击样本选择,保持权重的一定程度稳定性,无点击数据,在现有排序下,对,Topquery,没有点击的数据,前,3,0,与后,3,0,形成,pair,,随机抽取,按不同比例混合无点击与,Ctr,样本,约,50%,的无点击样本,无点击样本训练后的权重,反映线上使用权重,w,模型优化,调整无点击与有点击比例,调整,抽样,策略,对特征值进行改进,分类目的模型,Query,类目预测结果的行业区分训练数据,手机类目的价格权重高于其他类目,RankSVM,模型(一),RankSVM,训练数据,RankSVM,模型,(二),A:1 qid:x f,A1,f,A2,f,A3,f,A4,B:0 qid:x f,B1,f,B2,f,B3,f,B4,f(x,),=,w,1,*(f,A1,-,f,B1,)+w,2,*(f,A2,-f,B2,)+w,3,*(f,A3,-f,B3,)+,x,1,=,f,A1,-f,B1,x,2,=,(产生,loss,),RankSVM,模型,Loss,:,(无约束),Loss,:,St:,对于一个,query,只有,1,个,pair,的情况:,RankSVM,模型,given w,0,f,or k=0,1,If,stop.,Set up I,Solve,0,obtain,Let,Find,RankSVM,模型,对于一个,query,有多个,pair,的情况,:,A:1 qid:x f,A1,f,A2,f,A3,f,A4,B:0 qid:x f,B1,f,B2,f,B3,f,B4,C:1,qid:x,f,C,1,f,C2,f,C3,f,C4,Loss,:,A=00 1,00-,1 00,labels,不可导,使用,TRON,方法求解,模型评估与效果评估,第三部分,【,评估,】,模型评估,baseline,按线上参数计算,pair,准确率,按模型参数计算,pair,准确率,Abtest,验证,收益,评估,模拟,rank,逻辑对,Pvlog,进行重排,Rank,对每个商品进行打分,重排,计算,CNDCG,收益,全局计算目标收益,交易的商品相关性为,2,(价格),点击的商品相关性为,1,DCGi=DCGi-1+,Gi/,CNDCG,收益与线上收益的比例通过,abtest,获得,找出,CNDCG,差异的,case,模型迭代,Pv log,按线上参数排序,按训练好的模型进行排序,CNDCG,CNDCG,NDCG,收益,样本混合比例调整,模型训练,样本选择策略调整,NDCG,差异,query,分析,抽样,策略调整,并行化与多目标,第四部分 模型优化,并行化(一),需要解决的问题,内存问题,训练时间过长,两种基于,MPI,的,方法,行列分割的并行,SVM,行分割的并行,Coordinate,A,scent,算法,,用于求解,NDCG,为目标值的样本,并行化(二),行列分割的并行的,SVM,算法,行分割,+,列分割:目标函数值求解、梯度函数求解,,搜索,最优解,Set up I,Solve,0,obtain,Let,Find,优点:,行分割:对样本进行了拆分缩小了单个节点的计算规模,列分割:每个节点只保存部分全局向量(长度与特征数量相同),减少内存开销;内积操作被拆分,提高计算速度,多目标(二),需要解决的问题,现实应用中,需要同时解两个目标问题,例如:,CTR,、,客单价,方法,Multi-loss Pair-wise Learning,再,ctr,样本的基础上,再加上价格的,label,基于目标函数中,,loss,函数进行改造,使其兼容多种目标。,多目标(二),A:1,0,qid:x,f,A1,f,A2,f,A3,f,A4,B:0,1,qid:x,f,B1,f,B2,f,B3,f,B4,y=1,y=-1,Loss,:,St:,Q&A,Never try,,,never know,曾翔,-,仁重,
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:机器学习在搜索排序中的应用.pptx
    链接地址:https://www.zixin.com.cn/doc/13157388.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork