2023年技术人的百宝黑皮书.pdf
《2023年技术人的百宝黑皮书.pdf》由会员分享,可在线阅读,更多相关《2023年技术人的百宝黑皮书.pdf(1154页珍藏版)》请在咨信网上搜索。
1、前言叙述一段历史,历史学家们往往会锁定一个时间维度上的“重要节点”。走过这个节点,世界的风向、社会的信念、人们对未来的态度发生改变,世界可以清晰地被分为“之前”与“之后”。回望淘宝的技术历史,2008年,淘宝率先提出并实践去IOE,逐步掌握中国企业互联网技术发展的命脉自主权;2010年手机淘宝上线,淘宝进入移动电商时代;2019年,双11核心系统100%上云,电商应用架构全面拥抱云技术行至2023这一年,我们确凿无疑地看到,以AI人工智能为代表的新技术正成为全球商业发展的新动能。幸运的是,过去24年我们曾积累下丰富的用户场景与行业经验,每一份文字、图像、视频、代码、数据,一片片构筑起我们未来想
2、象力的基石,为AI技术提供最佳的应用场。今年天猫双11,面向商家和消费者的一系列围绕AI的探索创新产品陆续落地。这是AI技术在电商领域的首次大规模应用,我们也积攒下点点滴滴的新思考和新沉淀。所以,我们在这里相遇了。这里是淘天业务技术2023一整年的精华技术内容合集,涵盖了AIGC与大模型、终端技术、服务端架构、数据算法等多个技术领域,沉淀了淘宝直播、购物车、拍立淘等多个业务的技术解决方案,细小的改变背后是对技术深度理解的体现,也是对用户体验与用户价值的纵深追求。我们希望能将这份知识沉淀和价值追求共享给你,并怀抱着开放自由的交流心态,真诚期望与大家沟通和共鸣。本书内容页数1000+、全部内容将近
3、40w字。希望你喜欢,并分享给身边的朋友。新年快乐!CONTENTS目录第一部分年度精选技术栈内容基于AIGC的3D场景创作引擎概述探索 StableDiffusion:生成高质量图片学习及应用基于Stable Diffusion的AIGC服饰穿搭实践AIGC生成3D模型探索与实践FlashAttention2原理解析以及面向AIGC的加速实践AIGC技术在淘淘秀场景的探索与实践AIGC图像生成的原理综述与落地畅想从零开始的stable diffusionPrompt设计与大语言模型微调大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析GPT Prompt编写的
4、艺术:如何提高AI模型的表现力Stable Diffusion WebUI 从零基础到入门技术新浪潮:正在崛起的AI工程师LangChain:大语言模型的新篇章021848627189100119133156189212222229AIGC与大模型篇前端智能化在淘宝的2022实践总结淘宝widget链路方案总结淘宝HTTP3/QUIC技术演进与实践天猫汽车商详页的SSR改造实践SSR在天猫优品大促会场的探索实践JVMTI 在淘宝 Profiler 中的应用淘宝首页大促新玩法“猫头”背后的技术挑战和设计淘宝小游戏背后的质量保障方案2023 年大淘宝 Web 端技术概览基于 Git 的开发工作流主
5、干开发特性总结开放网关架构演进跨端架构下客户端侧API维护方案总结移动端浏览器性能优化探索淘宝 APP 网络架构演进与弱网破障实践低代码逻辑编排观:PlayMaker前端如何做好用户体验?前端工程中的设计模式应用iOS Crash 治理:淘宝VisionKitCore 问题修复261287296309319325343357370394400408421430451462479541终端技术篇Hologres RoaringBitmap实践:千亿级画像数据秒级分析在淘宝,商品技术团队每天都在干什么?在淘宝,营销技术团队如何支持双11?认识 WebAssembly 与 Rust 实践一个服务端同
6、学的Vue框架入门及实践581595604614647服务端技术篇java动态脚本执行效率对比评测一种多场景通用备份容灾方案淘宝斗地主残局玩法技术方案总结9个服务端提升debug效率的IDEA Debugger技巧浅析设计模式4模板方法模式浅析设计模式5-责任链模式DDD之于业务支撑的意义策略模式在数据接收和发送场景的应用秒级启动的集成测试框架如何在业务代码中优雅地使用责任链模式慢SQL治理经验总结674682688702717727740753760778786基于扩散模型的3D智能创作引擎与内容投放算法最新实践基于组合优化的3D家居布局生成看千禧七大数学难题之NP问题电商3D购物新体验:A
7、R量脚和AR试戴背后的算法技术前端3D技术概述基于 MNN 在个人设备上流畅运行大语言模型ARM汇编快速入门7958038118258378503D/XR 技术篇在淘宝,音视频技术团队解决了内容电商什么问题?淘宝iOS拍立淘微距能力探索与实现淘宝拍立淘多码识别方案总结863876888多媒体技术篇淘宝拍照基于端云协同的视频流实时搜索实践CVPR 2023淘宝视频质量评价算法被顶会收录 CVPR 2023淘宝视频质量评价算法被顶会收录大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军(内含夺冠方案)896 903911深度统一粗排在淘宝主搜索的优化实践每日好店淘宝店铺推荐系统实践每日好店店品
8、排序探索模型升级Generator-Evaluator重排模型在淘宝流式场景的实践LLM在电商推荐系统的探索与实践CIKM论文解读|淘宝内容化推荐场景下对多场景全域表征的思考与应用ICCV2023|基于动作敏感性学习的时序动作定位淘宝用户体验分析方法论VOC数据洞察在淘宝详情的应用与实践物流产品体验诊断与优化BPPISE数据科学案例框架数据驱动性能体验优化大数据基础技能入门指南92093394094895997298899410121021103010361045算法/大数据篇负责淘宝业务前端开发9年,聊聊我的心得“技术开发最应该做什么?”,聊聊我在服务端开发5年的理解和收获聊聊我在淘宝做性能
9、分析的经历聊聊我做 NeRF-3D重建性能优化经历聊聊我在店铺开放域做性能优化的体会聊聊我在淘宝的成长公式和业务思考聊聊我从底层算法到业务算法转型的这一年思考力:如何更好地做出判断105710671072107910841090109611002023大淘宝技术工程师推荐书单推荐领域新人必看书籍:推荐系统实践程序员必读|业务架构解构与实践111511221131技术人的必读书单第二部分技术人生与学习成长系列技术人的经验总结年度精选技术栈内容第一部分技术人的百宝黑皮书2023版01第一部分年度精选技术栈内容技术人的百宝黑皮书2023版201年度精选技术栈内容AIGC与大模型篇AIGC与大模型篇基
10、于AIGC的3D场景创作引擎概述作者:Meta技术团队通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状,让商家像玩转2D一样去玩转3D,让普通消费者也能参与到3D内容创作和消费中,真正实现内容生产模式从PGC/UGC过渡到AIGC,是我们3D场景智能创作引擎一直追求的目标。前言随着元宇宙的大火,国内外各大厂纷纷下场开始为下一代互联网技术布局,旨在为用户提供更好的体验。体验包括方方面面,比如更好的游戏体验、更好的社交体验、更高效的办公体验当然也包括更好的消费体验。作为国内最大的电商平台,我们团队也在持续思考如何基于元宇宙的技术,给消费者带来更好的购物体验以及给商家带来更好的营商体验。
11、回归到电商“人、货、场”三要素上,通过虚拟人技术以及商品三维重建技术,“人”和“货”在3D化上已经迈出了重要的一步,而“场”作为连接“人”和“货”的重要载体,目前还严重依赖于专业人员通过专业的DCC软件进行创作,门槛高、耗时长、成本高、效率低,这就导致了中小商家以及C端用户在现阶段难以大规模参与,即使是头部大品牌商家制作的3D场景内容也很有限。然而大规模的虚拟世界需要有大规模的虚拟内容作为支撑进行构建,基于AIGC的能力加速“场”的自动化构建从而降低3D场景制作门槛就显得非常有必要。3D场景制作流程概述3D场景制作在游戏行业已经形成了一套非常成熟的工业化、流水线生产的解决方案。下面通过游戏行业
12、场景制作方式来简单介绍一下3D场景制作的整体流程。游戏中一个完整的场景制作流量一般可以分成如下六个步骤:1.游戏策划提需求2.原画师承接,并绘制出对应的原画3.建模师制作对应的三维模型和材质贴图技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇图片来源:https:/ 3D场景智能创作引擎技术架构,下面介绍一下创作引擎核心的几个算法。前背景生成技术前背景生成技术核心解决构建的3D场景与待展示的商品或者店铺相匹配问题。即给定一款商品生成与之匹配的3D场景对该商品进行展示或者给定一个店铺的商品生成与这批商品调性相符的店铺场景。对于不同品类的商品,所需场景复杂度是完全不一样的。以手
13、机和沙发为例,一般展示手机的3D场景以抽象的风格为主,比如星空、天空、或者一些抽象艺术风类似于手机内置的壁纸其主要目的是配合手机的外观以及屏幕壁纸颜4技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇色进行展示,整体场景相对简单,而展示沙发一般以实景场景为主并且需要在一个非常好看的客厅空间进展展示,为了营造温馨或者奢华的视觉效果还需额外大量的辅搭物品,如下图所示:为了解决不同复杂度场景生成问题,我们构建了两套场景生成技术,以下简称单场景生成技术和复杂场景生成技术,下面分别介绍这两种技术方案简单场景生成技术简单场景生成技术核心解决场景内贴图生成问题,根据不同的商品生成与之匹配的
14、场景贴图,并用生成的贴图根据一定的场景构建方式构建出新的场景,从而完成简单3D场景创作。我们采用的技术方案是基于Diffusion Model进行贴图生成,模型结构如下图所示:5技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇6给手机生成的星空背景贴图如下图所示:同时,我们基于手机屏幕壁纸也做了一些创意的贴图生成,效果如下图所示:直接根据手机壁纸进行场景贴图生成,构造与手机相符的3D场景。同时也可以基于该技术进行AI创意输出,设计师在搭建场景时给到设计师更多的灵感输入。另外,基于AIGC生成贴图的好处在于不受图片版权限制。复杂场景生成技术如上述沙发的例子,在构建复杂场景时仅
15、仅考虑场景贴图是远远不够的,需要围绕该商品构建整个客厅场景,硬装上包括背景墙、地板、灯具、窗帘等等、软装上包括辅搭家具、辅搭配饰、地毯等等。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇7如上图所示,我们先后尝试过四种生成方案,均未取得理想的效果,原因如下:1.基于pair 1生成N方案:该方法直接将1-N的问题当成多个1-1的问题来处理,缺点是,搭配不存在递推关系,即A与B搭,A与C搭,不能得出结论说B与C搭,所以,一旦生成的序列过长,基本没有审美可言,基于我们提出的BLEU n-gram的评测方法效果最差;2.TransE方案:主要研究如何在更高位空间内解决递推关系,
16、缺点是在有限规模的数据集下,不能找到一个高维空间可以对所有的家具进行表达,进而导致递推关系不成立;3.transformer方案:需要大规模的数据集进行训练,由于设计域的数据集都比较小导致训练不充分,匹配关系基本都学得不够好,其向量内聚性也不够好;技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇84.GCN方案:该方法的优点是节点的度越大,表征得越充分,度越少,表征得越不充分,极端情况是度为0,表征能力就很差。很适合解类似于完形填空的N生成1问题,针对1生成N问题,初始情况下度为0,很难稳定生成比较好的场景;设计领域存在一个明显的设计特点,物理空间上越接近的物体其相关性要求
17、越高,还是以沙发为例,比如客厅的主沙发和副沙发,往往要求其在款式、颜色、风格上要保持一致,物理空间距离越远设计上的自由度就会越大,比如客厅的沙发和卧室的床或者餐厅的餐桌之间设计自由度就会很高,没有明显的限制。根据设计与物理空间远近强相关这一关系,我们对原有的transformer进行了部分改进,在复杂场景中将待生成的辅搭物品根据空间距离划分成多个组,从而将一次性生成一整个长序列分解成生成多个强相关的短序列组合,同时每个短序列又作为先验知识,用于生成下一个短序列,这样做的好处是能够保证局部空间的强相关性以及当前空间与其他空间的相容性,而且实验发现能大大降低对样本的消耗量。通过实践我们发现该方案不
18、仅适用于单商品的场景生成,也适用于店铺维度的场景生成,整体的网络结构如下图所示:运镜技术构建纯3D场景不会涉及到运镜相关的技术,然而一旦需要把3D场景转成内容进行分发,比如基于3D场景生成图片用于制作宝贝的商品主图,或者基于3D场景制作短视频在各大短视频平台进行分发,或者基于3D场景制作全景图进行3D展示,或者在虚拟世界的虚拟屏幕上进行广告投放时,智能运镜技术就显得非常有必要。智能运镜技术可以类比成一个虚拟摄影师,通过这个虚拟摄影师可以在已经生成的3D场景里拍摄出非常好看的图片、视频、全景图等优质素材供给各渠道进行分发。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇9运镜
19、技术最大的难点是相机参数标注难度过大,成本过高,无法开展批量化标注。相机标注要有专业的摄影师与3D设计师一起参与,每一个机位的标注都需要设计师与摄影师协同配合,成本非常高,如果找非专业人士标注直接进行标注,效果非常不理想,为了解决无法进行批量化标注的问题,我们先后迭代了两个大的版本,我们称之为基于摄影构图的运镜技术和基于现有构图的逆向运镜技术,下面分别介绍这两种运镜技术。基于摄影构图的运镜技术顾名思义就是将摄影构图的技术参数化,并将其应用于3D场景的拍摄中,比如最常见的构图技巧为“井”字构图法,如下所示:将待拍摄的画面通过两条横线和两条竖线分隔成九个象限,产出四个焦点,这四个焦点称之为黄金分割
20、点,只要把待展示的物体放到这4个焦点的上,就能产出一幅比较不错的图片,还是以沙发为例,通过运用“井”字构图法,分别将焦点置于(2,1)和(1,2)处,就能拍摄出不错的图片,如下图所示:技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇10另外一种常用的构图技巧“井”字构图法的另外一种构图方法,简称“三分”构图法,将待拍摄的画面通过两条横线分隔成三个象限,并把在3D场景中待拍摄的物体放置在下面一条线上,也能拍出比较好的图片:基于摄影构图技术算法已经能够拍摄出与普通摄影师相媲美的图片或者短视频,它的缺点在于摄影构图千变万化,通过调整相机高度、相机相对物体的距离,俯仰角、FOV等参
21、数同样的构图技巧能拍摄出非常不一样效果,而且不同品类的商品虽然构图理论是同一套,但最终呈现的效果也可以完全不一样。因此,需要根据不同的类目需要去调节不同的参数,工作量巨大,该方法适用于项目冷启动阶段且急需产出素材的时候,无法大规模推广。基于现有构图的逆向运镜技术逆向指的是逆向商家的运镜,商家经过多年的摸索,已经把最优质的拍摄方法都沉淀在了商品主图中,因此,最直接的方式就是从商品主图中逆向摄影师拍摄时的相机参数。但直接从商品主图中还原摄影师拍摄时候的相机参数难度巨大,两者之间缺少直接的联系。由于物体在3D空间中的坐标是已知的,如果我们能预估出物体在图像中的3D bounding box从而得到其
22、8个顶点的坐标,那么就可以将其转换成图形学中的Perspective-n-Point(pnp)问题,该问题可以通过Direct Linear Transformation(DLT)方法进行求解,得到相机参数,并将其迁移到3D场景中,就能实现机位生成。我们通过UniPose对商品主图进行预测得到物体的3D bounding box以及对应的8个顶点坐标,为了提高模型效果,同时加入了物体姿态估计、热图估计。训练数据则是来自于随机角度渲染出的2D图以及部分人工标注数据,模型框架如下所示:技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇11有了主物体在2D空间下的8个顶点的坐标,以
23、及在3D空间下的对应的坐标,通过DLT算法就能求解出对应的相机参数:其中x是物体2D图像坐标,X是3D世界坐标,K是相机内参矩阵,R是相机外参矩阵,Xo为相机位置坐标。迁移到3D场景中时,由于3D场景内物体在尺寸上与商品主图不一定完全一致,为了保证主物体在画面中的占比,需要进行机位微调,如下图所示是微调的过程,微调的目标就是主物体在画面中的占比技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇12有了逆向运镜技术,不仅可以直接获取商家的运镜方法,也极大降低了标注成本不再需要专业的摄影师和3D设计师协同进行标注,同时也为运镜技术进行规模化推广到所有品类奠定了技术基础。算法基于3
24、D场景生成技术+智能运镜技术制作的效果图如下所示,同样是针对沙发场景,我们可以生成几十种运镜效果:场景素材价值预估技术有了3D场景生成技术和运镜技术后机器已经可以批量化、规模化、低成本的进行场景制造,据我们统计目前沙发类目下单品展示的3D场景平均一个模型已经可以构建出超过500个场景,再加上运镜技术每个场景至少能生产5张优质图,也就意味着针对一个3D模型,我们可以生产出1500张优质图,这么多优质素材如何投放能够效率最大化,这一问题随着场景制造能力逐步提升所面临的挑战也在逐渐增大。此处我们的解法是进行素材价值优选,优选最有效的素材进行投放,比如搜索场景我们以CTR为目标优选出CTR最高的素材进
25、行投放。技术人的百宝黑皮书2023版01年度精选技术栈内容AIGC与大模型篇13我们以目前跟搜索合作在搜索侧透出机器产出的3D场景素材为例,简单阐述一下场景素材价值预估与传统CTR预估的区别:1.只负责供给素材,不干预排序:在这种情况下,一个素材CTR高,并不一定能代表我们生成的素材好,需要考虑该素材透出的坑位,以及商品本身的CTR;2.传统CTR预估针对item维度对全局item进行预估,而我们是素材维度对同一个item机器产出的不同素材进行预估;3.由于我们只做离线的素材供给,因此仅有图像本身的特征以及投放后的统计类特征;4.给不同商家供给的素材、给同一个商家不同商品供给的素材,所用的3D
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 技术 百宝 黑皮
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。