StableDiffusion3技术报告.pdf
《StableDiffusion3技术报告.pdf》由会员分享,可在线阅读,更多相关《StableDiffusion3技术报告.pdf(28页珍藏版)》请在咨信网上搜索。
1、和空间推理、对细节的关注以及各种格的图像质。图 1.来我们的 8B 整流流模型的分辨率样本,展示了其排版、精确提示跟随方面的功能*平等贡献。stability.ai。维感知数据技术阐述该方法的优越性能两种模式的权重分开,并实现信息之间的双向流动图像和本标记,提本理解、排版和人类偏好评级。用于分辨率本到图像的合成。?外,我们提出了一种新颖的基于变压器的与已建立的扩散配方相比秤。通过大规模研究,我们证明?通过各种指标和人类评估来衡。我们最大的模型优于最先进的模型,我们将进行实验扩散模型通过将数据的前向路径反转为噪声来创建数据。*抽象的凯尔 莱西 亚历克斯 古德温 扬尼克 马雷克 罗宾 隆巴赫尚未被
2、明确确立为标准实践。在这项工作中,我们改进了现有的噪声采样技术,通过将修?流模型偏向于感知相关的模型来训练它们稳定性人工智能1苏米斯 库拉尔 安德烈亚斯 布拉特曼 拉希姆 恩特扎里 乔纳斯 穆勒 哈里 赛尼 亚姆 莱维多米尼克 洛伦茨 阿克塞尔 绍尔 弗雷德里克 博塞尔 达斯汀 波德尔 蒂姆 多克霍恩 锡安 英语帕特里克 埃塞尔缩放整流流变压器以实现分辨率图像合成数据、代码和模型权重公开。例如图像和视频。整流流是一种最新的成模型公式,它将已经成为一种强大的成模型数据和噪声成一条直线。尽管它好理论特性和概念简单性,它用于本到图像成的架构,使用我们证明该架构遵循可预测的缩放趋势,并将较低的验证损失
3、与改进的本到图像合成相关联,如下所示Machine Translated by Google我们工作的核心贡献是:(i)我们对不同的扩散模型和整流流公式进行了大规模、系统的研究,以确定最佳设置。虽然指定从数据到噪声的前向路径可以实现效的训练,但它也提出了选择哪条路径的问题。这种选择可能对采样产重要影响。例如,法消除数据中所有噪声的前向过程可能会导致训练和测试分布的差异,并导致诸如灰度图像样本之类的伪影(Lin 等人,2024)。重要的是,前向过程的选择也会影响学习到的后向过程,从而影响采样效率。虽然弯曲路径需要许多积分?骤来模拟该过程,但直线路径可以用单个?骤进行模拟,并且不出现误差累积。由于
4、每个?骤都对应于神经网络的评估,因?这对采样速度有直接影响。我们最大的模型优于最先进的开放模型,例如 SDXL (Podell 等人,2023)、SDXL-Turbo (Sauer等人,2023)、Pixart-(Chen 等人,2023)和封闭模型-源模型,例如 DALL-E 3 (Betker et al.,2023),均用于即时理解和人类偏好评级的定评估(Ghosh et al.,2023)。其中速度v由神经网络的权重参数化。Chen 等人之前的工作。(2018)建议通过可微 ODE求解器直接求解方程(1)。然而,这个过程的计算成本很,特别是对于参数化v(yt,t)的大型网络架构。有效的
5、替代方法是直接回归向场ut,成p0和p1之间的概率路径。为了构建这样的ut,我们定义一个前向过程,对应于p0和p1 =N (0,1)之间的概率路径pt,如下这种成建模技术已被证明对于对图像等维感知数据进行建模常有效(Ho et al.,2020)。近年来,扩散模型已成为从然语言输成分辨率图像和视频的事实上的方法,具有令人印象深刻的泛化能力(Saharia等人,2022b;Ramesh 等人,2022;Rombach 等人,2022);Podell 等人,2023;Dai 等人,2023;Esser等人,2023;Blattmann 等人,2023b;Betker 等人,2023;Blattma
6、nn 等人,2023a;Singer 等人,2022)。由于其迭代性质和相关的计算成本,以及推理过程中的较长采样时间,对这些模型进行有效训练和/或快速采样的公式的研究有所增加(Karras 等人,2023 年;Liu 等人,2023 年)。,2022)。前向路径的一个特殊选择是所谓的整流流(Liu et al.,2022;Albergo&Vanden-Eijnden,2022;Lipman et al.,2023),它将数据和噪声连接在一条直线上。尽管该模型类具有好的理论特性,但尚未在实践中得到决定性的确立。到前为,一些优势已经在中型实验中得到了实证证明(Ma et al.,2024),但这些
7、大多局限于类条件模型。在这项工作中,我们通过在修?流模型中引噪声尺度的重新加权来改变这一点,类似于噪声预测扩散模型(Ho et al.,2020)。通过大规模研究,我们将新配方与现有扩散配方进行比较并证明其优点。它们被训练将数据的前向路径反转为随机噪声,因?,结合神经网络的近似和泛化特性,可以用来成训练数据中不存在但遵循训练分布的新数据点数据(Sohl-Dickstein 等人,2015 年;Song 和 Ermon,2020 年)。到模型中(例如,通过交叉注意力(Vaswani 等人,2017;Rombach 等人,2022)并不理想,并且提出了一种新的架构,该架构结合了图像和本标记的可学习
8、流,这使得它们之间的双向信息流。我们将其与我们的我们展示了广泛使用的本到图像合成方法,其中直接输固定的本表示为?,我们为整流流模型引了新的噪声采样器,与之前已知的采样器相比,其性能得到了提。(ii)我们设计了一种新颖的、可扩展的本到图像合成架构,允许网络内本和图像令牌流之间的双向混合。我们展示了它与 UViT (Hoogeboom et al.,2023)和 DiT (Peebles&Xie,2023)等已建立的骨干网相比的优势。最后,我们 (iii)对我们的模型进行缩放研究,并证明它遵循可预测的缩放趋势。我们表明,较低的验证损失与通过 T2I-CompBench (Huang 等人,2023
9、)、GenEval (Ghosh 等人,2023)和人类评分等指标评估的本到图像性能的提密切相关。我们公开结果、代码和模型权重。改进了整流流公式并研究了其可扩展性。我们展示了验证损失的可预测缩放趋势,并表明较低的验证损失与改进的动和人工评估密切相关。2.流程的模拟训练一、简介缩放整流流变压器以实现分辨率图像合成我们考虑使用常微分方程(ODE)定义噪声分布p1的样本x1到数据分布p0的样本x0之间的映射的成模型,,(2)(1)dyt =v(yt,t)dtzt =atx0 +bt其中?N (0,I)。2扩散模型从噪声中创建数据(Song 等人,2020)。Machine Translated by
10、 GoogleEDM EDM (Karras et al.,2022)使用以下形式的前向过程化与均值Pm和方差P 结果3.流动轨迹在BT在BTtttt2在1在t2t22 a t 2 b2tN (t|Pm,P2其中(Kingma&Gau,2023)bt =exp F)1其中F N是?态分布的分位数函数。注意这个选择BT2t 1t。tsttzt bt(在射频s2乙在tt1t将zt、x0与duce t和ut之间的关系表示为bt a t z +2 at2122并使用LCFM,然后对应于w 网络输出直接参数化速度v。LCFM =Et,pt(z|),p()|v(z,t)ta t zt 在tzt =x0 +
11、bttt电火花加工重整流流整流流(RFs)(Liu et al.,2022;Albergo&Vanden-Eijnden,2022;Lipman et al.,2023)将前向过程定义为数据分布和标准?态分布之间的直线路径,即为了将损失转换为显式形式,我们将zbt 和插到(5)中,我们介绍-网络通过F 预测进行参数化(KingmaGao,2023;Karras 等人,2022),并且损失可以写为LwEDM :Cosine (Nichol&Dhariwal,2021)提出了以下形式的前向过程(7)与数据和噪声分布一致。tEt?U(t),?N(0,I)wt t(zt,t)=N (t|2Pm,(2P
12、s)pt(z|)ut(z)=E?N(0,I)ut(z|)pt(z)(z|)=由于方程 6 中的边缘化,条件流匹配(参 B.1),直接处理是很棘的,乙1zt =cos t x0 +sin。在LCFM =Et,pt(z|),p()|v(z,t)ut(z|)|2 2,-2t?N (2Pm,(2Ps)t(|):x0 atx0 +btzt),我们可以将方程(9)重写为(6)(pt(zt)=E?N(0,I)pt(zt|),|2 2|(z,t)|2 2 (12)3在(8)在这项工作中,我们考虑了上述形式主义的不同变体,我们将在下面简要描述。2)(9)zt =(1 t)x0 +t。=ut(zt|),由于zt可
13、以写为初始值z0 =x0的 ODE z的解,因?ut(|)成pt(|)。值得注意的是,我们可以使用条件向场ut(|)构造一个边缘向场ut,它成边缘概率路径pt (Lipman et al.,2023)(参B.1):(4)t +0.5(14)(z|)|)(3)使用流匹配标回归ut时(11)bt 2现在,考虑信噪比t:=log(v-对应于LCFM。=2(=ut(zt|)=利用条件向场ut(z|)提供了一个等效但于处理的标。(16)-(13)ut(zt|)=)对于 t?U(0,1)乙t)(e)。BT2LFM =Et,pt(z)|v(z,t)ut(z)|2 2。1 人们可以推导出各种加权损失函数,这些
14、函数为所需的解决方案提供信号,但可能会影响优化轨迹。为了对不同方法(包括经典的扩散公式)进行统一分析,我们可以将标写成以下形式(遵循KingmaGao (2023):z)。和Lw(x0)=(17)对于a0 =1、b0 =0、a1 =0 和b1 =1,边际,ut(z|):=我们定义:=(x0|)=a tx0 +b其中wt =-,(10)(15)=Et,pt(z|),p()2(5)缩放整流流变压器以实现分辨率图像合成接下来,我们使用方程(10)重新参数化方程(8)作为噪声预测标:与参数化和损失相结合,这对应于权重wt =sech(t/2)。当与v 预测损失相结合时(KingmaGao,2023),
15、t/2权重由下式给出:wt =e请注意,当引时间相关加权时,上述标的最优值不会改变。因?,Machine Translated by Google因?,我们的标是通过频繁地采样中间时间?来赋予它们多的权重。接下来,我们描述用于训练模型的时间?密度 (t)。Logit?态采样对中间?骤给予多重视的分布的一种选择是 Logit?态分布(Atchison&Shen,1980)。它的密度,(19)其中logit(t)=log具有位置参数m 和尺度参数s。位置参数使我们能够将训练时间?长偏向数据p0 (负m)或噪声p1 (?m)。如图11 所示,尺度参数控制分布的宽度。重尾模式采样Logit-?态密度总
16、是在端点0和1 处消失。为了研究这是否对性能产不利影响,我们还使用了在0,1上具有严格?密度的时间?采样分布。对于尺度参数s,我们定义。DDPM用途并去如图 11 所示,尺度参数控制采样过程中中点(?s)或端点(负s)的优先程度。该公式还包括s =0时的均匀加权mode(t;s =0)=U(t),该公式已在之前的整流流工作中广泛使用(Liu et al.,2022;Ma et al.,2024)。到长度 w的补丁编码序列。将这个 patch 编码和本编码cctxt嵌到一个共同的维度之后,我们我们构建一个由本和图像输的嵌组成的序列。具体来说,我们添加位置编码并将潜在像素代表的2 2块展平-hwc
17、表示x R我们的一般设置遵循 LDM (Rombach 等人,2022),用于在预训练动编码器的潜在空间中训练本到图像模型。与将图像编码为潜在表示类似,我们也遵循以前的方法(Saharia 等人,2022b;Balaji 等人,2022)并使用预训练的冻结本模型对本条件c进行编码。详细信息请参附录B.2。CosMap最后,我们还考虑RF 设置中第3节的余弦时间表(Nichol&Dhariwal,2021)。类似地,我们使用时间?t和cvec的嵌作为调制机制的输。然而,由于池化本表示仅保留有关本输的粗粒度信息(Podell 等人,2023),因?网络还需要来序列表示的信息2 2,1 21 2特别
18、是,我们?在寻找映射f:u f(u)=t,u 0,1,使得 log-snr 与余弦cos(u)时间表相匹配:2 log f(你)。求解f,我们u)fmode(u;s)=1 u s cos2t2对于给定的边界值0和T -1,t =0 +T12t,dT110 +t1f(u)=2 logdtf模式(t)。(T 1 0)?弦(重(T 1 0)且 LDM 使用t =12t 1t,2CosMap(t)=cctxt。缩放整流流变压器以实现分辨率图像合成d H 1得到 u?U(u)(18)。4.本到图像架构对于图像的本条件采样,我们的模型必须考虑本和图像这两种模式。我们使用预训练的模型来导出合适的表示,然后描
19、述我们的扩散主干的架构。图 2 对?进行了概述。t =f(u)=1 tan(u)+1,dtf(logit(t)m)ln(t;m,s)=exp s 2 t(1 t)2s 2RF 损失在0,1 中的所有时间?上均匀地训练速度v。然而,直观上,对于0,1中间的t,所得到的速度预测标 x0困难,因为对于t =0,最佳预测是p1的平均值,而对于t =1,最佳预测是 p1 的平均值。预测是 p0 的平均值。一般来说,将t上的分布从常用的均匀分布U(t)改为密度为(t)的分布相当于加权损失Lw(22)u 1 +u。(20)22T 1表示。在实践中,我们从?态分布u?N (u;m,s)中对随机变u进行采样,并
20、通过标准逻辑函数将其映射。11=(t)1 t对于1 s 该函数是单调的,我们可以使用它从隐含密度mode(t;s)=中进行采样3.1.适用于 RF 模型的定制 SNR 采样器(LDM-)线性LDM (Rombach等人,2022)使用DDPM时间表的修改(Ho等人,2020)。两者都是方差保留计划,即bt =1 离散时间?长t =0的细化,.。,扩散系数t为at =(ts=0(1 s)(21)(t)=2t +2t2,4从中我们得到密度t2t21 2多模态扩散主干我们的架构建立在 DiT (Peebles&Xie,2023)架构之上。DiT 仅考虑类条件图像成,并使用调制机制根据扩散过程的时间?
21、长和类标签来调节网络。Machine Translated by Google汇集注意力VK问ccxxcxxccCxX5.1.改善整流流程 线性(eps/线性、v/线性)和余弦(eps/cos、v/cos)计划的-和v 预测损失。5.1.1.结果对于我们的缩放实验,我们通过将隐藏大设置为64d (在 MLP 块中扩展到464d个通道),根据模型深度d(即注意块的数)参数化模型的大。,注意力头的数等于 d。mode(t;s)(rf/mode(s)的 RF 损耗,s的7 个值统一在-1和1.75 之间选择,并且5*模:x +x线性+线性模:x +层范数丝路+*多层线性规划丝路线性层范数C线性+层范
22、数*多层线性规划线性模:c +c层范数线性+*yX模:c +选择。均方根范数选择。选择。均方根范数均方根范数选择。均方根范数多层线性规划调制取消补丁输出+潜伏噪声线性多层线性规划位置性?弦编码+。标题X夹子-L/14打补丁77 +77 代币线性时间?长4096频道线性CMM-DiT-块 1嵌夹子-G/14yMM-DiT-块 2MM-DiT-块 dT5特大号(b)一个 MM-DiT 块图 2.我们的模型架构。连接由 和逐元素乘法 *表示。可以添加Q和K的 RMS-Norm以稳定训练运行。最佳观看放大。(a)所有组成部分的概述。缩放整流流变压器以实现分辨率图像合成XC由于本和图像嵌在概念上完全不同
23、,因?我们对这两种模式使用两组独立的权重。如图2b 所示,这相当于每种模态都有两个独立的转换器,但是将两种模态的序列连接起来进行注意力操作,这样两种表示都可以在己的空间中工作,同时考虑另一种表示。?外,不同方法的损失是不可比的,也不一定与输出样本的质相关;因?,我们需要能够对方法进行比较的评估指标。我们在 ImageNet(Russakovsky 等人,2014)和 CC12M(Changpinyo 等人,2021)上训练模型,并在训练过程中使用验证损失、CLIP 分数(Radford 等人)评估模型的训练和 EMA权重.,2021;Hessel et al.,2021)和不同采样器设置(不同
24、引导尺度和采样?骤)下的FID (Heusel et al.,2017)。我们按照(Sauer et al.,2021)的建议计算 CLIP 特征的 FID。所有指标均在 COCO-2014 验证分割上进行评估(Lin 等人,2014)。附录 B.3 中提供了有关训练和采样超参数的完整详细信息。连接两个序列。然后,我们遵循 DiT 并应用一系列调制注意力和 MLP。我们的标是了解公式1中哪种模拟训练归一化流的方法是最有效的。为了能够比较不同方法,我们控制优化算法、模型架构、数据集和采样器。在5.实验我们在两个数据集上训练了 61 种不同的公式。我们包括第 3 节中的以下变体:Machine T
25、ranslated by Google修改时间?采样的公式比 LDM-Linear (Rombach et al.,2022)公式表现好rf/mode(1.75),这些变体通常表现常好因?证实了我们的假设,即中间时间?长是和数据集选择,我们使用以下方法对不同的公式进行排名-1和1之间,s统一在0.2和2.2 之间。与其他配方相比,它们的性能会下降对于每次运行,我们选择验证损失最的?骤配排序算法。为?,我们反复具有均匀时间?采样(rf)的流公式和我们限制对采样器设置进行平均的排名重要。在所有变体中,只有整流流另外s =1.0和s =0对应 RF 损耗与CosMap(t)(rf/cosmap)。E
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- StableDiffusion3 技术 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。