分销赏收藏举报申诉 / 28

立即下载开通VIP

当前位置：首页 > 研究报告 > 其他 > StableDiffusion3技术报告.pdf

StableDiffusion3技术报告.pdf

上传人：Stan****Shan

文档编号：1241306

上传时间：2024-04-19

格式：PDF

页数：28

大小：3.36MB

《StableDiffusion3技术报告.pdf》由会员分享，可在线阅读，更多相关《StableDiffusion3技术报告.pdf（28页珍藏版）》请在咨信网上搜索。

1、和空间推理、对细节的关注以及各种格的图像质。图 1.来我们的 8B 整流流模型的分辨率样本，展示了其排版、精确提示跟随方面的功能*平等贡献。stability.ai。维感知数据技术阐述该方法的优越性能两种模式的权重分开，并实现信息之间的双向流动图像和本标记，提本理解、排版和人类偏好评级。用于分辨率本到图像的合成。?外，我们提出了一种新颖的基于变压器的与已建立的扩散配方相比秤。通过大规模研究，我们证明?通过各种指标和人类评估来衡。我们最大的模型优于最先进的模型，我们将进行实验扩散模型通过将数据的前向路径反转为噪声来创建数据。*抽象的凯尔莱西亚历克斯古德温扬尼克马雷克罗宾隆巴赫尚未被

2、明确确立为标准实践。在这项工作中，我们改进了现有的噪声采样技术，通过将修?流模型偏向于感知相关的模型来训练它们稳定性人工智能1苏米斯库拉尔安德烈亚斯布拉特曼拉希姆恩特扎里乔纳斯穆勒哈里赛尼亚姆莱维多米尼克洛伦茨阿克塞尔绍尔弗雷德里克博塞尔达斯汀波德尔蒂姆多克霍恩锡安英语帕特里克埃塞尔缩放整流流变压器以实现分辨率图像合成数据、代码和模型权重公开。例如图像和视频。整流流是一种最新的成模型公式，它将已经成为一种强大的成模型数据和噪声成一条直线。尽管它好理论特性和概念简单性，它用于本到图像成的架构，使用我们证明该架构遵循可预测的缩放趋势，并将较低的验证损失

3、与改进的本到图像合成相关联，如下所示Machine Translated by Google我们工作的核心贡献是：（i）我们对不同的扩散模型和整流流公式进行了大规模、系统的研究，以确定最佳设置。虽然指定从数据到噪声的前向路径可以实现效的训练，但它也提出了选择哪条路径的问题。这种选择可能对采样产重要影响。例如，法消除数据中所有噪声的前向过程可能会导致训练和测试分布的差异，并导致诸如灰度图像样本之类的伪影（Lin 等人，2024）。重要的是，前向过程的选择也会影响学习到的后向过程，从而影响采样效率。虽然弯曲路径需要许多积分?骤来模拟该过程，但直线路径可以用单个?骤进行模拟，并且不出现误差累积。由于

4、每个?骤都对应于神经网络的评估，因?这对采样速度有直接影响。我们最大的模型优于最先进的开放模型，例如 SDXL （Podell 等人，2023）、SDXL-Turbo （Sauer等人，2023）、Pixart-（Chen 等人，2023）和封闭模型-源模型，例如 DALL-E 3 (Betker et al.,2023)，均用于即时理解和人类偏好评级的定评估(Ghosh et al.,2023)。其中速度v由神经网络的权重参数化。Chen 等人之前的工作。(2018)建议通过可微 ODE求解器直接求解方程(1)。然而，这个过程的计算成本很，特别是对于参数化v(yt,t)的大型网络架构。有效的

5、替代方法是直接回归向场ut，成p0和p1之间的概率路径。为了构建这样的ut，我们定义一个前向过程，对应于p0和p1 =N (0,1)之间的概率路径pt，如下这种成建模技术已被证明对于对图像等维感知数据进行建模常有效（Ho et al.,2020）。近年来，扩散模型已成为从然语言输成分辨率图像和视频的事实上的方法，具有令人印象深刻的泛化能力（Saharia等人，2022b；Ramesh 等人，2022；Rombach 等人，2022）；Podell 等人，2023；Dai 等人，2023；Esser等人，2023；Blattmann 等人，2023b；Betker 等人，2023；Blattma

6、nn 等人，2023a；Singer 等人，2022）。由于其迭代性质和相关的计算成本，以及推理过程中的较长采样时间，对这些模型进行有效训练和/或快速采样的公式的研究有所增加（Karras 等人，2023 年；Liu 等人，2023 年）。，2022）。前向路径的一个特殊选择是所谓的整流流（Liu et al.,2022;Albergo&Vanden-Eijnden,2022;Lipman et al.,2023），它将数据和噪声连接在一条直线上。尽管该模型类具有好的理论特性，但尚未在实践中得到决定性的确立。到前为，一些优势已经在中型实验中得到了实证证明（Ma et al.,2024），但这些

7、大多局限于类条件模型。在这项工作中，我们通过在修?流模型中引噪声尺度的重新加权来改变这一点，类似于噪声预测扩散模型（Ho et al.,2020）。通过大规模研究，我们将新配方与现有扩散配方进行比较并证明其优点。它们被训练将数据的前向路径反转为随机噪声，因?，结合神经网络的近似和泛化特性，可以用来成训练数据中不存在但遵循训练分布的新数据点数据（Sohl-Dickstein 等人，2015 年；Song 和 Ermon，2020 年）。到模型中（例如，通过交叉注意力（Vaswani 等人，2017；Rombach 等人，2022）并不理想，并且提出了一种新的架构，该架构结合了图像和本标记的可学习

8、流，这使得它们之间的双向信息流。我们将其与我们的我们展示了广泛使用的本到图像合成方法，其中直接输固定的本表示为?，我们为整流流模型引了新的噪声采样器，与之前已知的采样器相比，其性能得到了提。(ii)我们设计了一种新颖的、可扩展的本到图像合成架构，允许网络内本和图像令牌流之间的双向混合。我们展示了它与 UViT (Hoogeboom et al.,2023)和 DiT (Peebles&Xie,2023)等已建立的骨干网相比的优势。最后，我们 (iii)对我们的模型进行缩放研究，并证明它遵循可预测的缩放趋势。我们表明，较低的验证损失与通过 T2I-CompBench （Huang 等人，2023

9、）、GenEval （Ghosh 等人，2023）和人类评分等指标评估的本到图像性能的提密切相关。我们公开结果、代码和模型权重。改进了整流流公式并研究了其可扩展性。我们展示了验证损失的可预测缩放趋势，并表明较低的验证损失与改进的动和人工评估密切相关。2.流程的模拟训练一、简介缩放整流流变压器以实现分辨率图像合成我们考虑使用常微分方程（ODE）定义噪声分布p1的样本x1到数据分布p0的样本x0之间的映射的成模型，,(2)(1)dyt =v(yt,t)dtzt =atx0 +bt其中?N (0,I)。2扩散模型从噪声中创建数据（Song 等人，2020）。Machine Translated by

10、 GoogleEDM EDM (Karras et al.,2022)使用以下形式的前向过程化与均值Pm和方差P 结果3.流动轨迹在BT在BTtttt2在1在t2t22 a t 2 b2tN (t|Pm,P2其中(Kingma&Gau,2023)bt =exp F)1其中F N是?态分布的分位数函数。注意这个选择BT2t 1t。tsttzt bt(在射频s2乙在tt1t将zt、x0与duce t和ut之间的关系表示为bt a t z +2 at2122并使用LCFM，然后对应于w 网络输出直接参数化速度v。LCFM =Et,pt(z|),p()|v(z,t)ta t zt 在tzt =x0 +

11、bttt电火花加工重整流流整流流（RFs）（Liu et al.,2022;Albergo&Vanden-Eijnden,2022;Lipman et al.,2023）将前向过程定义为数据分布和标准?态分布之间的直线路径，即为了将损失转换为显式形式，我们将zbt 和插到(5)中,我们介绍-网络通过F 预测进行参数化（KingmaGao，2023；Karras 等人，2022），并且损失可以写为LwEDM ：Cosine (Nichol&Dhariwal,2021)提出了以下形式的前向过程(7)与数据和噪声分布一致。tEt?U(t),?N(0,I)wt t(zt,t)=N (t|2Pm,(2P

14、函数为所需的解决方案提供信号，但可能会影响优化轨迹。为了对不同方法（包括经典的扩散公式）进行统一分析，我们可以将标写成以下形式（遵循KingmaGao （2023）：z）。和Lw(x0)=(17)对于a0 =1、b0 =0、a1 =0 和b1 =1，边际，ut(z|):=我们定义:=(x0|)=a tx0 +b其中wt =-,(10)(15)=Et,pt(z|),p()2(5)缩放整流流变压器以实现分辨率图像合成接下来，我们使用方程（10）重新参数化方程（8）作为噪声预测标：与参数化和损失相结合，这对应于权重wt =sech(t/2)。当与v 预测损失相结合时（KingmaGao，2023），

15、t/2权重由下式给出：wt =e请注意，当引时间相关加权时，上述标的最优值不会改变。因?，Machine Translated by Google因?，我们的标是通过频繁地采样中间时间?来赋予它们多的权重。接下来，我们描述用于训练模型的时间?密度 (t)。Logit?态采样对中间?骤给予多重视的分布的一种选择是 Logit?态分布（Atchison&Shen，1980）。它的密度，(19)其中logit(t)=log具有位置参数m 和尺度参数s。位置参数使我们能够将训练时间?长偏向数据p0 （负m）或噪声p1 （?m）。如图11 所示，尺度参数控制分布的宽度。重尾模式采样Logit-?态密度总

16、是在端点0和1 处消失。为了研究这是否对性能产不利影响，我们还使用了在0,1上具有严格?密度的时间?采样分布。对于尺度参数s，我们定义。DDPM用途并去如图 11 所示，尺度参数控制采样过程中中点（?s）或端点（负s）的优先程度。该公式还包括s =0时的均匀加权mode(t;s =0)=U(t)，该公式已在之前的整流流工作中广泛使用（Liu et al.,2022；Ma et al.,2024）。到长度 w的补丁编码序列。将这个 patch 编码和本编码cctxt嵌到一个共同的维度之后，我们我们构建一个由本和图像输的嵌组成的序列。具体来说，我们添加位置编码并将潜在像素代表的2 2块展平-hwc

17、表示x R我们的一般设置遵循 LDM （Rombach 等人，2022），用于在预训练动编码器的潜在空间中训练本到图像模型。与将图像编码为潜在表示类似，我们也遵循以前的方法（Saharia 等人，2022b；Balaji 等人，2022）并使用预训练的冻结本模型对本条件c进行编码。详细信息请参附录B.2。CosMap最后，我们还考虑RF 设置中第3节的余弦时间表（Nichol&Dhariwal，2021）。类似地，我们使用时间?t和cvec的嵌作为调制机制的输。然而，由于池化本表示仅保留有关本输的粗粒度信息（Podell 等人，2023），因?网络还需要来序列表示的信息2 2,1 21 2特别

18、是，我们?在寻找映射f:u f(u)=t,u 0,1，使得 log-snr 与余弦cos(u)时间表相匹配：2 log f(你）。求解f，我们u)fmode(u;s)=1 u s cos2t2对于给定的边界值0和T -1，t =0 +T12t,dT110 +t1f(u)=2 logdtf模式(t)。(T 1 0)?弦（重(T 1 0)且 LDM 使用t =12t 1t,2CosMap(t)=cctxt。缩放整流流变压器以实现分辨率图像合成d H 1得到 u?U(u)(18)。4.本到图像架构对于图像的本条件采样，我们的模型必须考虑本和图像这两种模式。我们使用预训练的模型来导出合适的表示，然后描

19、述我们的扩散主干的架构。图 2 对?进行了概述。t =f(u)=1 tan(u)+1,dtf(logit(t)m)ln(t;m,s)=exp s 2 t(1 t)2s 2RF 损失在0,1 中的所有时间?上均匀地训练速度v。然而，直观上，对于0,1中间的t，所得到的速度预测标 x0困难，因为对于t =0，最佳预测是p1的平均值，而对于t =1，最佳预测是 p1 的平均值。预测是 p0 的平均值。一般来说，将t上的分布从常用的均匀分布U(t)改为密度为(t)的分布相当于加权损失Lw(22)u 1 +u。(20)22T 1表示。在实践中，我们从?态分布u?N (u;m,s)中对随机变u进行采样，并

20、通过标准逻辑函数将其映射。11=(t)1 t对于1 s 该函数是单调的，我们可以使用它从隐含密度mode(t;s)=中进行采样3.1.适用于 RF 模型的定制 SNR 采样器(LDM-)线性LDM （Rombach等人，2022）使用DDPM时间表的修改（Ho等人，2020）。两者都是方差保留计划，即bt =1 离散时间?长t =0的细化，.。，扩散系数t为at =(ts=0(1 s)(21)(t)=2t +2t2,4从中我们得到密度t2t21 2多模态扩散主干我们的架构建立在 DiT (Peebles&Xie,2023)架构之上。DiT 仅考虑类条件图像成，并使用调制机制根据扩散过程的时间?

21、长和类标签来调节网络。Machine Translated by Google汇集注意力VK问ccxxcxxccCxX5.1.改善整流流程线性（eps/线性、v/线性）和余弦（eps/cos、v/cos）计划的-和v 预测损失。5.1.1.结果对于我们的缩放实验，我们通过将隐藏大设置为64d （在 MLP 块中扩展到464d个通道），根据模型深度d（即注意块的数）参数化模型的大。，注意力头的数等于 d。mode(t;s)(rf/mode(s)的 RF 损耗，s的7 个值统一在-1和1.75 之间选择，并且5*模：x +x线性+线性模：x +层范数丝路+*多层线性规划丝路线性层范数C线性+层范

22、数*多层线性规划线性模：c +c层范数线性+*yX模：c +选择。均方根范数选择。选择。均方根范数均方根范数选择。均方根范数多层线性规划调制取消补丁输出+潜伏噪声线性多层线性规划位置性?弦编码+。标题X夹子-L/14打补丁77 +77 代币线性时间?长4096频道线性CMM-DiT-块 1嵌夹子-G/14yMM-DiT-块 2MM-DiT-块 dT5特大号(b)一个 MM-DiT 块图 2.我们的模型架构。连接由和逐元素乘法 *表示。可以添加Q和K的 RMS-Norm以稳定训练运行。最佳观看放大。(a)所有组成部分的概述。缩放整流流变压器以实现分辨率图像合成XC由于本和图像嵌在概念上完全不同

23、，因?我们对这两种模式使用两组独立的权重。如图2b 所示，这相当于每种模态都有两个独立的转换器，但是将两种模态的序列连接起来进行注意力操作，这样两种表示都可以在己的空间中工作，同时考虑另一种表示。?外，不同方法的损失是不可比的，也不一定与输出样本的质相关；因?，我们需要能够对方法进行比较的评估指标。我们在 ImageNet（Russakovsky 等人，2014）和 CC12M（Changpinyo 等人，2021）上训练模型，并在训练过程中使用验证损失、CLIP 分数（Radford 等人）评估模型的训练和 EMA权重.,2021;Hessel et al.,2021)和不同采样器设置（不同

24、引导尺度和采样?骤）下的FID (Heusel et al.,2017)。我们按照(Sauer et al.,2021)的建议计算 CLIP 特征的 FID。所有指标均在 COCO-2014 验证分割上进行评估（Lin 等人，2014）。附录 B.3 中提供了有关训练和采样超参数的完整详细信息。连接两个序列。然后，我们遵循 DiT 并应用一系列调制注意力和 MLP。我们的标是了解公式1中哪种模拟训练归一化流的方法是最有效的。为了能够比较不同方法，我们控制优化算法、模型架构、数据集和采样器。在5.实验我们在两个数据集上训练了 61 种不同的公式。我们包括第 3 节中的以下变体：Machine T

25、ranslated by Google修改时间?采样的公式比 LDM-Linear (Rombach et al.,2022)公式表现好rf/mode(1.75)，这些变体通常表现常好因?证实了我们的假设，即中间时间?长是和数据集选择，我们使用以下方法对不同的公式进行排名-1和1之间，s统一在0.2和2.2 之间。与其他配方相比，它们的性能会下降对于每次运行，我们选择验证损失最的?骤配排序算法。为?，我们反复具有均匀时间?采样(rf)的流公式和我们限制对采样器设置进行平均的排名重要。在所有变体中，只有整流流另外s =1.0和s =0对应 RF 损耗与CosMap(t)(rf/cosmap)。E

26、DM (edm(Pm,Ps)，选择15 个Pm值设置但其他设置差，例如rf/lognorm(0.50,在一个指标上表现良好，但在另一个指标上则相对较差。相比之下，我们再次观察到rf/lognorm(0.00,1.00）在各个指标和方面都取得了良好的性能0.60）是 50 次采样中表现最好的变体对应于(Karras et al.,2022)中的参数。5?和 50?。四次，一次是第好的表现。有或没有 EMA 权重。统一时间?采样（射频/模式）。EDM 的时间表使其与对数SNR 相匹配 RF 损耗为ln(t;m,s)(rf/lognorm(m,s)rf (edm/rf)的权重以及与v/cos (ed

27、m/cos)的对数 SNR 加权。当减少采样?骤数时少。对 24 种不同控制设置的排名进行平均。5.2.改进模态特定表示6适用于不同组的配方（edm、rf、eps和（eps/线性）以前使用过。使用不同的超参数进行评估。我们还展示我们还观察到某些变体在某些方面表现良好使用 EMA 权重进行评估，然后收集 CLIP统一在-1.2和1.2之间，Ps统一在0.6和1.8之间。请注意Pm,Ps =(1.2,1.2)使用 6 种不同采样器设置获得的分数和 FID根据以下公式计算帕累托最优的变体数据集，它获得了第三好的分数，其中有两个?数，但差（平均排名 8.5），5 次采样CLIP 和 FID 分数，为这

28、些变体分配当前迭代索引，删除这些变体，然后继续我们观察到rf/lognorm(0.00,1.00)始终获得良好的排名。它的性能优于校?后的剩余的，直到所有变体都得到排名。最后，我们在上一节中找到了一个公式脚?。我们观察到类似的行为网格中有 30 个(m,s)值，且m均匀最后，我们说明不同的定性行为允许整流流模型不仅可以与已建立的扩散公式竞争，例如 LDM-Linear (Rom-bach et al.,2022)或 EDM (Karras et al.,2022)，甚可以与表中的两个指标。2.第一组显示了两个数据集上的代表性变体及其指标，其中 25图 3 中的配方，我们使用不同的颜我们在选项卡

29、中呈现结果。1、这里我们只显示超越他们，我们现在转向我们的应用采样?骤。下一组显示的变体两个性能最佳的变体对于采样器设置、EMA 权重的所有 24 种组合，射频/对数范数(0.50,0.60)0.256 80.41 0.233 120.84剪辑 FID 剪辑 FID45.78 0.2242.75平均排名超过13.25射频/对数范数(1.00,0.60)0.254 114.26 0.234 147.6989.915?50?0.247 0.236 0.245 0.244 0.246rf/lognorm(0.00,1.00)rf/lognorm(1.00,0.60)rf/lognorm(0.50,0

30、.60)rf/mode(1.29)rf/lognorm(0.50,1.00)eps/线性 rf/mode(1.75)rf/cosmap edm(0.00,0.60)rf v/线性 edm(0.60,1.20)v/cos edm/cos edm/rf edm(-1.20,1.20)4.00具有 25 个采样?骤的不同变体。我们突出最好的，1.505.7549.70 0.217 94.90表 1.变体的全球排名。对于这个排名，我们申请2.509.001.00两个数据集和不同的采样设置。48.42 0.222 90.342.75全部15:0011.25图像网51.68 0.217 100.76变体1

31、.54 1.25 2.08 3.50 2.71 8.50 2.75 3.25 2.83 1.50 2.88 4.25 3.33 2.75 4.13 3.75 5.63 13.25 5.67 6.50 6.83 5.75 9.00 13.00 1 2.25 9.17 14.25 11.04 13.04 15.25 15.58 20.25rf edm(-1.20,1.20)eps/线性 v/cos v/线性3.25射频/对数范数(-0.50,1.00)0.248 89.70变体射频/模式(1.75)0.253 44.39 0.218 94.0645.64 0.2192.007.75射频/对数范数(

32、0.00,1.00)0.25063.12 0.200 116.60表 2.不同变体的指标。FID 和 CLIP 分数CC12M3.008.7550.74 0.209 97.87第佳和第三佳参赛作品。缩放整流流变压器以实现分辨率图像合成获得最佳 CLIP 和 FID 分数。有这个特例分辨率本到图像合成的制定。阿克-五）。整流流配方通常表现良好，并且，配排序对 EMA 和 EMA 权重进行平均，Machine Translated by Google当采样较少的?骤时，比其他公式表现得好。因?，我们算法的最终性能取决于不同通道配置的指标。下采样合成（通过 CogVLM （Wang 等人，2023）

33、和原始字幕提了本到图像的性能。评估通过因?，我们使用 50/50 合成/原始字幕混合图10 证实了这一假设，我们看到对于大的d，最终获得的图像质。我们采样?数限制潜在扩散后可实现的图像质为了评估训练对?字幕组合的效果，我们训练（如第 4 节中的本和图像标记的串联）扩展第 5.3 节中的最终方法。因?选择d =16。这项工作的其余部分。50%原始字幕和 50%合成字幕。7d =16动编码器在以下方面表现出好的缩放性能火焰离子化检测器而不是按序列串联（Chen et al.,2023）还有我们的 MM-DiT。对于 MM-DiT，我们将模型与VLM 的知识库中不存在，我们使用一个比率10电火花加工

34、(-1.20,1.20)每股收益/线性20120射频/对数范数(0.00,1.00)10030射频14040电压/余弦8060垂直/线性50具有d 的潜在模型是一项困难的任务，因?容增加的模型应该能够表现好主题，通常省略描述背景的细节0.75 0.79 0.86两个物体公制缩放整流流变压器以实现分辨率图像合成2.41 1.56 1.06数数52.53SSIM（）41.56GenEval （Ghosh 等人，2023）基准。49.78成功率颜FID ()成功率 68.09总体得分表 4.改进的标题。使用 50/50 的混合比例25.12 26.40 28.624 频道 8 频道 16 频道11

35、.75 71.54 6.50 33.44 95.00 41.410.85 0.68 0.45单个对象对于 25?及多?，只有rf/lognorm(0.00,1.00)仍能与 eps/线性竞争。峰值信噪比（）图 3.整流流具有样本效率。整流流位置93.75感知相似度 ()所有模型的因子均为 f =8。颜归属43.2718:0050/50 混合表 3.改进的动编码器。重建性能原始字幕24.75使用现成的、最先进的视觉语言模型，5.2.3.改进的本到图像的骨架5.2.1.改进的动编码器5.2.2.改进的字幕et al.,2022），映射输 RGB X R原始字幕和其他字幕以 50/50 的比例混合。

36、我们使用 GenEval 基准（Ghosh基于变压器的扩散主干与我们新颖的基于变压器的多模态扩散主干，MM-DiT，作为进et al.,2019）单独的代币（参第4 节）。请注意，迪特不仅涉及训练公式，还涉及通过神经网络的参数化和图像质第 4节中介绍。MM-DiT 专设计用于通过添加合成字幕清楚地训练模型CogVLM （Wang 等人，2023），用于创建合成注释对于我们的大规模图像数据集。由于合成字幕可能该动编码器的重建质提供了较的导致本到图像模型忘记某些概念潜扩散模型通过操作实现效率训练。与戴等人类似。（2023），我们发现增加过度关注图像的大规模图像数据集宽深宽3处理不同的域，这里是本和

37、图像标记，使用低维空间x =E(X)R优于仅使用原始字幕的模型。样品 FID 条款。对于本的其余部分，我们（）不同组的可训练模型权重。具体地说，我们遵循第 5.1节中的实验设置我们之前描述了如何改进所有这些组件可以被解释为 MM-DiT 的一种特殊情况，其中一个以及我们使用的本表示。在以下部分中，等，2023）表4。结果表明这本（Betker 等人，2023）。我们遵循他们的方法并两个d =15 MM-DiT 模型，执行 250k?，仅一对一或场景的组成，或者，如果适用，显示潜在通道d的数显着提了重建性能，请参表3。直观地说，预测在本节中，我们比较现有的性能在预训练动编码器的潜在空间中（Rom

38、bach。进行大规模培训。这是由于往往过于简单化人类成的字幕的性质CrossDiT（DiT，但交叉参与本标记贝特克等人。(2023)证明综合成的字幕可以极大地改进本到图像的模型并比较 DiT 的 CC12M 上的本到图像性能，两组权重和三组权重，其中后者处理 CLIP (Radford et al.,2021)和 T5 (RaffelMachine Translated by Google这幅梦幻般的数字艺术捕捉了茂密雨中一只充满活力、千变万化的鸟类。人类活完全由分形描绘一只折纸猪在黑暗的房间中间着火，地板上有一个五星一个锈的旧机器人穿着裤子和夹克在超市里骑滑雪板。我浴室地板上有一个洞，里面住

39、着妖精由汽零件制成的办公室一个芝汉堡，里面有多汁的牛饼和融化的奶酪，放在一个看起来像王座的厕所顶部，矗立在王室的中央。太空电梯，电影科幻艺术当房间着火时，微笑的卡通狗坐在桌子旁，上拿着咖啡杯。“这很好，”狗向己保证。一幅异想天开且富有创意的图像，描绘了华夫饼和河马的混合物。这种富有想象力的物具有河马独特而庞大的身体，但其质地和外观类似于棕的脆华夫饼。这种物的皮肤上可能有华夫饼方块之类的元素，并且有糖浆般的光泽。它坐在一个超现实的环境中，有趣地将河马的天然栖息地与早餐桌设置的元素结合在一起，背景可能包括超大的餐具或盘子。图像应该唤起一种俏皮的荒诞和烹饪幻想的感觉。缩放整流流变压器以实现分辨率图像

40、合成8Machine Translated by Google所有模式共享的权重集。最后，我们将UViT （Hoogeboom 等人，2023）架构视为广泛使用的 UNet 和变压器变体之间的混合体。5.3.1.数据预处理5.3.2.分辨率微调图 5.QK归一化的效果。在计算注意力矩阵之前对Q 和K 嵌进行归一化可以防注意力逻辑增长不稳定（左），从而导致注意力熵崩溃（右），这在判别性 ViT 献中已有报道（Dehghani 等人，2023 年；Wortsman 等人，2023 年）。与之前的工作相比，我们在网络的最后一个变压器块中观察到这种不稳定性。显示最大注意力逻辑和注意力熵在2B (d=2

41、4)模型的最后 5 个块上的平均值。图 4.模型架构的训练动态。CC12M 上 DiT、CrossDiT、UViT 和 MM-DiT 的比较分析，重点关注验证损失、CLIP 评分和 FID。我们提出的MM-DiT 在所有指标上都表现良好。缩放整流流变压器以实现分辨率图像合成训练前的缓解措施训练数据会显着影响成模型的能力。因?，数据过滤可以有效地限制不良功能（Nichol，2022）。在销售培训之前，我们会过滤以下类别的数据：(i)情内容：我们使用 NSFW 检测模型来过滤骨内容。(ii)美观：我们删除评级系统预测得分较低的图像。(iii)反刍：我们使用基于集群的重复数据删除方法从训练数据中删除

42、感知和语义重复；参附录E.2。不同长宽比的位置编码在固定的256 256分辨率上进行训练后，我们的标是 (i)提分辨率和分辨率，以及 (ii)实现灵活长宽比的推理。由于我们使用维位置频率为了避免这种情况，Dehghani 等人。(2023)建议在注意力操作之前对 Q 和 K 进行归一化。我们遵循这种方法，并在我们的模型的 MMDiT 架构的两个流中使用具有可学习规模的RMSNorm （Zhang 和 Sennrich，2019），图 2。如图5所示，额外的标准化可以防注意力logit 增长不稳定，证实了Dehghani等人的发现。（2023）和沃茨曼等人。(2023)并在与 AdamW (Lo

43、shchilov&Hutter,2017)优化器中的=1015结合时，能够以bf16 混合(Chen et al.,2019)精度进行效训练。该技术也可以应用于预训练期间未使用 qk 归一化的预训练模型：模型可以快速适应额外的归一化层并且训练加稳定。最后，我们想指出，虽然这种方法通常有助于稳定大型模型的训练，但它并不是通用的方法，可能需要根据具体的训练设置进行调整。QK-归一化一般来说，我们在2562像素的低分辨率图像上预训练所有模型。接下来，我们在具有混合纵横比的分辨率上微调我们的模型（有关详细信息，请参阅下一段）。我们发现，当转向分辨率时，混合精度训练可能会变得不稳定并且损失发散。这可以通

44、过切换到全精度训练来弥补?但与混合精度训练相比，性能下降约 2 倍。（歧视性）ViT 献报道了一种有效的替代方案：Dehghani 等人。（2023）观察到大型视觉变压器模型的训练会出现分歧，因为注意力熵增长法控制。由于这些输出在训练期间是恒定的，因?我们对整个数据集预先计算它们一次。我们在附录 E.1 中详细讨论了我们的方法。5.3.大规模培训9预计算图像和本嵌我们的模型使用多个预训练的冻结网络的输出作为输（动编码器潜在和本编码器表示）。我们在图4 中分析了这些架构的收敛行为：Vanilla DiT 表现不佳 UViT。交叉注意力 DiT 变体 CrossDiT 比 UViT 实现了好的性能

45、，尽管 UViT 最初似乎学习得快。我们的 MM-DiT 变体明显优于交叉注意力和普通变体。当使用三个参数集而不是两个参数集时，我们仅观察到很的增益（以增加参数数和 VRAM 使用为代价），因?在这项工作的其余部分中选择前一个选项。在扩大规模之前，我们对数据进行过滤和预编码，以确保安全效的预训练。然后，之前对扩散公式、架构和数据的所有考虑在最后一节中达到潮，我们将模型扩展到 8B 参数。Machine Translated by Google对于S pling的标分辨率（NovelAI，2022；Podell 等人，2023），使得每个批次由均匀大H W 的图像组成，其中HW S对于最大和最训

46、练纵横比，这将得出将遇到的宽度Wmax和度Hmax的最大值。令hmax =Hmax/16、wmax =Wmax/16和s =S/16为修补（因子 2）后潜在空间（因子 8）中的相应大。基于这些值，我们构建一个具有值(p )和相应平位置的垂直位置网格。然后，我们在嵌之前从成的位置维网格中进行中心裁剪。（因为平均值的标准误）。因?，如果人们已经知道。像素，我们使用bucketed sam-我们在图 6 中可视化了这个移位函数。请注意，图像恒定的假设是不现实的。为了在推理过程中找到移位值:的良好值，我们将它们应用于在分辨率1024 1024下训练的模型的采样?骤，并运行人类偏好研究。图6中的结果显示

47、，人们强烈偏好偏移大于1.5的样本，但较偏移值之间的差异较。因?，在我们后续的实验中，我们在训练和采样期间都使用 =3.0的偏移值，分辨率为1024 1024。在 8k 训练?骤后，有和没有这种偏移的样本之间的定性比较可以在图 6 中找到。最后，请注意，公式23暗示了对数的对数SNR 偏移，类似于（Hoogeboom 等人，2023）：1米米nhmaxs 2总氮256nS米n2p=0总氮n米n2n1 1tt 1tn1 1ti=1 zt,i 的标准差为TM =）(23)(24)(25)米1 tn tm =2 log(t,n)=对于Y有偏差tn图像z0在其像素上是恒定的，(t,n)表示z0的不确定

48、程度。例如，我们立即看到，将宽度和度加倍会导致在任何给定时间0 t 1 时不确定性减半。但是，我们现在可以将分辨率n的时间?长tn映射到分辨率m的时间?长tm，结果是通过 ansatz (tn,n)=(tm,m)具有相同程度的不确定性。求解tm给出估计c?=时间?计划的依赖于分辨率的偏移直观地讲，由于的分辨率具有多的像素，因?我们需要多的噪声来破坏它们的信号。假设我们?在使用n =HW像素的分辨率。现在，考虑一个“恒定”图像，即每个像素都有值c 的图像。前向过程产zt =(1 t)c +t，其中和 R n。因?，zt提供了随机变Y =(1 t)c +t的n 个观测值，其中c和位于 R中，并且

49、遵循标准?态分布。因?，E(Y)=(1 t)c且(Y)=t。因?，我们可以通过c =恢复E(Y)以及c与其 sam-c之间的误差10n=tn 2 log =tn log1 +(m 1)tn。对于频率嵌，我们必须根据分辨率来调整它们。在多纵横比设置中，如（Dosovitskiy et al.,2020）中的嵌直接插值将法?确反映边长。相反，我们使用扩展和插值位置网格的组合，随后嵌频率。图 6.分辨率下的时间?长偏移。右上：根据等式（23）应用转移时的人类质偏好评级。底行：经过训练和采样的5122模型，m/n =1.0 （上）和m/n =3.0 （下）。参第 5.3.2节。缩放整流流变压器以实现分

50、辨率图像合成图 7.针对当前封闭和开放 SOTA 成图像模型的人类偏好评估。当在视觉质、提示跟随和排版成等类别的部分提示（Yu et al.,2022）上进行评估时，我们的 8B 模型与当前最先进的本到图像模型相比具有优势。hmax1Machine Translated by Google在图8 中，我们检查了训练 MM-DiT 的效果图12说明了如何长时间地训练大的模型表 6.模型大对采样效率的影响。桌子10/50?20/50?路径长度4.30 3.59 2.71深度=15 深度=30 深度=38表 5.GenEval 比较。我们最大的模型（深度=38）缩放整流流变压器以实现分辨率图像合成0

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: StableDiffusion3 技术报告

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。