分销赏收藏举报申诉 / 71

立即下载 VIP下载

当前位置：首页 > 研究报告 > 其他 > AIGC行业专题报告：从文生图到文生视频_技术框架与商业化.pdf

AIGC行业专题报告：从文生图到文生视频_技术框架与商业化.pdf

上传人：Stan****Shan

文档编号：1289723

上传时间：2024-04-22

格式：PDF

页数：71

大小：6.30MB

《AIGC行业专题报告：从文生图到文生视频_技术框架与商业化.pdf》由会员分享，可在线阅读，更多相关《AIGC行业专题报告：从文生图到文生视频_技术框架与商业化.pdf（71页珍藏版）》请在咨信网上搜索。

1、AIGCAIGC专题报告：从文生图到文生视频专题报告：从文生图到文生视频技术框架与商业化技术框架与商业化评级：推荐(维持)证券研究报告2023年11月2日海外请务必阅读报告附注中的风险提示和免责声明2相对恒生指数表现（%）表现1M3M12M港股互联网-8.6014.7950.09恒生指数-5.72-10.231.47最近一年走势相关报告从Roblox进化看AIGC游戏未来Roblox(RBLX.N)深度复盘：二十年沉淀，四阶段演绎（增持）*海外*杨仁文，马川琪，陈梦竹，姚蕾2023-09-24创新奇智（02121）动态研究报告：业绩维持高速增长，“AI+制造”赋能长期发展（买入）*IT服务*陈

2、梦竹2023-09-14商汤-W（00020）2023H1业绩点评：生成式AI有望成为业务新驱动，整体亏损收窄（增持）*IT服务*陈梦竹2023-09-08网易-S（9999.HK）公司动态研究：利润超预期，新游表现强劲，期待后续业绩释放（买入）*游戏*陈梦竹，尹芮2023-09-03焦点科技（002315）2023H1财报点评：业务调整拖累营收增速，利润端实现稳健增长（买入）*互联网电商*陈梦竹2023-09-03-20%-10%0%10%20%30%40%50%60%港股互联网指数恒生指数请务必阅读报告附注中的风险提示和免责声明3核心提要核心提要1 1、底层模型技术框架梳理底层模型技术框

3、架梳理文生图和文生视频的底层技术框架较为相似，主要包括GAN、自回归和扩散模型三大路径，其中扩散模型（Diffusion model）为当前主流生成模型，多个指标对比下综合占优，能在较为可控的算力成本和较快的速度下生成具备多样性、高质量的图像：图像质量：扩散模型自回归模型GAN模型。FID值（Frchet Inception Distance score）是用于评估模型生成的图像质量的指标，是用来计算真实图像与生成图像的特征向量间距离的一种度量。FID值越小，可以认为图像质量在一定程度上越优。从不同模型的FID得分来看，扩散模型平均数较小，反应图像质量较高。参数量：自回归模型扩散模型GAN模型

4、。GAN的参数量一般在千万级别，整体较为轻巧，扩散模型的参数量在十亿级别，自回归模型在十亿到百亿级不等。生成速度（由快到慢）：GAN模型扩散模型自回归模型。生成速度与参数量级为负相关关系。训练成本：自回归扩散模型GAN模型。由于参数量级较小，GAN模型训练成本小且开源模型多，仍具备一定优势。而自回归模型参数量级较大，整体训练成本更高。在单张A100GPU下，120亿参数的DALL-E需要18万小时，200亿参数的 Parti更是需要超过100万小时，扩散模型参数量在十亿级别，整体训练成本较为适中。2 2、商业化模式及成本拆分商业化模式及成本拆分文生图商业化模型：当前主要的商业化方式包括基于GP

5、U时间/生成次数/API接口调用/个性化定价等方式。根据我们调研，以Midjourney为例，单张图片生成成本约0.030.04美金，单张收入约0.05美金，毛利率约30%40%，净利率约20%。文生图领域整体创业门槛低于大语言模型：模型层看：图像生成领域已有生成质量较高的开源预训练模型Stable Diffusion，且SD具有较为丰富的开发者生态，有许多插件供选择。创业公司可基于Stable Diffusion基础版本进行进一步调优和个性化数据训练。成本端看：从主流模型参数规模看，文生图参数量级多在1-10B之间，而通用大模型入门级门槛达到了70B，文生图整体参数量级较小，成本远低于通用大

6、模型。通过调研文生图初创公司，实际小团队利用开源模型，初期在用户不到1万情况下甚至无需购买A100，通过购买RTX3040系列、IBS3060（50001w/张）也可以启动。我们对文生图推理算力需求也进行了测算，以10亿级参数量的模型、在100万DAU的用户量级为例，若想控制单次推理延迟时间，需部署约143张A100，整体芯片算力需求低于大语言通用模型。文生图商业模式仍存疑问，长期竞争需要技术+产品+场景能力结合突破：对于垂类AI应用：短期看头部应用通过技术/产品/成本/数据等优势突破，在C端率先开启变现，长期看针对垂类场景C端天花板相对明确，搭建工程化能力可技术输出到B端场景，探索更多变现可

7、能。对于现有应用叠加AI功能：短期通过AI功能引入提升产品体验和用户粘性；长期看基于现有高频场景，用户壁垒更强、不易流失，用户ARPU和付费率有望提升。3 3、文生图代表模型及应用文生图代表模型及应用从模型和应用看，海外OpenAI、谷歌、微软、Meta、Midjourney、Stability AI都推出了各自的文生图模型，国内百度、美图、万兴科技、新国都等均推出各自AI应用。从生成效果看Midjourney、Adobe和Stable Diffusion综合较优，OpenAI最新升级DALL-E3模型将与ChatGPT集成，多模态交互能力持续提升，有望带来新的场景突破。4 4、行业评级及理由

8、：行业评级及理由：文生图和文生视频底层技术不断演进、模型持续迭代，涌现出一批优质原生AI应用，在C端开创了全新的应用体验，同时在B端游戏、营销、影视制作、文旅、电商等多个行业均开启应用，实现降本增效，长期有望进一步打开商业化空间。我们看好AI多模态行业投资机会，维持行业“推荐”评级，建议关注微软、Meta、Adobe、谷歌、百度、阿里巴巴、美图、万兴科技、新国都等相关标的。5 5、风险提示：风险提示：竞争加剧风险、内容质量不佳风险、用户流失风险、政策监管风险、变现不及预期风险、估值调整风险等。请务必阅读报告附注中的风险提示和免责声明4报告目录报告目录一、底层模型技术框架梳理一、底层模型技术框架

9、梳理.5.5文生图：基于文本生成图像，Stable Diffusion开源后迎来快速发展文生视频：与文生图底层技术一致，自回归和扩散模型为主流生成技术路径：从GAN到Diffusion，模型持续优化迭代文生图模型竞争格局人工智能监管：中欧美均发布相关条例，引导生成式AI规范发展GAN：通过生成器和判别器对抗训练提升图像生成能力GAN：在早期文本生成视频领域也有所应用自回归模型：采用Transformer结构中的自注意力机制自回归模型：生成视频相比GAN更加连贯和自然扩散模型：当前主流路径，通过添加噪声和反向降噪推断生成图像CLIP：实现文本和图像特征提取和映射，训练效果依赖大规模数据集扩散模型

10、：当前也为文生视频主流技术路径模型对比：扩散模型图像质量最优，自回归模型相对训练成本最高图像生成模型的困境：多个指标中求取平衡，目前Diffusion综合占优文本生成视频模型仍存在许多技术难点，生成效果有待提升二、商业化模式及成本拆分二、商业化模式及成本拆分.22.22文生图商业化图片生成模型成本拆分：以Midjourney为例平均来看自回归模型成本最高，生成视频成本远高于生成图片图像生成应用的竞争壁垒依赖技术和产品能力双驱动下的飞轮效应文生图领域整体创业门槛低于大语言模型，商业模式仍存疑问部分文生图&视频应用商业化情况文生图推理算力需求测算文生视频推理算力需求测算如何看待文生图竞争格局？与高

11、频场景结合更容易突围三三、文生图代表模型及应用、文生图代表模型及应用.3 32 2图像生成模型一览：国内外厂商积极布局探索请务必阅读报告附注中的风险提示和免责声明5报告目录报告目录主流商用文生图模型效果对比：综合看Midjourney和Adobe相对领先Open AI：先后推出自回归和扩散图像模型，最新发布DALL-E3谷歌：先后推出基于扩散模型的imagen和基于自回归模型的PartiMeta：公布基于自回归的模型CM3Leon，生成质量媲美主流扩散模型Midjourney：基于扩散模型的文生图龙头，用户规模超千万Stability AI：发布Stable Diffusion开源模型Sta

12、bility AI：最新发布SDXL1.0开源版本，图像生成能力进一步提升Clipdrop被Stability AI收购，融入多项AI功能图像处理能力优秀，数据显著增长Adobe Firefly：与Adobe旗下图像编辑软件结合，具备较强可编辑性百度：理解生成筛选三步走，不断优化文心一格的文生图效果万兴科技：持续加码AIGC，万兴爱画升级，Pixpic落地美图：着手布局B端市场，官宣自研视觉大模型，美图AI产品生态初步形成美图：产品测评妙鸭相机：多模板AI写真相机，新晋爆款产品，但成熟度仍待提高新国都：PicSo在海外率先上线，营收占比较小二、文生视频代表模型及应用二、文生视频代表模型及应用.

13、4949清华CogVi de o：首个开源的中文文本生成视频模型，基于自回归模型文生图推理算力需求测算微软:NUWA系列从自回归到扩散模型，视频生成长度增加谷歌 Phenaki：首个可生成长视频的自回归模型谷歌 Imagen Video：应用级联模型和渐进式蒸馏加速提升视频质量Meta Make-A-Video：创新采用无监督学习，加速模型训练字节跳动Magic Video：平滑视频剪辑助力商业应用NVIDIA：侧重扩散模型，实现高质量视频合成Zeroscope：拥有较高质量输出的中国开源模型Runway Gen-1：基于潜在扩散模型，助力商用发展Runway Gen-1&Gen-2：商用文生

14、视频的明星应用Synthesia：海外领先的AI视频应用，已开启商业化Lumen5：可将文本转化为视频，自动生成对应的场景和角色请务必阅读报告附注中的风险提示和免责声明6底层模型技术框架梳理底层模型技术框架梳理请务必阅读报告附注中的风险提示和免责声明7文生图：基于文本生成图像，文生图：基于文本生成图像，Stable Diffusion开源后迎来快速发展开源后迎来快速发展Disco Diffusion论文发布Google发布partiOpenAI发布模型GLIDE；Midjourney推出；Meta 发布 Make-A-Scene论文Google发布Imagen百度发布ERNIE-VI

15、LG 2.02021年5月2022年3月2022年6月2022年4月Stable Diffusion论文发布；OpenAI 发布第二代绘图工具DALL E 2；2023年3月2022年5月清华发布CogView22023年6月欧洲议会通过人工智能法案（AI Act）草案阿里云宣布推出通义万相AI绘画大模型2023年7月国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布生成式人工智能服务管理暂行办法2021年11月清华发布CogView论文/模型商业应用法律法规文生图（Text-to-Image）是基于文本通过生成式AI生成图像的模式。近

16、3年时间，文生图的技术已实现大幅的进步，海外的Stable Diffusion、Midjourney已经能够提供较高质量的图像，国内的万兴科技的万兴爱画、百度的文心一格也投入商用。文本生成图像的底层模型可以分为GAN、扩散模型、自回归模型三类。目前行业内的明星模型主要基于扩散模型。探索阶段：探索阶段：GAN、自回归生成并行、自回归生成并行逐渐成熟：扩散模型占据主流逐渐成熟：扩散模型占据主流2021年年2022年年至今至今海外国内海内外主要文本生成图像模型大事件万兴科技AI绘画开启公测2022年11月美图发布AI视觉大模型MiracleVision2022年8月百度发布文心一格Disco Dif

17、fusion发布2021年10月百度发布 ERNIE-VILGStabilityAI 开源Stable Diffusion资料来源：论文见附录1，网信中国，央视网，36氪，新智元，智元社区，百度官网，澎湃新闻，证券时报，潮新闻客户端，界面新闻，百度AI微信公众号，百度智能云，国海证券研究所2019年3月Nvidia发布GauGAN2021年1月OpenAI发布第一代绘图工具DALL E论文；Google 发布XMC-GANNvidia发布GauGAN2 请务必阅读报告附注中的风险提示和免责声明8文生视频：与文生图底层技术一致，自回归和扩散模型为主流文生视频：与文生图底层技术一致，自回

18、归和扩散模型为主流文生视频（Text-to-Video）是基于文本通过生成式AI生成视频的模式。随着文生图技术的精进与成熟，对于文生视频的技术的发展和关注逐渐演变及增加，近3年时间，以Runway为代表的文生视频公司在不断涌现，互联网行业的巨头，比如谷歌、Meta、微软，同样投入人员和精力参与其中，国内目前文生视频技术还在初期发展阶段，目前魔搭社区（Model Scope）里的开源模型ZeroScope表现亮眼。文本生成视频模型的发展经历三个阶段：图像拼接生成阶段、GAN/VAE/Flow-Based生成阶段、自回归和扩散模型阶段。2020年至今2016年2019年2016年以前2021.04

19、微软亚洲研究院发布GODIVA图像拼接生成阶段GAN/VAE/Flow-Based生成阶段自回归和扩散模型阶段资料来源：易观，IT之家，36氪，论文见附录2，国海证券研究所2016.10 VGAN2016.012017.012018.012019.012020.012021.012022.012023.012021.11 微软亚洲研究院发布NUWA（女娲）2023.02 Runway发布Gen-12023.03 Runway发布Gen-22022.05 清华发布CogVideo2022.07 微软亚洲研究院发布NUWA-Infinity2022.09 Meta发布Make-A-Video20

20、22.10 Google发布Phenaki2022.10 Google发布Imagen Video2023.03 微软亚洲研究院发布NUWA-XL2023.04 Nvidia发布Video LDM2023.11 字节跳动发布MagicVideo2023.05 Nvidia发布PYoCo2017.08 TGAN2017.12 MoCoGAN2022.02 DIGAN2020年至今自回归模型及扩散模型生成阶段2019.09 DVD-GAN文本生成视频三大发展阶段2017.04 VideoGPT 请务必阅读报告附注中的风险提示和免责声明9生成技术路径：从生成技术路径：从GAN到到Diffusion，

21、模型持续优化迭代，模型持续优化迭代资料来源：论文见附录，国海证券研究所结构结构存在存在问题问题改进改进方向方向运行运行原理原理图像图像视频视频商用商用生成式对抗网络（生成式对抗网络（GAN)GAN)自回归模型自回归模型扩散模型扩散模型生成器（生成器（GeneratorGenerator）：）：一个神经网络或者其他方式拟合出的函数，给定输入，负责生成整个GAN所需的输出判别器（判别器（DiscriminatorDiscriminator）：）：一个判断输入真假的二分类器函数 TransformerTransformer：整体主要分为Encoder和Decoder两大部分，能够模拟像素和高级属性（

22、纹理、语义和比例）之间的空间关系，利用多头自注意力机制进行编码和解码通过对纯高斯噪声反向降噪推断来生成图像生成器将抓取数据、产生新的生成数据，并将其混入原始数据中送交判别器区分。这一过程将反复进行，直到判别器无法以超过50%的准确度分辨出真实样本通过编码器将文本转化成token或序列，应用自回归预测，经过训练好的模型解码输出图像定义一个扩散步骤的马尔可夫链，逐渐向数据添加随机噪声，然后学习逆扩散过程，从噪声中构建所需的数据样本训练不稳定：训练不稳定：GAN 的相互博弈过程容易造成训练不稳定，使得训练难以收敛。近期突破思路有Relativistic GAN。有别于传统 GAN 测量生成样本是否为

23、真的概率这一做法，Relativistic GAN 将关注点放在测量生成样本比真实样本“更真”的概率，使得 GAN 获得了更好的收敛性计算成本消耗大计算成本消耗大：模型受制于计算效率与训练数据的规模，自回归模型的参数通常是扩散模型参数量的10倍以上采样速度慢：采样速度慢：连续模型使用高斯噪声，很难处理离散数据生成样本大量重复相似：生成样本大量重复相似：模式坍塌被认为是应用 GAN 进行图像生成时最难解决的问题之一，它会造成训练结果冗余、生成图像质量差、样本单一等问题。近期突破性思路有包含两个判别网络的D2GAN大量的训练数据：大量的训练数据：自回归模型需要大规模的、高质量的数据进行训练，尤其在

24、文本生成视频的训练中，目前缺少高质量的文本-视频对是文生视频自回归模型的一大难题计算消耗过大：计算消耗过大：蕴含多个（原始模型可能要上千个）前向传播过程，对显卡硬件需求大，计算较慢结构改善：结构改善：将 GAN 与机器学习中最新的理论成果进行交叉训练，引入迁移学习、强化学习等，使 GAN 与计算机图形学等技术更好地融合，推动结构的改善创新生成模式：创新生成模式：改进图像生成的方式，比如在视频生成过程中，从“逐像素”改进至逐帧生成，减少计算量训练方式改进：训练方式改进：知识蒸馏促进模型压缩和加速，改进扩散过程以减少采样时间，调整噪声尺度优化采样程序，数据分布替换降低预测误差无训练采样：无训练采样

25、：以更少的步骤和更高的精度从预训练的模型中获取知识模型压缩：模型压缩：目前图像生成技术想要落地，势必要根据需求调整模型的大小，结合基于“知识蒸馏”的模型压缩方法，进行匹配需求的优化和压缩，从而内嵌入小型软件中，拓宽应用领域提升数据质量：提升数据质量：在文本生成视频中，联合文本-图像对进行训练，规避因为文本-视频对不足的劣势混合模型改进：混合模型改进：在扩散模型的中加入额外生成模型，以利用其他模型的高采样速度分数与扩散统一：分数与扩散统一：确定扩散模型和去噪分数匹配之间的联系，有助于统一广义扩散的加速方法StackGAN+、DF-GANDALL-E、CogView、CogView2、Parti、

26、CM3leon Stable Diffusion、GLIDE、DALL-E 2VGAN、TGAN、VideoGPT、MoCoGAN、DVD-GAN、DIGANCogVideo、GODIVA、NUWA、PhenakiVideo Diffusion Model、Make-A-Video、Imagen Video、Tune-A-Video、Dreamix、NUWA-XL、Text2Video-Zero、VideoLDM、PYoCo图像：Midjourney；Stable Diffusion；文心一格视频：Runway 请务必阅读报告附注中的风险提示和免责声明10文生图模型竞争格局文生图模型竞争格局资

27、料来源：各公司官网，国海证券研究所应用应用代表模型代表模型底层架构底层架构GANGAN（生成式对抗网络）（生成式对抗网络）扩散模型扩散模型自回归模型自回归模型Stable DiffusionStable Diffusion、GLIDEGLIDE、DALLDALL-E 2E 2DALLDALL-E E、CogViewCogView、CogView2CogView2、PartiParti、CM3leonCM3leonStackGANStackGAN+、DFDF-GANGAN国内国内海外海外万兴爱画万兴爱画请务必阅读报告附注中的风险提示和免责声明11人工智能监管：中欧美均发布相关条例，引导生成式人

28、工智能监管：中欧美均发布相关条例，引导生成式AI规范发展规范发展人工智能主要发展地区的监管发展人工智能主要发展地区的监管发展时间时间地区地区法律、法规及监管条例发布法律、法规及监管条例发布主要内容主要内容2022年10月美国美国白宫发布人工智能权利法案蓝图提出了建立安全和有效的系统、避免算法歧视，以公平方式使用和设计系统、保护数据隐私等五项基本原则，且将公平和隐私保护视为法案的核心宗旨，后续拟围绕这两点制定完善细则。2023年1月美国美国商务部下属机构美国国家标准与技术研究院（NIST）发布人工智能风险管理框架鼓励用户全面规划人工智能系统，包括预期的商业目的和使用人工智能可能造成的潜在危害。要

29、求有道德的人工智能从业者确定如何以定量和定性的方式衡量人工智能系统所产生的影响。组织将使用测量的结果来帮助其持续管理人工智能系统：RMF框架为用户提供了管理已部署人工智能系统风险的工具，并根据评估的风险和风险优先级分配风险管理资源。2023年6月欧洲欧洲议会通过人工智能法案（AI Act）草案全球范围内首部系统化规制人工智能的法律，草案提出对人工智能采取分级管理的思路，基于人工智能的四个风险等级（从低风险或无风险、有限风险、高风险、不可接受风险）进行区别管理，要求生成式人工智能的设计和开发符合欧盟法律和基本权利。2023年7月中国国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公

30、安部、广电总局公布生成式人工智能服务管理暂行办法提出国家坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管，明确了提供和使用生成式人工智能服务总体要求。资料来源：中国网信网，全球技术地图，AI时代前沿，国海证券研究所请务必阅读报告附注中的风险提示和免责声明12GAN：通过生成器和判别器对抗训练提升图像生成能力：通过生成器和判别器对抗训练提升图像生成能力资料来源：机器之心，StackGAN+:Realistic Image Synthesis with Stacked Generative Adversar

31、ial Networks（Han Zhang等），DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis（Ming Tao等），易观，国海证券研究所GANs（GAN,Generative Adversarial Networks），生成对抗网络是扩散模型前的主流图像生成模型，通过生成器和判别器进行对抗训练来通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力提升模型的图像生成能力和图像鉴别能力，使得生成式网络的数据趋近真实数据，从而图像趋近真实图像。单级生成网络：代表有单级生成网络：代表有DFDF-G

32、ANGAN等。等。只使用一个生成器、一个鉴别器、一个预训练过的文本编码器，使用一系列包含仿射变换的UPBlock块学习文本与图像之间的映射关系，由文本生成图像特征。堆叠结构：多阶段生成网络，代表有堆叠结构：多阶段生成网络，代表有stackGANstackGAN+、GoGANGoGAN等。等。GAN 对于高分辨率图像生成一直存在许多问题，层级结构的 GAN 通过逐层次，分阶段生成，一步步提生图像的分辨率。在每个分支上，生成器捕获该尺度的图像分布，鉴别器分辨来自该尺度样本的真假，生成器G1接收上一阶段的生成图像不断对图像进行细化并提升分辨率，并且以交替方式对生成器和鉴别器进行训练。多阶段GAN相比

33、二阶段表现出更稳定的训练行为。（一般来说，（一般来说，GANGAN的训练是不稳定的，会发的训练是不稳定的，会发生模式倒塌的现象生模式倒塌的现象mode collapsemode collapse，即生成器结果为真但多样性不足），即生成器结果为真但多样性不足）GANGAN的特点：的特点：相比于其他模型，GAN的模型参数量较少，比较轻便，因此GAN擅长对单个或多个对象类进行建模。但由于训练过程的不稳定性，扩展 GAN 需要仔细调整网络架构和训练因素，扩展到复杂数据集则极具挑战性，稳定性较差、生成图像缺乏多样性。GANGAN常见的模型结构常见的模型结构生成对抗网络实现文本生成图像主要分为三大部分：文

34、本编码器、生成器和鉴别器。生成对抗网络实现文本生成图像主要分为三大部分：文本编码器、生成器和鉴别器。文本编码器由RNN或者Bi-LSTM组成，生成器可以做成堆叠结构或者单阶段生成结构，生成模型捕捉样本数据的分布，不断生成图像，判别模型判别输入是来自是真实数据还是来自生成模型，鉴别器用于鉴别生成器生成的图像是否为真和是否符合文本语义。两者在对抗中，不断提升各自的能力两者在对抗中，不断提升各自的能力，生成器逐渐提升生成图像的能力，生成图像的分布接近真实图像分布，从而提高判别器的判别能力，判别器对真实图像和生成图像进行判别，来提高生成器的生成能力。stackGANstackGAN+的文字生成图片架构

35、原理的文字生成图片架构原理请务必阅读报告附注中的风险提示和免责声明13GAN：在早期文本生成视频领域也有所应用：在早期文本生成视频领域也有所应用资料来源：论文见附录3，易观，国海证券研究所在图像拼接阶段后，生成对抗网络（GAN）开始应用在文本生成视频领域，因为它们可以在没有第一帧的情况下执行无条件或类条件视频合成，但由于其稳定性不足，逐渐被自回归模型和扩散模型替代。*模型在 UCF-101 数据集上的 IS 得分（分值越高越好）经典GAN模型在视频领域应用梳理模型名称模型名称发布时间发布时间生成方式生成方式IS*（）VGAN2016.10第一个将GAN用于视频生成的模型，它将视频分解为静态背

36、景和移动前景，通过分别生成背景和移动对象来生成视频。生成器由两个卷积网络组成：第一个是3D时空卷积网络，用于捕获前景中的移动对象，而第二个是静态背景的2D空间卷积模型。从双流生成器生成的帧被组合在一起，然后馈送到鉴别器以区分真实视频和虚假视频。8.31.09VideoGPT2017.04模型采用了变分自动编码器（VAE）和生成对抗网络（GAN）从文本中提取静态和动态信息，静态特征用于草绘文本条件背景颜色和对象布局结构。通过将输入文本转换为图像过滤器来考虑动态特征，模型从公开可用的在线视频中自动创建匹配文本视频语料库。24.69.30TGAN2017.08模型学习未标记视频的语义表示，使用由3D

37、反卷积层组成的单个生成器生成视频，模型利用了两种不同类型的生成器：时间生成器和图像生成器。时间生成器将单个潜在变量作为输入并输出一组潜在变量，每个潜在变量对应于视频中的一个图像帧，图像生成器将一组此类潜在变量转换为视频。11.85.07MoCoGAN2017.12MoCoGAN将视频分解成内容和运动两个部分，通过将一系列随机向量映射到一系列视频帧来生成视频。每个随机向量由一个内容部分和一个运动部分组成。当内容部分保持固定时，运动部分通过随机过程实现。12.42.07DVD-GAN2019.09双视频鉴别器GAN（DVD-GAN）基于复杂的数据，从噪声矢量生成视频，生成48帧高达256*256的

38、高质量图像。DVD-GAN是在Kinetics-600 数据集上训练的，以前的工作仅使用子集和预处理的样本。与MoCoGAN 类似，有两个鉴别器来处理视频的时间和空间方面。32.971.7DIGAN2022.02模型将隐式神经表示应用于视频编码，包含（a）基于隐式神经表征（INR）的视频生成器，它通过以不同的方式操纵空间和时间坐标来改善运动动态，以及（b）运动鉴别器，无需观察整个长帧序列即可有效识别不自然运动。可以在 128 128分辨率的 128 帧视频上进行训练，比之前最先进的方法的 48 帧长 80 帧。29.71.53 请务必阅读报告附注中的风险提示和免责声明14自回归模型（Auto-

39、regressive Model）采用Transformer进行自回归图像生成。Transformer整体主要分为Encoder和Decoder两大部分，能够模拟像素和高级属性（纹理、语义和比例）之间的空间关系，利用多头自注意力机制进行编码和解码。采用该架构模型的文生图通常将文本和图像分别转化成通常将文本和图像分别转化成tokenstokens序列序列，然后利用然后利用生成式的生成式的 TransformerTransformer 架构从文本序列架构从文本序列（和可选图像序列和可选图像序列）中预测图像序列中预测图像序列，最后使用图像生成技术最后使用图像生成技术（VAEVAE、GANGAN等等）

40、对图像序列进行解码对图像序列进行解码，得到最终生成图像得到最终生成图像。自回归模型：采用自回归模型：采用Transformer结构中的自注意力机制结构中的自注意力机制资料来源：Hierarchical Text-Conditional Image Generation with CLIP LatentsAditya Ramesh等，CogView:Mastering Text-to-Image Generation via TransformersMing Ding等，Google Research，易观，电脑学习网，机器之心，国海证券研究所自回归模型的特点：自回归模型的特点：1）相比于其他模

41、型，自回归模型的稳定性及生成图像的逻辑相对合理。2）但计算效率总体较低，生成速度较慢，训练成本相对较高，其实际应用受限于计算效率和训练成本相对不足，目前Meta发布的CM3leon在计算效率有较大的提高，优化了模型的计算速度。结合结合VQVQ-VAEVAE（矢量量化变分自动编码器）：（矢量量化变分自动编码器）：清华的 CogView 与百度的 ERNIE-ViLG 均使用 VQ-VAE+Transformer 的架构设计。先将文本部分转换成token，然后将图像部分通过一个离散化的AE(Auto-Encoder)转换为token，将文本token和图像token拼接到一起，之后输入到GPT模型

42、中学习生成图像。结合结合V ViTiT-VQGANVQGAN：谷歌Parti将ViT-VQGAN作为图像标记器将图像编码为离散标记序列（使用Transformer GPT-2作为编码生成工具），它将文本到图像的生成视为序列到序列的建模问题，图像标记序列是目标输出，并利用其将此类图像标记序列重建为高质量、视觉多样化图像。首先将一组图像转换为一系列代码条目，类似于拼图，然后将给定的文本提示转换为这些代码条目并拼成一个新图像。经典自回归模型经典自回归模型请务必阅读报告附注中的风险提示和免责声明15与GANs相比，自回归模型具有明确的密度建模和稳定的训练优势，自回归模型可以通过帧与帧之间的联系，生成

43、更为连贯且自然视频。但是自回归模型受制于计算资源、训练所需的数据、时间，模型本身参数数量通常比扩散模型大，对于计算资源要求及数据集的要求往往高于其他模型，随着扩散模型的火热，自回归模型的热潮逐渐降低，基于文本生成图像的文本生成视频的热潮渐起。自回归模型：生成视频相比自回归模型：生成视频相比GAN更加连贯和自然更加连贯和自然资料来源：NUWA:Visual Synthesis Pre-training for Neural visUal World creAtionChenfei Wu等，CogVideo:Large-scale Pretraining for Text-to-Video Gen

44、eration via TransformersWenyi Hong等，国海证券研究所早期自回归模型：生成质量差，成本高早期的视觉自回归模型，如，以“逐像素”的方式进行视觉合成。然而，其只能应用于低分辨率图像或视频，并且难以放大，是因为模型高维视觉数据上的计算成本很高。模型代表：PixelCNN，PixelRNN，Image Transformer，iGPT 和Video Transformer中期自回归模型：生成质量提升，生成规模增大随后，VQ-VAE 作为一种离散视觉标记化方法的出现，高效和大规模的预训练可以应用于图像和视频的视觉合成任务。模型代表：GODIVA、VideoGPT自回归模型

45、现状：高质量生成，训练成本降低后续，出现利用预先训练的文本到图像模型来生成高质量的视频的方法，视频被视为图像的时间序列，这减少了视频token的数量，并降低了训练成本。但这可能导致动力学建模不佳并产生运动伪影。模型代表：NUWA、CogVideo、Phenaki 请务必阅读报告附注中的风险提示和免责声明16扩散模型：当前主流路径，通过添加噪声和反向降噪推断生成图像扩散模型：当前主流路径，通过添加噪声和反向降噪推断生成图像资料来源：易观，Hierarchical Text-Conditional Image Generation with CLIP LatentsAditya Ramesh等，D

46、enoising Diffusion Probabilistic ModelsJonathan Ho等，High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach等，中国日报，国海证券研究所扩散模型（Diffusion Model）是通过定义一个扩散步骤的马尔可夫链，通过连续向数据添加随机噪声，直到得到一个纯高斯噪声数据，然后再学习逆扩散的过程，经过反向降噪推断来生成图像，通过系统地扰动数据中的分布，再恢复数据分布，逐步优化过程。结合结合CLIPCLIP：比如DALLE-2，采用Diffusion Mod

47、el结合CLIP，CLIP文本嵌入首先被馈送到自回归或扩散先验以产生图像嵌入，然后该嵌入用于调节扩散解码器，后由扩散解码器产生最终图像。结合潜在空间结合潜在空间（LatentLatent SpaceSpace）:Stable Diffusion将模型应用于预训练自动编码器的潜在空间（Latent Space），这使得扩散模型的训练能够在一个有限的计算资源的环境下进行，并且能够保持图像的质量和灵活性。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像，让文图生成任务能够在消费级让文图生成任务能够在消费级GPUGPU上上

48、，在在1010秒级别时间生成图片秒级别时间生成图片，大大大降低落地门槛大降低落地门槛。扩散模型的特点：扩散模型的特点：1）相比先前的模型，扩散模型在训练稳定性和结果准确性能力提升明显，替代了替代了GANGAN成为目前主流模型成为目前主流模型。2）当应对大量跨模态图像生成的需求，通过结合CLIP，能够实现图像生成速度和质量的显著提升，生成的图片具有较好的多样性和写实性。3）相比于其他模型，扩散模型有较强的表现及相对中等的计算成本。扩散模型在图像生成应用扩散模型在图像生成应用请务必阅读报告附注中的风险提示和免责声明17CLIP：实现文本和图像特征提取和映射，训练效果依赖大规模数据集：实现文本和图

49、像特征提取和映射，训练效果依赖大规模数据集资料来源：巴比特资讯，Nvidia Developer，机器之心，Improving Language Understanding by Generative Pre-Training，Learning Transferable Visual Models From Natural Language Supervision，国海证券研究所CLIP（Contrastive Language-image Pre-training）是基于对比学习的文本基于对比学习的文本-图像跨模态预训练模型图像跨模态预训练模型，由文本编码器（Text Encoder）和图像

50、编码器（Image Encoder）组成，编码器分别对文本和图像进行特征提取，将文本和图像映射到同一表示空间，通过文本-图像对的相似度和差异度计算来训练模型，从标签文本创建数据集分类器，从而能够根据给定的文本生成符合描述的图像。优点：优点：由于CLIP完成了基于多模态的对比学习和预训练，在过程中已经将文本特征和图像特征进行对齐，该模型无需事先标注数据，减少了标注数据的工作量及对应成本，能够在零样本图像文本分类任务中高质量运行。缺点：缺点：1）CLIP在包含时间序列数据和需要推理计算的任务中由于模型本身的局限性，生成图像的效果不佳。2）CLIP的训练效果依赖大规模的文本-图像对数据集，对训练资源

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: AIGC 行业专题报告文生图到文生视频技术框架商业化

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。