AIGC行业专题报告:从文生图到文生视频_技术框架与商业化.pdf
《AIGC行业专题报告:从文生图到文生视频_技术框架与商业化.pdf》由会员分享,可在线阅读,更多相关《AIGC行业专题报告:从文生图到文生视频_技术框架与商业化.pdf(71页珍藏版)》请在咨信网上搜索。
1、AIGCAIGC专题报告:从文生图到文生视频专题报告:从文生图到文生视频技术框架与商业化技术框架与商业化评级:推荐(维持)证券研究报告2023年11月2日海外请务必阅读报告附注中的风险提示和免责声明2相对恒生指数表现(%)表现1M3M12M港股互联网-8.6014.7950.09恒生指数-5.72-10.231.47最近一年走势相关报告从Roblox进化看AIGC游戏未来Roblox(RBLX.N)深度复盘:二十年沉淀,四阶段演绎(增持)*海外*杨仁文,马川琪,陈梦竹,姚蕾2023-09-24创新奇智(02121)动态研究报告:业绩维持高速增长,“AI+制造”赋能长期发展(买入)*IT服务*陈
2、梦竹2023-09-14商汤-W(00020)2023H1业绩点评:生成式AI有望成为业务新驱动,整体亏损收窄(增持)*IT服务*陈梦竹2023-09-08网易-S(9999.HK)公司动态研究:利润超预期,新游表现强劲,期待后续业绩释放(买入)*游戏*陈梦竹,尹芮2023-09-03焦点科技(002315)2023H1财报点评:业务调整拖累营收增速,利润端实现稳健增长(买入)*互联网电商*陈梦竹2023-09-03-20%-10%0%10%20%30%40%50%60%港股互联网指数恒生指数 请务必阅读报告附注中的风险提示和免责声明3核心提要核心提要1 1、底层模型技术框架梳理底层模型技术框
3、架梳理文生图和文生视频的底层技术框架较为相似,主要包括GAN、自回归和扩散模型三大路径,其中扩散模型(Diffusion model)为当前主流生成模型,多个指标对比下综合占优,能在较为可控的算力成本和较快的速度下生成具备多样性、高质量的图像:图像质量:扩散模型自回归模型GAN模型。FID值(Frchet Inception Distance score)是用于评估模型生成的图像质量的指标,是用来计算真实图像与生成图像的特征向量间距离的一种度量。FID值越小,可以认为图像质量在一定程度上越优。从不同模型的FID得分来看,扩散模型平均数较小,反应图像质量较高。参数量:自回归模型扩散模型GAN模型
4、。GAN的参数量一般在千万级别,整体较为轻巧,扩散模型的参数量在十亿级别,自回归模型在十亿到百亿级不等。生成速度(由快到慢):GAN模型扩散模型自回归模型。生成速度与参数量级为负相关关系。训练成本:自回归扩散模型GAN模型。由于参数量级较小,GAN模型训练成本小且开源模型多,仍具备一定优势。而自回归模型参数量级较大,整体训练成本更高。在单张A100GPU下,120亿参数的DALL-E需要18万小时,200亿参数的 Parti更是需要超过100万小时,扩散模型参数量在十亿级别,整体训练成本较为适中。2 2、商业化模式及成本拆分商业化模式及成本拆分文生图商业化模型:当前主要的商业化方式包括基于GP
5、U时间/生成次数/API接口调用/个性化定价等方式。根据我们调研,以Midjourney为例,单张图片生成成本约0.030.04美金,单张收入约0.05美金,毛利率约30%40%,净利率约20%。文生图领域整体创业门槛低于大语言模型:模型层看:图像生成领域已有生成质量较高的开源预训练模型Stable Diffusion,且SD具有较为丰富的开发者生态,有许多插件供选择。创业公司可基于Stable Diffusion基础版本进行进一步调优和个性化数据训练。成本端看:从主流模型参数规模看,文生图参数量级多在1-10B之间,而通用大模型入门级门槛达到了70B,文生图整体参数量级较小,成本远低于通用大
6、模型。通过调研文生图初创公司,实际小团队利用开源模型,初期在用户不到1万情况下甚至无需购买A100,通过购买RTX3040系列、IBS3060(50001w/张)也可以启动。我们对文生图推理算力需求也进行了测算,以10亿级参数量的模型、在100万DAU的用户量级为例,若想控制单次推理延迟时间,需部署约143张A100,整体芯片算力需求低于大语言通用模型。文生图商业模式仍存疑问,长期竞争需要技术+产品+场景能力结合突破:对于垂类AI应用:短期看头部应用通过技术/产品/成本/数据等优势突破,在C端率先开启变现,长期看针对垂类场景C端天花板相对明确,搭建工程化能力可技术输出到B端场景,探索更多变现可
7、能。对于现有应用叠加AI功能:短期通过AI功能引入提升产品体验和用户粘性;长期看基于现有高频场景,用户壁垒更强、不易流失,用户ARPU和付费率有望提升。3 3、文生图代表模型及应用文生图代表模型及应用从模型和应用看,海外OpenAI、谷歌、微软、Meta、Midjourney、Stability AI都推出了各自的文生图模型,国内百度、美图、万兴科技、新国都等均推出各自AI应用。从生成效果看Midjourney、Adobe和Stable Diffusion综合较优,OpenAI最新升级DALL-E3模型将与ChatGPT集成,多模态交互能力持续提升,有望带来新的场景突破。4 4、行业评级及理由
8、:行业评级及理由:文生图和文生视频底层技术不断演进、模型持续迭代,涌现出一批优质原生AI应用,在C端开创了全新的应用体验,同时在B端游戏、营销、影视制作、文旅、电商等多个行业均开启应用,实现降本增效,长期有望进一步打开商业化空间。我们看好AI多模态行业投资机会,维持行业“推荐”评级,建议关注微软、Meta、Adobe、谷歌、百度、阿里巴巴、美图、万兴科技、新国都等相关标的。5 5、风险提示:风险提示:竞争加剧风险、内容质量不佳风险、用户流失风险、政策监管风险、变现不及预期风险、估值调整风险等。请务必阅读报告附注中的风险提示和免责声明4报告目录报告目录一、底层模型技术框架梳理一、底层模型技术框架
9、梳理.5.5文生图:基于文本生成图像,Stable Diffusion开源后迎来快速发展文生视频:与文生图底层技术一致,自回归和扩散模型为主流生成技术路径:从GAN到Diffusion,模型持续优化迭代文生图模型竞争格局人工智能监管:中欧美均发布相关条例,引导生成式AI规范发展GAN:通过生成器和判别器对抗训练提升图像生成能力GAN:在早期文本生成视频领域也有所应用自回归模型:采用Transformer结构中的自注意力机制自回归模型:生成视频相比GAN更加连贯和自然扩散模型:当前主流路径,通过添加噪声和反向降噪推断生成图像CLIP:实现文本和图像特征提取和映射,训练效果依赖大规模数据集扩散模型
10、:当前也为文生视频主流技术路径模型对比:扩散模型图像质量最优,自回归模型相对训练成本最高图像生成模型的困境:多个指标中求取平衡,目前Diffusion综合占优文本生成视频模型仍存在许多技术难点,生成效果有待提升二、商业化模式及成本拆分二、商业化模式及成本拆分.22.22文生图商业化图片生成模型成本拆分:以Midjourney为例平均来看自回归模型成本最高,生成视频成本远高于生成图片图像生成应用的竞争壁垒依赖技术和产品能力双驱动下的飞轮效应文生图领域整体创业门槛低于大语言模型,商业模式仍存疑问部分文生图&视频应用商业化情况文生图推理算力需求测算文生视频推理算力需求测算如何看待文生图竞争格局?与高
11、频场景结合更容易突围三三、文生图代表模型及应用、文生图代表模型及应用.3 32 2图像生成模型一览:国内外厂商积极布局探索 请务必阅读报告附注中的风险提示和免责声明5报告目录报告目录主流商用文生图模型效果对比:综合看Midjourney和Adobe相对领先Open AI:先后推出自回归和扩散图像模型,最新发布DALL-E3谷歌:先后推出基于扩散模型的imagen和基于自回归模型的PartiMeta:公布基于自回归的模型CM3Leon,生成质量媲美主流扩散模型Midjourney:基于扩散模型的文生图龙头,用户规模超千万Stability AI:发布Stable Diffusion开源模型Sta
12、bility AI:最新发布SDXL1.0开源版本,图像生成能力进一步提升Clipdrop被Stability AI收购,融入多项AI功能图像处理能力优秀,数据显著增长Adobe Firefly:与Adobe旗下图像编辑软件结合,具备较强可编辑性百度:理解生成筛选三步走,不断优化文心一格的文生图效果万兴科技:持续加码AIGC,万兴爱画升级,Pixpic落地美图:着手布局B端市场,官宣自研视觉大模型,美图AI产品生态初步形成美图:产品测评妙鸭相机:多模板AI写真相机,新晋爆款产品,但成熟度仍待提高新国都:PicSo在海外率先上线,营收占比较小二、文生视频代表模型及应用二、文生视频代表模型及应用.
13、4949清华CogVi de o:首个开源的中文文本生成视频模型,基于自回归模型文生图推理算力需求测算微软:NUWA系列从自回归到扩散模型,视频生成长度增加谷歌 Phenaki:首个可生成长视频的自回归模型谷歌 Imagen Video:应用级联模型和渐进式蒸馏加速提升视频质量Meta Make-A-Video:创新采用无监督学习,加速模型训练字节跳动Magic Video:平滑视频剪辑助力商业应用NVIDIA:侧重扩散模型,实现高质量视频合成Zeroscope:拥有较高质量输出的中国开源模型Runway Gen-1:基于潜在扩散模型,助力商用发展Runway Gen-1&Gen-2:商用文生
14、视频的明星应用Synthesia:海外领先的AI视频应用,已开启商业化Lumen5:可将文本转化为视频,自动生成对应的场景和角色 请务必阅读报告附注中的风险提示和免责声明6底层模型技术框架梳理底层模型技术框架梳理 请务必阅读报告附注中的风险提示和免责声明7文生图:基于文本生成图像,文生图:基于文本生成图像,Stable Diffusion开源后迎来快速发展开源后迎来快速发展Disco Diffusion论文发布Google发布partiOpenAI发布模型GLIDE;Midjourney推出;Meta 发 布 Make-A-Scene论文Google发布Imagen百 度发 布ERNIE-VI
15、LG 2.02021年5月2022年3月2022年6月2022年4月Stable Diffusion论文发布;OpenAI 发 布 第 二 代 绘 图 工 具DALL E 2;2023年3月2022年5月清华发布CogView22023年6月欧 洲 议 会 通 过人工智能法案(AI Act)草案阿里云宣布推出通义万相AI绘画大模型2023年7月国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布生成式人工智能服务管理暂行办法2021年11月清华发布CogView论文/模型商业应用法律法规文生图(Text-to-Image)是基于文本通过生成式AI生成图像的模式。近
16、3年时间,文生图的技术已实现大幅的进步,海外的Stable Diffusion、Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心一格也投入商用。文本生成图像的底层模型可以分为GAN、扩散模型、自回归模型三类。目前行业内的明星模型主要基于扩散模型。探索阶段:探索阶段:GAN、自回归生成并行、自回归生成并行逐渐成熟:扩散模型占据主流逐渐成熟:扩散模型占据主流2021年年2022年年至今至今海外国内海内外主要文本生成图像模型大事件万兴科技AI绘画开启公测2022年11月美图发布AI视觉大模型MiracleVision2022年8月百度发布文心一格Disco Dif
17、fusion发布2021年10月百 度 发 布 ERNIE-VILGStabilityAI 开 源Stable Diffusion资料来源:论文见附录1,网信中国,央视网,36氪,新智元,智元社区,百度官网,澎湃新闻,证券时报,潮新闻客户端,界面新闻,百度AI微信公众号,百度智能云,国海证券研究所2019年3月Nvidia发布GauGAN2021年1月OpenAI发布第一代绘图工具DALL E论文;Google 发 布XMC-GANNvidia发布GauGAN2 请务必阅读报告附注中的风险提示和免责声明8文生视频:与文生图底层技术一致,自回归和扩散模型为主流文生视频:与文生图底层技术一致,自回
18、归和扩散模型为主流文生视频(Text-to-Video)是基于文本通过生成式AI生成视频的模式。随着文生图技术的精进与成熟,对于文生视频的技术的发展和关注逐渐演变及增加,近3年时间,以Runway为代表的文生视频公司在不断涌现,互联网行业的巨头,比如谷歌、Meta、微软,同样投入人员和精力参与其中,国内目前文生视频技术还在初期发展阶段,目前魔搭社区(Model Scope)里的开源模型ZeroScope表现亮眼。文本生成视频模型的发展经历三个阶段:图像拼接生成阶段、GAN/VAE/Flow-Based生成阶段、自回归和扩散模型阶段。2020年至今2016年2019年2016年以前2021.04
19、 微软亚洲研究院发布GODIVA图像拼接生成阶段GAN/VAE/Flow-Based生成阶段自回归和扩散模型阶段资料来源:易观,IT之家,36氪,论文见附录2,国海证券研究所2016.10 VGAN2016.012017.012018.012019.012020.012021.012022.012023.012021.11 微软亚洲研究院发布NUWA(女娲)2023.02 Runway发布Gen-12023.03 Runway发布Gen-22022.05 清华发布CogVideo2022.07 微软亚洲研究院发布NUWA-Infinity2022.09 Meta发布Make-A-Video20
20、22.10 Google发布Phenaki2022.10 Google发布Imagen Video2023.03 微软亚洲研究院发布NUWA-XL2023.04 Nvidia发布Video LDM2023.11 字节跳动发布MagicVideo2023.05 Nvidia发布PYoCo2017.08 TGAN2017.12 MoCoGAN2022.02 DIGAN2020年至今自回归模型及扩散模型生成阶段2019.09 DVD-GAN文本生成视频三大发展阶段2017.04 VideoGPT 请务必阅读报告附注中的风险提示和免责声明9生成技术路径:从生成技术路径:从GAN到到Diffusion,
21、模型持续优化迭代,模型持续优化迭代资料来源:论文见附录,国海证券研究所结构结构存在存在问题问题改进改进方向方向运行运行原理原理图像图像视频视频商用商用生成式对抗网络(生成式对抗网络(GAN)GAN)自回归模型自回归模型扩散模型扩散模型生成器(生成器(GeneratorGenerator):):一个神经网络或者其他方式拟合出的函数,给定输入,负责生成整个GAN所需的输出判别器(判别器(DiscriminatorDiscriminator):):一个判断输入真假的二分类器函数 TransformerTransformer:整体主要分为Encoder和Decoder两大部分,能够模拟像素和高级属性(
22、纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码通过对纯高斯噪声反向降噪推断来生成图像生成器将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器区分。这一过程将反复进行,直到判别器无法以超过50%的准确度分辨出真实样本通过编码器将文本转化成token或序列,应用自回归预测,经过训练好的模型解码输出图像定义一个扩散步骤的马尔可夫链,逐渐向数据添加随机噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本训练不稳定:训练不稳定:GAN 的相互博弈过程容易造成训练不稳定,使得训练难以收敛。近期突破思路有Relativistic GAN。有别于传统 GAN 测量生成样本是否为
23、真的概率这一做法,Relativistic GAN 将关注点放在测量生成样本比真实样本“更真”的概率,使得 GAN 获得了更好的收敛性计算成本消耗大计算成本消耗大:模型受制于计算效率与训练数据的规模,自回归模型的参数通常是扩散模型参数量的10倍以上采样速度慢:采样速度慢:连续模型使用高斯噪声,很难处理离散数据生成样本大量重复相似:生成样本大量重复相似:模式坍塌被认为是应用 GAN 进行图像生成时最难解决的问题之一,它会造成训练结果冗余、生成图像质量差、样本单一等问题。近期突破性思路有包含两个判别网络的D2GAN大量的训练数据:大量的训练数据:自回归模型需要大规模的、高质量的数据进行训练,尤其在
24、文本生成视频的训练中,目前缺少高质量的文本-视频对是文生视频自回归模型的一大难题计算消耗过大:计算消耗过大:蕴含多个(原始模型可能要上千个)前向传播过程,对显卡硬件需求大,计算较慢结构改善:结构改善:将 GAN 与机器学习中最新的理论成果进行交叉训练,引入迁移学习、强化学习等,使 GAN 与计算机图形学等技术更好地融合,推动结构的改善创新生成模式:创新生成模式:改进图像生成的方式,比如在视频生成过程中,从“逐像素”改进至逐帧生成,减少计算量训练方式改进:训练方式改进:知识蒸馏促进模型压缩和加速,改进扩散过程以减少采样时间,调整噪声尺度优化采样程序,数据分布替换降低预测误差无训练采样:无训练采样
25、:以更少的步骤和更高的精度从预训练的模型中获取知识模型压缩:模型压缩:目前图像生成技术想要落地,势必要根据需求调整模型的大小,结合基于“知识蒸馏”的模型压缩方法,进行匹配需求的优化和压缩,从而内嵌入小型软件中,拓宽应用领域提升数据质量:提升数据质量:在文本生成视频中,联合文本-图像对进行训练,规避因为文本-视频对不足的劣势混合模型改进:混合模型改进:在扩散模型的中加入额外生成模型,以利用其他模型的高采样速度分数与扩散统一:分数与扩散统一:确定扩散模型和去噪分数匹配之间的联系,有助于统一广义扩散的加速方法StackGAN+、DF-GANDALL-E、CogView、CogView2、Parti、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 行业 专题报告 文生图到文生 视频 技术 框架 商业化
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。