GPT大模型多模态应用展望.pdf
《GPT大模型多模态应用展望.pdf》由会员分享,可在线阅读,更多相关《GPT大模型多模态应用展望.pdf(41页珍藏版)》请在咨信网上搜索。
1、请务必阅读末页的免责条款和声明计算机行业“智能网联”系列报告计算机行业“智能网联”系列报告GPT:大模型多模态应用展望:大模型多模态应用展望2核心观点核心观点ChatGPT通过大模型突破通过大模型突破AI瓶颈瓶颈,GPT-4多模态应用带动商业化加速多模态应用带动商业化加速。ChatGPT凭借大算力、大规模数据训练、基于人类知识的强化学习等方式突破AI技术瓶颈,获得超预期的用户体验效果与市场反响。回顾GPT系列模型演进,GPT-1结合无监督预训练与有监督微调过程,GPT-2突出零样本设定,GPT-3强调上下文学习能力,参数量、训练数据量不断提升。我们预计即将推出的GPT-4或支持多模态应用,开启
2、通往人工通用智能(AGI)之路,并有望控制训练成本,降低使用门槛。目前,ChatGPT已在C端推出ChatGPT Plus订阅计划,B端开放ChatGPT API,且成本降低为0.002美金/1000token,海外多个应用率先接入。我们预计在GPT-4带动下,未来大模型以及多模态模型的商业化应用将进一步加速,带动行业景气度持续向上。Transformer架构支撑架构支撑GPT走向多模态走向多模态,构筑构筑AIGC领域核心基石领域核心基石。GPT系列模型使用Transformer架构,当前基于Transformer的多模态研究为AI领域研究热点,Transformer已开始打破NLP与CV领域
3、壁垒,有望支撑GPT系列模型走向多模态应用,构筑AIGC领域核心能力基石。我们梳理出GPT的潜在基础能力包括文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为,前述基础能力将支撑GPT系列模型在通用与垂直领域的应用,典型应用场景如:通用领域搜索引擎/办公软件,垂直领域教育/金融/医疗/图像视频等。通用与垂直场景多点开花通用与垂直场景多点开花,GPT变革内容生成与交互方式变革内容生成与交互方式。GPT有望革新各行各业的内容生成与交互方式。基于GPT+文本&代码&对话&翻译&图像&视频,我们看好GPT类技术未来在通用与垂直场景的应用空间。例如,搜索引擎结合GPT将重塑搜
4、索结果呈现方式,多模态的引入带来一站式的文本、图像、视频汇集结果,将大为提升用户信息收集效率,百度文心一言有望引领用户搜索体验的代际变革;在办公软件领域,金山WPS、福昕PDF未来若结合多模态GPT,有望深化用户在流程/事务/知识/创意/协作型等多类工作事项上的智能办公体验,同时支撑产品打开客单价提升空间;讯飞将以AI学习机率先落地类ChatGPT技术,有望在作文辅导、口语学习方面实现跃升;当虹科技具有视频AI建模能力、落地AIGC相关技术,GPT赋能下或进一步深化传媒、安全领域应用。投资策略:投资策略:伴随成本下降以及多模态的持续演进,GPT等大模型有望构筑AIGC核心基石,推动AI商业化进
5、程加速和市场天花板打开。建议持续关注相关领域的AI公司:1)应用层:AI+行业:办公金山办公、福昕软件,教育科大讯飞,金融同花顺、东方财富,医疗创业慧康、卫宁健康,图像视频商汤科技、当虹科技、云从科技、格灵深瞳、创新奇智、虹软科技、魅视科技,其他-拓尔思、汉王科技、海天瑞声等;2)基础设施层:海光信息、景嘉微、寒武纪、浪潮信息、工业富联、中科曙光等。风险提示:风险提示:AI核心技术发展不及预期风险;科技领域政策监督收紧风险;企业数据安全风险;信息安全风险;行业竞争加剧风险。YWAZyRsPnOnMpRpMtOpQoPaQdN9PnPnNnPmPkPpPoNeRnMpM9PnNxPNZtQxOu
6、OnNmO目录目录CONTENTS31.ChatGPT通过大模型突破通过大模型突破AI瓶颈,瓶颈,GPT-4多模态应用带动商业化加速多模态应用带动商业化加速2.Transformer架构支撑架构支撑GPT走向多模态,构筑走向多模态,构筑AIGC领域核心基石领域核心基石3.通用与垂直场景多点开花,通用与垂直场景多点开花,GPT变革内容生成与交互方式变革内容生成与交互方式4.投资策略投资策略5.风险提示风险提示41.ChatGPT通过大模型突破通过大模型突破AI瓶颈,瓶颈,GPT-4多模态应用带动商业化加速多模态应用带动商业化加速5ChatGPT是自然语言处理是自然语言处理(NLP)下的下的AI大
7、模型大模型,通过大算力通过大算力、大规模训练数据突破大规模训练数据突破AI瓶颈瓶颈。2022年11月,OpenAI推出ChatGPT,ChatGPT基于GPT-3.5,使用人类反馈强化学习技术,将人类偏好作为奖励信号并微调模型,实现有逻辑的对话能力。ChatGPT本质上是通过超大的统计语言模型,对词语序列的概率分布进行建模,利用上下文信息预测后续词语出现的概率分布,其表现的超预期反映了在算力水平提升的情况下大语言模型技术路线的成功,通过对大规模的未标注的文本数据进行训练,突破了AI发展的技术瓶颈。根据瞭望新闻周刊报道,OpenAI为了让ChatGPT的语言合成结果更自然流畅,使用了45TB的数
8、据、近1万亿个单词来训练模型,训练一次的成本高达千万美元,一个月的运营成本需要数百万美元。资料来源:OpenAI官网资料来源:OpenAI官网ChatGPT帮助用户给邻居写信帮助用户给邻居写信ChatGPT帮助用户帮助用户debug1.1 概述:概述:ChatGPT为为NLP下的下的AI大模型,性能和使用体验超预期大模型,性能和使用体验超预期6ChatGPT出自美国出自美国AI创业公司创业公司OpenAI,是是AI大模型领域的领军者大模型领域的领军者。OpenAI在2015年由Sam Altman、Peter Thiel、ReidHoffman、Elon Musk等人创办。公司成立之初,即确定
9、了包括制造“通用”机器人和使用自然语言的聊天机器人的发展目标。2019年,OpenAI获得来自微软的10亿美元投资,为Azure云端平台服务开发AI技术。2018年起,OpenAI开始发布GPT(Generative Pre-trained Transformer)模型,2020年发布GPT-3,可以完成答题、写论文、代码生成等任务,被视为人工智能竞赛的里程碑事件,并直至ChatGPT的推出引起AI的热潮。除了NLP领域,OpenAI还在多模态领域取得成就,包括发布了AI图像生成器DALL-E2,对音频转录编辑器Descript、AI笔记应用Mem等进行投资。资料来源:OpenAI官网,中信证
10、券研究部1.1 概述:概述:OpenAI倾力打造倾力打造ChatGPT,获得微软有力加持,获得微软有力加持OpenAI发展历程发展历程2015OpenAI成立,马斯克等人参与2016OpenAI宣布其发展的主要目标,发布第一个项目OpenAI Gym Beta2017发布Proximal Policy Optimization算法2018发布GPT-12019202020212022发布GPT-2,获微软10亿美元投资发布GPT-3,开放人工智能应用程序接口研究从文本创建图像神经网络DALL E发布人工智能系统DALL E 2与ChatGPT7GPT-1发布于发布于2018年年6月月,参数量达
11、参数量达1.17亿亿,预训练数据量约预训练数据量约5GB。GPT-1包含预训练和微调两个阶段,考虑到自然语言处理任务中有标签的语料少,GPT-1先在大量的无标签数据上训练语言模型,然后在下游具体任务(如分类、常识推理、自然语言推理等)的有标签数据集上进行微调。1)在无监督训练中,GPT-1采用Transformer的架构,即标准的语言模型的目标函数,通过前面的词预测后面的词;2)在有监督训练中,采用标准的分类目标函数,仅需对第一阶段预训练的语言模型做出很小的结构改变,即可应用于各种下游任务。GPT-1使用了BooksCorpus数据集来训练语言模型,其中有7000余本未出版的书籍。具体表现上,
12、在有监督学习的12项任务中,GPT-1在其中9项上的表现优于专门训练的受监督模型。资料来源:Improving Language Understanding by Generative Pre-Training(Alec Radford、Karthik Narasimhan、Tim Salimans等)资料来源:Improving Language Understanding by Generative Pre-Training(Alec Radford、Karthik Narasimhan、Tim Salimans等)GPT-1包含预训练和微调两个训练阶段包含预训练和微调两个训练阶段GPT-
13、1在自然语言推理任务、问答和常识推理任务中的表现在自然语言推理任务、问答和常识推理任务中的表现1.2 演变:演变:GPT-1无监督预训练无监督预训练+有监督微调有监督微调8GPT-2发布于发布于2019年年2月月,参数量达参数量达15亿亿,预训练数据量约预训练数据量约40GB。GPT-1使用的概率条件模型为p(output|input),GPT-2使用相同的无监督模型学习多个任务,将概率条件模型修改为p(output|input,task),期望模型对不同任务的相同输入产生不同的输出。此外,GPT-2采取Zero-shot设定,不需要下游任务的标注信息,而是根据给定的指令理解任务。因此GPT-
14、2的核心思想在于多任务学习。GPT-2训练的数据集来自社交新闻平台Reddit,共有约800万篇文章,体积超40GB。具体表现上,在8个语言模型任务中,仅通过Zero-Shot学习,GPT-2在其中7个上领先。GPT-2表明,随着模型容量和数据量增大,GPT模型的潜力仍有望进一步显现。资料来源:Language Models are Unsupervised Multitask Learners(Alec Radford、Jeffrey Wu、Rewon Child等)1.2 演变:演变:GPT-2无监督预训练无监督预训练+多任务学习多任务学习语言模型参数增加,语言模型参数增加,Zero-sh
15、ot在在NLP任务上表现提升任务上表现提升9GPT-3发布于发布于2020年年5月月,参数量达参数量达1750亿亿,预训练数据量约预训练数据量约45TB。GPT-3采用海量的参数来进行训练和学习,不追求GPT-2中的Zero-shot设定,而是通过少量样例(Few-shot或One-shot)理解并执行任务,对应为模型的上下文学习能力。GPT-3在作用到子任务时,无需进行微调,以避免庞大的模型体量所带来的高成本。具体表现上,在大量的语言模型数据集中,Zero-shot或Few-shot设置下,GPT-3超过了LAMBADA和Penn Tree Bank;GPT-3也在很多复杂的NLP任务中超过
16、微调后的最佳方法。资料来源:Language Models are Few-Shot Learners(Tom B.Brown、Benjamin Mann、Nick Ryder等)资料来源:Language Models are Few-Shot Learners(Tom B.Brown、Benjamin Mann、Nick Ryder等)Few-shot准确性表现增速更快表明大模型在上下文学习上更强大准确性表现增速更快表明大模型在上下文学习上更强大Zero-shot、one-shot、few-shot与与fine-tune对比对比1.2 演变:演变:GPT-3无监督预训练无监督预训练+海量参
17、数海量参数10ChatGPT基于基于GPT-3.5开发开发,最大的变化在于引入人类反馈强化学习最大的变化在于引入人类反馈强化学习。ChatGPT引入人类反馈强化学习,使用人工对模型回复进行打分排名,使得其更好地理解并完成指令。在表现上,ChatGPT能够理解指令、提供基本令人满意甚至是超预期的回答、进行多轮对话以及拒绝不合理的请求等。相较于GPT-3,ChatGPT的回答更有体系性、逻辑性;相较于对话机器人,ChatGPT能够回答假设性的问题,并可以连续对话。未来,ChatGPT待强化的方向还包括:纳入最新的网络语料、避免不合理的答案输出等。资料来源:OpenAI官网1.2 演变:演变:Cha
18、tGPT基于基于GPT-3.5,引入人类反馈强化学习,引入人类反馈强化学习ChatGPT训练包括训练监督策略模型、训练奖励模型、训练包括训练监督策略模型、训练奖励模型、PPO强化学习三个阶段强化学习三个阶段11GPT-4备受业界期待备受业界期待,训练成本控制有望带动商业潜力的极大增强训练成本控制有望带动商业潜力的极大增强。ChatGPT的突出表现使得外界对GPT-4十分期待,自2021年以来便有报道称GPT-4“即将推出”,OpenAI公司CEO Sam Altman今年受StrictlyVC采访时表示GPT-4将在“有信心可以安全且负责任地运行时”推出。外界此前也曾预期,GPT-4的推出或分
19、阶段进行,例如GPT-3也是先开放给合作伙伴、付费用户和学术机构,才在2022年底开放给公众。在参数量上,针对有传言称GPT-4参数量将达到百万亿,OpenAI公司CEO Sam Altman予以否定。此外,AI专家AlbertoRomero预测,GPT-4的重点在数据处理优化上,因此其使用门槛有望降低,我们预计训练成本的控制将带动其商业潜力的增强。资料来源:微信公众号“机器之心”资料来源:The Verge,中信证券研究部GPT-4参数量的传闻遭到否定参数量的传闻遭到否定Altman谈及谈及GPT-4预计推出时间预计推出时间1.3 展望:展望:GPT-4此前外界预期参数量变化不大、使用门槛有
20、望降低此前外界预期参数量变化不大、使用门槛有望降低12最新消息称最新消息称GPT-4将于下周推出将于下周推出,支持多模态应用支持多模态应用,开启通往人工通用智能之路开启通往人工通用智能之路。根据德国科技媒体“heise在线”报道,当地时间3月9日,微软德国公司首席技术官Andreas Braun在名为“AI in Focus-Digital Kickoff”的活动中透露称“将在下周推出GPT-4,它将是一个多模态模型,会提供完全不同的可能性例如视频”。这意味着GPT-4可以管理不同语言数据的输入和输出,也能够做到输出图像甚至视频。在活动上,微软AI技术专家对多模态AI的应用案例进行了介绍,例如
21、能够将电话呼叫的语音直接记录成文本,这为微软位于荷兰的一家大型客户节省500个工作小时/天。GPT-4对多模态的支持使得外界对模型潜力的预期进一步强化,原因在于多模态感知是建立人工通用智能(AGI)的重要一步,基于此能够执行人类水平的一般任务。资料来源:heise online资料来源:微信公众号“水木学堂”微软德国公司首席技术官微软德国公司首席技术官Andreas Braun称称GPT-4即将推出即将推出人工智能已从单模态转向多模态人工智能已从单模态转向多模态1.3 展望:展望:GPT-4最新消息称推出在即、支持多模态最新消息称推出在即、支持多模态13ChatGPT迅速走红迅速走红,以订阅制
22、服务以订阅制服务B端端、C端客户端客户,成本控制下将有效加速商业化落地成本控制下将有效加速商业化落地。ChatGPT自年初以来,持续出圈,截至2023年1月末月活突破1亿,成为史上增长最快的消费者应用。考虑到计算资源所牵涉的庞大训练成本、运行成本,ChatGPT的商业化路径已正在探索、明确中。商业模式商业模式1)C端端:OpenAI发布ChatGPT Plus订阅计划,每月收费20美元,相较于免费版本,即便在高峰时段用户也能正常访问ChatGPT,响应时间更快,可以优先使用新功能,有望引领AI技术变现新模式;2)B端端:OpenAI发布ChatGPT API,开发者可以将ChatGPT集成到产
23、品中,价格为$0.002/1k token,相较于GPT-3.5降低90%,我们预计成本控制后有望快速带动GPT相关应用爆发。根据微信公众号“智东西”,生鲜电商Instacart、跨境电商Shopify、照片分享应用Snap、单词背诵应用Quizlet等已率先接入ChatGPT API。资料来源:OpenAI官网资料来源:OpenAI官网OpenAI上线上线ChatGPT Plus订阅计划订阅计划Quizlet将基于将基于ChatGPT API推出推出Q-Chat1.4 商业模式:商业模式:C端推出订阅制会员,端推出订阅制会员,B端提供调用端提供调用API接口接口142.Transformer
24、架构支撑架构支撑GPT走向多模态,构筑走向多模态,构筑AIGC领域核心基石领域核心基石15GPT沿用主流沿用主流Transformer模型模型,该模型采用自注意力机制该模型采用自注意力机制,在在NLP上表现优于上表现优于RNN(循环神经网络循环神经网络)。2017年,谷歌在Attention is All You Need中提出Transformer模型,可用于文本摘要、机器翻译等NLP任务。在NLP方面,Transformer模型的自注意力(self-attention)机制可以为输入序列中的任意位置提供上下文,进而模型能够一次性处理所有输入数据,而非RNN一次只处理一个单词的情况,由此模型
25、可以减少训练时间,能够在更大的数据集上进行训练。目前,基于Transformer的预训练语言模型已成为NLP领域的主流。资料来源Attention is All You Need(Google),中信证券研究部资料来源:动手学深度学习(李沐)Transformer的的Encoder-Decoder示意图示意图Transformer在长序列处理上解决了在长序列处理上解决了CNN的最长路径问题,也解决了的最长路径问题,也解决了RNN的并行度和的并行度和遗忘问题遗忘问题2.1 GPT采用的采用的Transformer架构在架构在NLP领域已跻身主流领域已跻身主流输入部分自注意力机制前馈神经网络多头自
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GPT 模型 多模态 应用 展望
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。