互联网巨头的AI野望.pdf
《互联网巨头的AI野望.pdf》由会员分享,可在线阅读,更多相关《互联网巨头的AI野望.pdf(63页珍藏版)》请在咨信网上搜索。
1、本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告证券研究报告海外行业深度海外行业深度 逐浪大模型:互联网巨头逐浪大模型:互联网巨头的的 A AI I 野望野望核心观点核心观点 语言模型已步入大模型发展阶段,国内大模型研发应用热潮持续高涨,科技大厂在模型、算力、平台、应用进行了四位一体的全面布局,如阿里的“通义大模型+飞天智算平台+魔塔社区+行业应用”、百度的“文心大模型+昆仑芯+飞桨平台+行业应用”、腾讯的“混元大
2、模型+HCC 算力集群+太极机器学习平台+行业应用”、字节的“视觉语言模型+火山高速训练引擎+火山机器学习平台+行业应用”。大模型落地将形成 API、PaaS 和 MaaS 三种收费模式,目前仍以内部应用为主,后续主要向 B 端企业拓展服务,预计少数企业将在 C 端市场形成规模。摘要摘要 大模型发展全面加速,通过“预训练大模型发展全面加速,通过“预训练+精调”模式进行落地。精调”模式进行落地。语言建模经过统计语言模型、神经语言模型、预训练语言模型,已经全面迈入百亿、千亿参数规模的大语言模型阶段。大语言模型具备优秀的上下文学习能力、上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。大模
3、型研究存在 Google 的Bert 模式、OpenAI 的 GPT 模式和国内的混合模式三条技术线,以 ChatGPT 为主导 GPT 模式目前已经占据主流。目前,国内已有至少 19 家企业及科研院所参与人工智能大模型训练,主要分为大型科技公司、科研院所和初创科技团队三类。国际对比来看,目前美国领跑,中国跟跑,但差距不断缩小。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。互联网大厂在“模型、算力、平台和应用”互联网大厂在“模型、算力、平台和应用”进行
4、进行四位一体布四位一体布局。阿里“通义大模型局。阿里“通义大模型+飞天智算平台飞天智算平台+魔塔社区魔塔社区+行业应用”:行业应用”:在模型层,阿里达摩院主导大模型研究,发布通义大模型,包括通义 M6 多模态模型、通义 AliceMind 自然语言处理模型、通义视觉计算机视觉模型。在算力层,阿里云推出全栈智能计算解决方 维持维持 强于大市强于大市市场表现市场表现 相关研究报告相关研究报告-14%6%26%46%66%86%2022/5/302022/6/302022/7/312022/8/312022/9/302022/10/312022/11/302022/12/312023/1/31202
5、3/2/282023/3/312023/4/30传媒标普500互联网互联网 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 5:AIGC 模型十大开发机构.6 图 6:预训练语言模型参数量.6 图 7:训练大模型“预训练+精调”模式.6 图 8:通义大模型架构.9 图 9:通义 M6 发展历史.9 图 10:M6-OFA 模型-任务完成模式(架构统一).10 图 11:M6-OFA 模型-预训练模式(模态统一).10 图 12:通义-AliceMind 发展历程.10 图 13:通义-AliceMind 在 CLUE 榜单中名列前茅.11 图 14:通义-视觉框架.11
6、 图 15:飞天智算平台.12 图 16:S4 框架.14 图 17:魔塔社区特点.15 图 18:阿里所有产品将接入大模型升级.16 图 19:百度 AI 大底座.17 图 20:文心大模型全景图.18 图 21:文心基础大模型组成.18 图 22:文心 NLP 大模型发展历程.20 图 23:从大规模知识图谱和海量无结构数据中学习.21 图 24:融合自编码和自回归结构.21 图 25:基于飞桨 4D 混合并行技术进行高效训练.22 图 26:层次化提示(Prompt)学习技术.23 图 27:文心 PLATO 技术研发框架.23 图 28:PLATO 基于隐变量的生成式开放域对话大模型.
7、24 图 29:PLATO 提出隐变量建模 Context 和 Response 的映射信息来解决一对多问题.25 图 30:PLATO-2 引入两阶段训练.25 图 31:PLATO-X 引入 role embedding 感知用户角色.26 图 32:UFO 架构.26 图 33:UFO 多任务联合优化.27 图 34:网络稀疏化(Path Routing).28 图 35:多规模网络学习(Stochastic Architecture Slimming).29 图 36:VIMER-UFO 2.0 单模型 28 个公开测试集 SOTA.29 图 37:VIMER-StrucTexT 2.
8、0 文档图像表征学习.30 图 38:商品搜索中多模态信息存在信息缺失问题.31 图 39:商品搜索中多模态信息存在信息缺失问题.31 图 40:基于 VIMER-UMS 的多模态商品搜索.32 图 41:ERNIE-ViL 架构图.33 图 42:ERNIE-ViL 融合场景进行判断.33 图 43:文心 ERNIE-ViLG 2.0 架构图.34 图 44:文心 ERNIE-ViLG 2.0 生成图示例.34 图 45:文心 ERNIE-ViLG 2.0 应用场景.34 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 46:昆仑芯发展历程.35 图 47:昆仑芯产品
9、迭代.35 图 48:飞桨平台全景图.36 图 49:飞桨四大领先技术.37 图 50:飞桨主流模型概览.37 图 51:飞桨硬件生态.38 图 52:飞桨产业实践范例库.38 图 53:飞桨位列中国深度学习市场应用规模第一.39 图 54:飞桨在各指标位列榜首.39 图 55:百度全新 AI 搜索体系.40 图 56:百度文心行业大模型全景.41 图 57:文心大模型产品矩阵.42 图 58:腾讯混元 AI 大模型架构.43 图 59:HCC 大幅提速大模型训练.44 图 60:星星海自研服务器.44 图 61:网络集群算力.45 图 62:HCC 存储架构.45 图 63:太极机器学习平台
10、架构.46 图 64:太极 AngelPTM.46 图 65:AI Lab 数字人.47 图 66:绝悟 RLogist 提出一种类似医生病理阅片的决策思路.48 图 67:文涌 2.0 基于混元大模型展现出生成能力.50 图 68:火山引擎发布的智能推荐-高速训练引擎.53 图 69:火山引擎机器学习平台.54 图 70:智能创作云 SaaS 产品.55 图 71:中国大语言模型产业参与厂商类型与定位逻辑.56 图 72:TLT 进行预训练过程中的主要流程.58 1 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。一、大模型发展情况一、大模型发展情况 1、行业发展历程、行
11、业发展历程 语言是人类表达和交流的突出能力,其在儿童早期发展并在一生中不断演变。然而,除非配备强大的人工智能(AI)算法,机器不会自然地掌握理解和使用人类语言的能力。要让机器像人类一样阅读、写作和交流一直是一个长期的研究挑战。从技术上讲,语言建模(Language Model,LM)是提高机器语言智能的主要方法之一。一般来说,LM 旨在对单词序列的生成概率进行建模,以便预测未来(或缺失)单词的概率。LM 的研究在学界中得到了广泛的关注,可以分为四个主要发展阶段:统计语言模型(统计语言模型(SLM):):SLM 是基于 20 世纪 90 年代兴起的统计学习方法开发的。其基本思想是基于马尔可夫假设
12、构建单词预测模型,例如根据最近的上下文预测下一个单词。具有固定上下文长度 n 的 SLM 也被称为n-gram 语言模型,例如二元和三元语言模型。SLM 已经被广泛应用于提高信息检索(IR)和自然语言处理(NLP)任务的性能。然而,它们经常受到维度灾难的影响:由于需要估计指数级的转移概率,因此很难准确估计高阶语言模型。因此,专门设计的平滑策略,例如后退估计和 Good-Turing 估计已经被引入为缓解数据稀疏问题。神经语言模型(神经语言模型(NLM):):NLM 通过神经网络,例如递归神经网络(RNNs),来描述单词序列的概率。作为一个显着的贡献,Y.Bengio 和 R.Ducharme
13、等人引入了单词的分布式表示的概念,并构建了基于聚合上下文特征(即分布式单词向量)的单词预测函数。通过扩展学习词或句子有效特征的想法,已有研究开发了一种通用神经网络方法来为各种自然语言处理任务构建统一解决方案。此外,word2vec 提出了构建一个简化的浅层神经网络,用于学习分布式单词表示,这在各种 NLP 任务中被证明非常有效。这些研究开创了语言模型用于表示学习(超越了词序列建模)的应用,对 NLP 领域产生了重要影响。预训练语言模型(预训练语言模型(PLM):):作为早期尝试,ELMo 被提出来通过预训练一个双向 LSTM(biLSTM)网络(而不是学习固定的词表示)来捕捉上下文感知的词表示
14、,然后根据特定的下游任务微调 biLSTM 网络。此外,基于高度可并行化的 Transformer 架构和自注意力机制,BERT 提出了通过在大规模无标注语料库上设计特定的预训练任务来预训练双向语言模型。这些预训练的上下文感知的单词表示非常有效,可作为通用语义特征,大大提高了 NLP 任务的性能。这项研究启发了大量的后续工作,建立了“预训练和微调”学习范式。在此范式下,开发了大量关于 PLM 的研究,引入了不同的架构(例如 GPT-2 和 BAR)或改进的预训练策略。在这个范式中,通常需要微调 PLM 以适应不同的下游任务。大型语言模型(大型语言模型(LLM):):研究人员发现,扩展 PLM(
15、例如扩展模型大小或数据大小)通常会导致模型在下游任务上具有更强的能力(即遵循缩放定律)。一些研究探索了通过训练更大的 PLM(例如 175B 参数的 GPT-3和 540B 参数的 PaLM)来达到性能极限。尽管缩放主要是在模型大小(具有类似的架构和预训练任务)方面进行的,但这些大型 PLM 显示出与较小 PLM(例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2)不同的行为,并展现出令人惊讶的能力(称为涌现能力)以解决一系列复杂任务。例如,GPT-3 可以通过上下文学习来解决少样本任务,而 GPT-2 做不好。因此,研究界为这些大型 PLM 创造了“大型语言模型(LLM)”的
16、术语。LLM 的一个显著应用是 ChatGPT,它利用 GPT 系列的 LLM 适应对话,具有惊人的与人类对话的能力。大语言模型相较于以往的语言模型具备显著优势,其具备优秀的上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。2 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。大型语言模型研究的发展大型语言模型研究的发展有三条技术路线:有三条技术路线:Bert 模式、模式、GPT 模式、混合模式。模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是 GPT 技术路线,直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。到 2019
17、 年后,Bert 路线基本没有标志性的新模型更新,而 GPT 技术路线则趋于繁荣。从 Bert 往 GPT 演化的过程中,模型越来越大,所实现的性能也越来越通用。各类大语言模型路线各有侧重,GPT 模式在生成类任务表现最优。大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识。从任务类型来划分,大型语言模型可以分为单一任务和多任务、理解类和生成类;Bert 模式有两阶段(双向语言模型预训练+任务 Fine-tuning),适用于理解类以及某个场景的具体任务,表现得“专而轻”。GPT 模式是由两阶段到一阶段(单向语言模型预训练+zero-shot prom
18、pt),比较适合生成类任务、多任务,表现得“重而通”。T5模式则将两者的方法结合,包含有两阶段(单向语言模型预训练+Fine-tuning)。根据当前研究结论,如果模型规模不特别大,面向单一领域的理解类任务,适合用 T5 模式,而 GPT 模式在做生成类任务时的效果最好。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式。图图 1:语言模型发展时间线语言模型发展时间线 数据来源:真格基金,中信建投 如今,LLM 正在对人工智能社区产生重大影响,ChatGPT 和 GPT-4 的出现引发了重新思考人工智能通用智能(AGI)的可能性。OpenAI 已经发表了一篇名为“Plan
19、ning for AGI and beyond”的技术文章,讨论了实现 AGI的短期和长期计划,而最近的一篇论文则认为 GPT-4 可能被视为一个早期版本的 AGI 系统。LLM 的快速进步正在彻底改变人工智能的研究领域。在自然语言处理领域,LLM 可以在某种程度上充当通用语言任务求解器,研究范式已经转向使用 LLM。在信息检索领域,传统的搜索引擎正在被 AI 聊天机器人(即 ChatGPT)挑战,而 New Bing 则是基于 LLM 增强搜索结果的初始尝试。在计算机视觉领域,研究人员试图开发类似于 ChatGPT的视觉语言模型,以更好地服务于多模态对话,而 GPT-4 通过集成视觉信息已经
20、支持多模态输入。这股新的技术浪潮有可能会导致基于 LLM 的真实世界。例如,Microsoft 365 正在被 LLM(如 Copilot)赋能以自动化办公工作,而 OpenAI 支持在 ChatGPT 中使用插件来实现特殊功能。起源于 Transformer 模型,ChatGPT 经过 5 年迭代成功出世。ChatGPT 的诞生经历了从 Transformer-GPT-GPT2-GPT3-ChatGPT 的逐步迭代过程,其具体发展历程如下:(1)2017 年 6 月,Google 发布论文 Attention is all you need,首次提出 Transformer 模型,成为 GP
21、T 发展的基础;(2)2018 年 6 月,OpenAI 发布论文 Improving Language Understanding by Generative Pre-Training,首次提出 GPT 模型,即 GPT-1,模型参数量达 1.17 亿;(3)GPT-1GPT-2GPT-3Instruct-GPTGPT模式模式ChatGPTT5BARTM2m-100BigBird混合模式混合模式Bert模式模式BERTCNNRNNGANTransfo-rmer国内国内LLMMachineLearning基于规则基于规则的少量数的少量数据处理据处理RoBERTaXLMALBERT基于模版和规则
22、的前深度学习阶段根据一定范围的的数据进行参数分类开始模仿人脑进行大量数据的标记和训练对人脑学习过程进行重点关注1950年开始年开始神经网络神经网络1980年开始年开始1990年开始;年开始;2006年获得年获得突破突破2017年年2018年年2019年年2020年年2022年年进行海量数据学习训练,人类的反馈信息成为模型学习的内容 3 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。2019 年 2 月,OpenAI 发布论文Language Models are Unsupervised Multitask Learners,提出 GPT-2 模型,大模型共计 48 层,
23、参数量达 15 亿;(4)2020 年 5 月,OpenAI 发布论文Language Models are Few-Shot Learners,提出 GPT-3 模型,参数量达 1750 亿;(5)2022 年 2 月底,OpenAI 发布论文Training language models to follow instructions with human feedback,公布 Instruction GPT 模型,参数量达 13 亿;(6)2022 年 11 月 30 日,OpenAI推出 ChatGPT 模型,并提供试用。图图 2:ChatGPT 发展时间线发展时间线 数据来源:Op
24、enAI,中信建投 2、大语言模型概览、大语言模型概览 通常,大型语言模型(LLMs)是指包含数千亿(或更多)参数的语言模型,它们是在海量文本数据上进行训练的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具体来说,LLMs 建立在 Transformer 架构之上,其中多头注意力层在一个非常深的神经网络中堆叠。现有的 LLMs 主要采用类似的模型架构(即 Transformer)和预训练目标(即语言建模)作为小型语言模型。作为主要区别,LLMs 大量扩展了模型大小、预训练数据和总计算量(数量级)。它们可以更好地理解自然语言,并基于给定的上下文(即提示)生成高质量的文本。这种
25、能力提升可以部分地由缩放法则描述,即性能大致随着模型大小的增加而显著增加。然而,一些能力(例如上下文学习)是不可预测的,只有当模型大小超过一定水平时才能观察到。百亿参数量级别的模型:百亿参数量级别的模型:这类模型的参数规模除了 LLaMA(最大版本 65B 参数)和 NLLB(最大版本 54.5B参数),大多在 10B 至 20B 之间。这一参数范围内的模型包括 mT5、PanGu-、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5 和 mT0 等。其中,Flan-T5(11B 版本)可以作为研究指令微调的首选模型,因为它从三个方面探索了指令微调:增加任务数量、扩大模型规
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 巨头 AI 野望
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。