2023年从算力、算法、数据及应用看AIGC.pdf
《2023年从算力、算法、数据及应用看AIGC.pdf》由会员分享,可在线阅读,更多相关《2023年从算力、算法、数据及应用看AIGC.pdf(38页珍藏版)》请在咨信网上搜索。
1、奇点将至,探他山之石从算力、算法、数据和应用看AIGC2023年3月19日1 目录0 01 1 生成式生成式AIAI:ChatGPTChatGPT引燃市场,数字经济未来已至引燃市场,数字经济未来已至02 数据:大模型训练的基础资源03算力:大模型发展带来高算力需求04 算法:大模型算法助力AIGC突破05 产业应用:各领域应用加速落地,商业化前景广阔AIGC(AI Generated Content)即生成式AI,多领域应用逐渐成熟。AIGC涉及无监督和半监督学习算法,截至目前其发展历程主要分为三个阶段:统计机器学习方法阶段(2010年前):首先对数据进行手工标注,然后构建其重要特征,最后构建
2、概率模型并进行参数优化,从而将概率最大的输出作为结果;基于深度学习的神经网络模型(2010年-2017年):深度学习算法被引入,本质上是通过大量数据训练神经网络,主要表现形式为:CNN(卷积神经网络)、RNN(循环神经网络)等。相比统计学习方法,省去了复杂且手工的特征构建;基于Transformer结构的预训练模型(2017年至今):利用大量无标注数据进行自监督学习,然后再使用少量的标注数据对下游任务进行微调(即迁移学习)。在应用方面,按场景分类AIGC已经较为成熟地应用于文本和代码撰写、图像识别和生成,以GPT为首的AIGC模型也正在探索消费级AI技术的变现方式。展望未来,AIGC不仅会在现
3、有应用领域持续进步,也将逐步拓展到视频和游戏领域,AIGC将会在更多的领域得到广泛应用,为各个行业和领域的发展和进步提供更多可能性。表1:AI应用发展进程预测2020前20202022预计2025预计2030预计2050文本垃圾邮件检测翻译基础问答基础文案撰写生成草案撰写更长文章完善文稿对科学论文等进行垂直微调文章终稿超过人类平均水平文章终稿超过专业作者水平代码单行自动完成多行代码生产更长代码更高准确度更多语言深度提高文本到产品(草稿)文本到产品(终稿),超过大部分开发者图像艺术Logo摄影产品设计、建筑等模型产品设计、建筑等终稿终稿超过大部分专业艺术家、设计师、摄影师水平视频/3D/游戏视频
4、和3D制作的初稿完善版本AI创作平台游戏和电影实现个性化定制开始尝试基本完成黄金时期生成式AI:自然语言处理演变十余年,迎来变现阶段OpenAI创立于2015年12月,发布ChatGPT引燃AI行业热度。GPT系列是OpenAI打造的自然语言处理模型,采用以Transformer结构为核心的模型,其最大特点是使用了大量的未标注的语料进行无监督的预训练,然后在各种有监督的任务上进行微调。OpenAI于2022年11月先后推出了GPT-3.5和ChatGPT,GPT-3.5使用了更新的语料进行预训练,而ChatGPT是基于GPT-3.5的对话机器人,能够根据用户的输入生成流畅、有逻辑的回答,以及完
5、成撰写论文报告、翻译文字、编写代码等文本生成任务,并且能根据聊天的上下文进行互动。ChatGPT发布后爆火,仅用5天时间用户量便破百万,推出2个月后用户量破亿,成为史上用户增长速度最快的消费级应用程序。3月14日,OpenAI进一步推出GPT-4.0,相比当前ChatGPT使用的GPT-3.5,增加了输入图像的功能;扩写能力增强,能处理超过25000个单词的文本;更具创造力,并且能够处理更细微的指令。GPT模型迭代的参数量及训练量均呈指数级增长,使得AI从实验技术成长为稳定生产力。图1:ChatGPT仅发布5天便达到百万用户0200400600800100012001400NetflixAir
6、bnbTwitterFoursquareFacebookSpotifyInstagramChatGPT用户量达到100万时间(天)生成式AI:GPT模型迭代四大版本,进化速度不断提升GPT模型稳定进步,AI已是成熟生产工具。从GPT-1到最新发布的GPT-4模型,其应用已经不仅局限于问答、阅读理解等文本处理,虽然目前GPT-4在现实场景中的能力可能不如人类,但在各种专业和学术考试上表现出明显超越人类水平的能力,GPT-4在模拟律师考试中,分数排在前10%;相比之下,GPT-3.5的得分则在倒数10%附近。随着算力、算法、数据量的演进,行业内不断出现高质量的AI产品,微软New Bing、AI绘
7、画、智能驾驶等等,体现出AI未来在多个领域的应用潜力。ChatGPT版Office、百度“文心一言”两大产品正式推出,或将AI的生产力推向新的高度。图2:GPT 4.0 数学能力大幅提升生成式AI:AI产品全面开花,生产力将达新高度AI行业星辰大海,数字经济未来已至。从2018到2023年,四代GPT模型高速进步,从简单的问答、阅读理解、文本总结,到在众多测试中获得“人类级别表现”评级,此外近期AI衍生产品的层出不穷,显现出背后AI行业的星辰大海。2020年,马斯克预言五年内人工智能将比人类更聪明,当前AI迭代进化的速度越来越快,虽然GPT还未通过图灵测试,距离真正的“智能”还有距离,但我们认
8、为,AI达到人类水平、乃至超越人类的时代即将到来。表2:历代GPT学习目标及表现情况模型发布时间参数量预训练数据量学习目标模型表现GPT-12018年6月1.17亿约5GB无监督语言模型(Pre-training)有监督fine-tune在9/12任务中获得“先进”表现:问答、阅读理解、文本总结GPT-22019年2月15亿40GB多任务零次学习Zero Short Task Transfer在7/8任务中超过“先进”表现随着模型参数变多,模型的表现呈现log-linear上升,没有到达瓶颈GPT-32020年5月1,750亿45TB语境学习小样本学习在小样本学习、单样本学习、零样本学习中表现
9、突出GPT-42023年3月待公布基于规则的奖励模型(RBRM)在GLUE,SuperGLUE,SQuAD等测试中获得“人类级别表现”拥有图像处理能力生成式AI:AI进化加速,数字经济未来已至数据,通过算力,最后产生了算法或者应用。AIGC是人工智能、大数据、云计算、5G等多个技术领域的整合,是一种跨领域的合作发展模式。在AIGC行业中,算力、算法、数据是三个核心概念,它们共同构成了这个领域的基础设施。未来随着技术的进步和应用场景的不断拓展,这三个概念将继续发挥重要作用,推动整个行业的创新和发展。算力(Computing Power):算力是指计算设备执行算法、处理数据的能力,包括CPU、GP
10、U、FPGA、ASIC等。云计算技术和5G通信技术的发展使得算力的分布和调度更加灵活,有助于满足各种场景下对高性能计算的需求。算法(Algorithm):算法是一系列解决问题、实现特定功能的有序指令和步骤。在AIGC行业中,算法是模型的基础,用于实现数据分析、人工智能模型训练等功能。数据(Data):在AIGC行业中,数据是支撑决策和优化的基础,是算法发挥作用的前提。大数据技术可以对海量数据进行有效处理、分析和存储,而人工智能技术可以通过对数据进一步学习,实现各种智能化应用,如图像识别、自然语言处理等。表3:AIGC行业三大核心概念核心概念描述应用及关联技术算力(Computing Power
11、)衡量计算设备执行算法、处理数据的能力,关系到系统的运行效率和任务完成速度。数据中心、分布式计算、云计算、边缘计算、高性能计算(HPC)算法(Algorithm)解决问题、实现特定功能的有序指令和步骤,是计算机程序的基础,用于实现各种功能。机器学习(ML)、深度学习(DL)、自然语言处理(NLP)、计算机视觉(CV)、推荐系统等数据(Data)对现实世界的描述和反映,以数字、文字、图像等形式表现,是支撑决策和优化的基础。数据挖掘、数据分析、数据仓库、数据可视化、数据安全、隐私保护等生成式AI:算力、算法、数据三位一体10 目录01 生成式AI:ChatGPT引燃市场,数字经济未来已至02 数据
12、:大模型训练的基础资源03算力:大模型发展带来高算力需求04 算法:大模型算法助力AIGC突破05 产业应用:各领域应用加速落地,商业化前景广阔数据是训练大模型的基础资源,以GPT系列模型为例,对比三代模型间使用的数据集,训练所需的数据集在质量和数量方面均不断提升。随着人工智能模型迭代发展,高质量数据集的需求将进一步增长。模型数据集概要GPT-1BooksCorpus(7000不同的未发表的书籍,包括冒险、幻想、浪漫等题材,数据集中包含大量连续文本)GPT-2在Reddit上爬取的外链,构建了WebText数据集,包含了这4500万个链接的文字子集,移除了所有的Wikipedia文档,因为它是
13、很多下游任务的数据源,这是为了避免数据集重叠而影响评估GPT-3使用Common Crawl数据集(几乎包含整个互联网的数据),进行了3步过滤操作,增加了一些高质量数据集,最终采用混合数据集输入。数据集大小合计将近5千亿tokens表4:GPT系列模型训练使用数据集概要数据:大模型训练的基础资源,需求不断扩大从自然数据源简单收集取得的原料数据并不能直接用于有监督的深度学习算法训练,必须经过专业化的采集、加工,形成相应的工程化训练数据集后才能供深度学习算法等训练使用。目前,带有监督学习的算法对于训练数据的需求远大于现有的标注效率和投入预算,基础数据服务将持续释放其对于算法模型的基础支撑价值。公司
14、主营业务公司优势海天瑞声AI训练数据的研发设计、生产及销售业务1.拥有的成品训练数据集数量大,在产品领域覆盖方面比较完善2.已取得专利授权28项,计算机软件著作权159项,对比同业公司在专利技术储备方面具备一定优势3.公司的产品和服务已获得字节跳动、阿里巴巴、腾讯、百度、科大讯飞、海康威视、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,市场认可度较高澳鹏(Appen)数据采集和标注解决方案1.覆盖超过235个语种/方言,语言覆盖面具有优势2、成立于1996年,经营历史较长,规模较大,拥有人工智能辅助数据注释平台,在全球170多个国家与100多万名专业承包合作3.客户包括亚马逊、微
15、软、谷歌等全球大型科技公司,产品质量得到认可标贝科技智能语音交互和AI数据服务1.拥有语音合成模型和算法,可覆盖音乐类训练数据。拥有TOBI标注体系,通过自主研发的TTS评测系统,提供高质量的数据服务。2.已与微软、百度、阿里、腾讯、京东、滴滴、字节跳动等国内外百余家企业客户建立合作,服务项目累计超过1000项表5:数据服务商部分公司概况数据:大模型训练的基础资源,需求不断扩大13 目录01 生成式AI:ChatGPT引燃市场,数字经济未来已至0 2 数据:大模型训练的基础资源0 03 3算力:大模型发展带来高算力需求算力:大模型发展带来高算力需求04 算法:大模型算法助力AIGC突破05 产
16、业应用:各领域应用加速落地,商业化前景广阔334.7 4,773.7 01,0002,0003,0004,0005,0006,00020212030E全球GPU市场规模(亿美元)AIGC模型硬件以GPGPU为主,GPU市场规模有望在2030年超过4000亿美元。GPU在并行计算方面具有性能优势,在AI领域分化成两条分支:一条是传统意义的GPU,专门用于图形图像处理用途;另一条是GPGPU,作为运算协处理器,增加了专用指令来满足不同领域的计算需求。使用GPGPU在云端进行模型训练算法能够显著缩短海量训练数据的训练时长,减少能源消耗,从而降低人工智能的应用成本,目前全球人工智能相关处理器解决方案仍
17、以GPGPU为主。根据VerifiedMarketResearch报告,2021年全球GPU芯片市场规模已经达到了334.7亿美元,并预计到2030年将达到4,773.7亿美元,CAGR高达33.3%。GPU市场保持着高速增长态势,其在人工智能领域中仍然是不可或缺的计算资源之一。图4:全球GPU市场规模预测CAGR:33.3%算力:算力需求不断攀升,GPU行业市场巨大英伟达:高算力芯片龙头,AI芯片市场地位领先。人工智能平台需要巨大的数据处理能力,英伟达的A100显卡适合于支持ChatGPT、Bard等工具的机器学习模型,这款芯片能够同时执行众多简单的计算,而这对于训练和使用神经网络模型很重要
18、,使得A100显卡成为目前主流AI芯片。长期展望,AI芯片市场快速增长将带动英伟达营收快速增长,根据中商产业研究院数据显示,预计全球AI芯片市场规模有望从2020年的约175亿美元提升到2025年的726亿美元,年复合增长率32.9%。根据花旗集团预估,ChatGPT 的使用可能会在 12 个月内为英伟达带来 30 亿至 110 亿美元的销售额。算力:英伟达芯片龙头市场地位稳固图5:A100等显卡大模型训练速度图6:A100等显卡机器学习性能AMD:高算力芯片代表企业,即将推出世界首款集成数据中心CPU和GPU的APU产品。在2023年的CES上,AMD预览了AI推理加速器AMD Alveo
19、V70,主打高能效,峰值AI算力可达到400TOPS,TDP仅75W。AMD称这是最强AI算力的75W TDP级产品。AMD还预览了其首款集成数据中心CPU和GPU的APU产品AMD Instinct MI300。该款产品采用了Chiplet封装理念。Chiplet策略是一项重要的硬件创新,摆脱了单芯片微缩的限制,同时能够优化设备的性能、功耗和性价比。MI300加速器专为领先的高性能计算(HPC)和AI性能而设计,借助3D封装技术将CPU和加速计算单元集成在一起,总共有1460亿个晶体管。图7:AMD在CES上介绍V70图8:AMD在CES上介绍MI300算力:AMD封装理念Chiplet领先
20、,推出高性能APU全球GPU市场中英伟达和AMD占据96%份额,国内GPU主要研发企业为海光信息、寒武纪等。根据Wccftech,2022Q3独立GPU市场中英伟达和AMD分别占据88%、8%市场份额。根据海光信息招股书公布技术指标数据,当前国内高端GPU相比国际巨头在显存频率、带宽等参数上还有一定差距,但在典型应用场景下,深算一号已基本能够达到国际上同类型高端产品的水平。在国际市场上,英伟达和AMD在高性能计算和人工智能领域具有丰富的产品线和完善的生态系统,叠加长期积累的技术优势和市场地位,预计仍将长期维持AI算力芯片领域的龙头地位。算力:英伟达、AMD垄断全球,国产芯片奋起直追表6:深算一
21、号与NVIDIA、AMD高端产品技术规格对比核心概念海光NVIDIAAMD品牌深算一号Ampere 100MI100生产工艺7nm FinFET7nm FinFET7nm FinFET核心数量4096(64 Cus)2560 CUDA processors640 Tensor processors120 CUs内核频率Up to 1.5 GHz(FP64)Up to 1.7 GHz(FP32)Up to 1.53 GHzUp to 1.5 GHz(FP64)Up to 1.7 GHz(FP32)显存容量32 GB HBM280 GB HBM2e32 GB HBM2显存位宽4096 bit512
22、0 bit4096 bit显存频率2.0 GHz3.2 GHz2.4 GHz显存带宽1024 GB/s2039 GB/s1228 GB/sTDP350 W400 W300 WCPU to GPU互联PCIe Gen4 x 16PCIe Gen4 x 16PCIe Gen4 x 16GPU to CPU互联xGMI x 2Up to 184 GB/sNVLinkUp to 600 GB/sInfinity Fabric x 3Up to 276 GB/s高端芯片进口受限,国产芯片需求加速扩大。在NVIDIA、AMD高端产品被限制向中国出售的情况下,国产大模型算力需求将快速推动国产芯片市场增长,当
23、前国产GPGPU芯片的研发和生产已经取得了一定的进展,海光、炬芯、寒武纪等企业均拥有具备自主知识产权的GPU芯片,为国内高性能计算和人工智能领域的发展提供了重要支持。根据前瞻产业研究院,国产人工智能芯片自2020年来呈爆发式增长,2023年市场空间预计将超过1,300亿元,2020-2023年CAGR为95.86%。总体而言,在国际关系紧张、芯片进口受限的前提下国产人工智能芯片市场未来的发展前景广阔,随着国内厂商加大研发投入和技术创新力度,进一步提升产品性能,看好其在国内乃至国际市场中获得更多的份额和竞争优势。算力:国产芯片发展迅速,填补AI市场空缺图9:中国人工智能芯片行业规模(亿元)59.
24、45 112.87 177.18 429.90 843.71 1,331.22 89.86%56.98%142.63%96.26%57.78%0%20%40%60%80%100%120%140%160%02004006008001,0001,2001,4002018201920202021E2022E2023E19 目录01 生成式AI:ChatGPT引燃市场,数字经济未来已至02 数据:大模型训练的基础资源03算力:大模型发展带来高算力需求04 算法:大模型算法助力AIGC突破05 产业应用:各领域应用加速落地,商业化前景广阔在算法领域,目前通用型AI的领军者是OpenAI,其发布的GPT-
25、4模型是一种多模态语言模型,能接受图像和文本输入,再输出正确的文本回复。相较于ChatGPT基于的GPT-3.5模型,它拥有强大的识图能力,文字输入限制提升,准确性显著提高,风格上也有了变化,例如能够生成歌词和创意文本。在细分领域中,行业内的主要参与者包括以下公司:谷歌的PaLM-E模型是目前已知最大的视觉语言模型,并且将模型接入至机器人,实现可通过机器人执行命令,深耕将AI大模型应用到机器人领域。Meta的FAIR团队专注于研发用于辅助研究群体进行研究工作的大模型,其“LLaMA”模型参数量较少,但同样基准测试结果同样优秀。而较小的模型大小带来的是模型训练、运行成本的降低,实现以低成本使用大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 算法 数据 应用 AIGC
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。