AGI时代下的开源与开放.pdf
《AGI时代下的开源与开放.pdf》由会员分享,可在线阅读,更多相关《AGI时代下的开源与开放.pdf(10页珍藏版)》请在咨信网上搜索。
1、“通用人工智能”有两个解释,一个叫GAI(Generative Artificial Intelligence),一个叫AGI(Artificial General Intelligence),我想大多数媒体理解的应该是第一个 GAI,但现在确实进入了 AGI 时代。其实人工智能领域谈了 20 多年的是 AGI,我们正在向AGI 这样一个终极目标前进,目前正处于GAI 往 AGI 迈进的历史时期。实现 AGI 有三条技术路线:第一条技术路线,是由“大数据+自监督学习+大算力”形成的信息类模型;第二条技术路线,是基于虚拟世界或者真实世界,通过强化学习训练出来的具身模型;第三条技术路线,是直接超自
2、然进化的作业,类似用人脑复制数字的智能体,也就是所谓的“类脑人工智能”。这三条路线全世界范围内都在进行,所有目的都是为了实现 AGI。其中,第一条技术路线是 OpenAI 做的 GPT,第二条是谷歌 DeepMind 以 DQN 深度学习为核心取得的一系列进展。不同于 OpenAI 和谷歌,作为在通用人工智能方向一直努力的机构,从理想角度来说,智源研究院从“第一性原理”出发,真正构造从原子到有机分子、神经系统和身体完整的智能系统 AGI,不过大概还需要 20 年才可能实现这一目标。作为新型研发机构平台,我们在这三个技术路线方向都在开展工作:第一个是大模型方向,第二个是具身方向,还有刚才说的类脑
3、人工智能方向的进展。大模型时代大概始于 2018 年,也就是智源研究院成立那一年,大模型成为全世界公认的方向。在这个方向上,我们汇聚了 AI 领域的顶尖学者,我们称之为“智源学者”,率先组建大模型的研究团队,共同开启大模型探索,成为今天大模型研究的主力,预见了“大模型时代”的到来。“大模型”这个名词,就是 2021 年智源研究院发布“悟道1.0”时正式提出来的,然后才开始进入大众视野。在大模型领域,我们率先发布了“悟道”大模型;率先启动大模型测评旗舰项目,服务大模型的行业发展;率先倡导大模型开源开放,发布了 FlagOpen 大模型开源系统;率先构建大模型的生态,包括今天的智源大会和拥有 10
4、 多万用户的智源社区,都是大模型技术研讨的高地。其中2021年6月份发布的“悟道2.0”大模型是我国第一个,也是全球最大的大模型,它拥有 1.75 万亿参数,在国际上得到广泛反响。现在大模型已经成为全社会关注的热点,我们认为大模型至少有三个特点:第一个,规模要大,神经网络参数要达到百亿规模以上。第二个,要有涌现性,这是人工智能发展六七十年来,最具里程碑的一个新的特性,“涌现性”产生了预料之外的新能力,如果一个模型只能从原有的数据、原有的算法推导出来结果,那不叫“涌现”,“涌现”一定能出现全新的功能。第三个,通用性,大模型不限于专门问题或者专门领域,它具有通用性,能够解决各类问题。当然,受限于模
5、型目前的阶段,也不是所有问题都能用大模型解决,但是它有很强的推广性。ENTERED THE AGI ERA进入 AGI 时代AGI 时代下的开源与开放编辑/高琪在“2023 北京智源大会”上,北京智源人工智能研究院院长、北京大学多媒体信息处理全国重点实验室主任黄铁军发布智源进展报告。他认为,我们正处于从 GAI(Generative Artificial Intelligence)往AGI(Artificial General Intelligence)行进的历史时期,实现 AGI 需要三条技术路线并进,当下大模型时代运用的是第一条技术路线,即大数据、自监督学习和大算力的合力。此外,黄铁军在大
6、会上公布智源正式推出全面开源的“悟道 3.0”模型,并报告了大语言模型的评测体系“天秤”的进展。OPEN SOURCE AND OPENNESS IN THE ARTIFICIAL GENERAL INTELLIGENCE(AGI)ERA4849应用实践PRACTICAL APPLICATIONS“通用人工智能”有两个解释,一个叫GAI(Generative Artificial Intelligence),一个叫AGI(Artificial General Intelligence),我想大多数媒体理解的应该是第一个 GAI,但现在确实进入了 AGI 时代。其实人工智能领域谈了 20 多年的
7、是 AGI,我们正在向AGI 这样一个终极目标前进,目前正处于GAI 往 AGI 迈进的历史时期。实现 AGI 有三条技术路线:第一条技术路线,是由“大数据+自监督学习+大算力”形成的信息类模型;第二条技术路线,是基于虚拟世界或者真实世界,通过强化学习训练出来的具身模型;第三条技术路线,是直接超自然进化的作业,类似用人脑复制数字的智能体,也就是所谓的“类脑人工智能”。这三条路线全世界范围内都在进行,所有目的都是为了实现 AGI。其中,第一条技术路线是 OpenAI 做的 GPT,第二条是谷歌 DeepMind 以 DQN 深度学习为核心取得的一系列进展。不同于 OpenAI 和谷歌,作为在通用
8、人工智能方向一直努力的机构,从理想角度来说,智源研究院从“第一性原理”出发,真正构造从原子到有机分子、神经系统和身体完整的智能系统 AGI,不过大概还需要 20 年才可能实现这一目标。作为新型研发机构平台,我们在这三个技术路线方向都在开展工作:第一个是大模型方向,第二个是具身方向,还有刚才说的类脑人工智能方向的进展。大模型时代大概始于 2018 年,也就是智源研究院成立那一年,大模型成为全世界公认的方向。在这个方向上,我们汇聚了 AI 领域的顶尖学者,我们称之为“智源学者”,率先组建大模型的研究团队,共同开启大模型探索,成为今天大模型研究的主力,预见了“大模型时代”的到来。“大模型”这个名词,
9、就是 2021 年智源研究院发布“悟道1.0”时正式提出来的,然后才开始进入大众视野。在大模型领域,我们率先发布了“悟道”大模型;率先启动大模型测评旗舰项目,服务大模型的行业发展;率先倡导大模型开源开放,发布了 FlagOpen 大模型开源系统;率先构建大模型的生态,包括今天的智源大会和拥有 10 多万用户的智源社区,都是大模型技术研讨的高地。其中2021年6月份发布的“悟道2.0”大模型是我国第一个,也是全球最大的大模型,它拥有 1.75 万亿参数,在国际上得到广泛反响。现在大模型已经成为全社会关注的热点,我们认为大模型至少有三个特点:第一个,规模要大,神经网络参数要达到百亿规模以上。第二个
10、,要有涌现性,这是人工智能发展六七十年来,最具里程碑的一个新的特性,“涌现性”产生了预料之外的新能力,如果一个模型只能从原有的数据、原有的算法推导出来结果,那不叫“涌现”,“涌现”一定能出现全新的功能。第三个,通用性,大模型不限于专门问题或者专门领域,它具有通用性,能够解决各类问题。当然,受限于模型目前的阶段,也不是所有问题都能用大模型解决,但是它有很强的推广性。ENTERED THE AGI ERA进入 AGI 时代AGI 时代下的开源与开放编辑/高琪在“2023 北京智源大会”上,北京智源人工智能研究院院长、北京大学多媒体信息处理全国重点实验室主任黄铁军发布智源进展报告。他认为,我们正处于
11、从 GAI(Generative Artificial Intelligence)往AGI(Artificial General Intelligence)行进的历史时期,实现 AGI 需要三条技术路线并进,当下大模型时代运用的是第一条技术路线,即大数据、自监督学习和大算力的合力。此外,黄铁军在大会上公布智源正式推出全面开源的“悟道 3.0”模型,并报告了大语言模型的评测体系“天秤”的进展。OPEN SOURCE AND OPENNESS IN THE ARTIFICIAL GENERAL INTELLIGENCE(AGI)ERA4849应用实践PRACTICAL APPLICATIONS 第
12、一个是视觉系列大模型。2023 年以来,智源连续发了 6 个视觉大模型,首先是十亿参数的视觉基础模型 EVA,它最重要的特点是通用性,这个模型通过语义学习和几何结构学习相结合,解决了视觉模型的通用性问题。在 ImageNet 分类、COCO 检测分割、视频分类等广泛视觉任务中取得了最强的性能,这些任务在当初都要一个个的专门模型去做,我们靠一个通用模型实现了所有专有模型的功能,而且性能比它们还要强。我们在此基础上又训练 EVA-CLIP 多模型预训练模型,它是零样本学习的基础模型。在 2023 年年初发布 5 Billion 版本,创造零样本学习的性能新高度,超越了此前最强的 OpenCLIP
13、模型,在 ImageNet的 OneK 零样本达到了 TOP1,达到 82%的准确率。去年发布的 EVA-CLIP One Billion 版本今年才被 Meta 发布的第二版模型追平。语言模型可以问答,视觉模型怎么提问?我们提出了“图像理解图像,图像解释图像,图像生成图像”的理念,把自然语言学习上下文的思想引入视觉模型。提出通用视觉模型 Painter,它以视觉作为建模核心思想,将图像作为输入输出模态,从而获得上下文的视觉信息,完成各种视觉任务。2023 年 4 月,智源推出首个利用视觉提示完成任意分割任务的通用模型SegGPT“一通百通”。SegGPT 是我们大模型进入通用视觉的里程碑,这
14、个模型和 Meta 的 SAM 在同一天发布,都是通用视觉的里程碑。SAM 模型最大的特点是一触即通,简单触碰点击就能把完整的物体分割出来,完美解决了图像分割问题,但是它只在一个物体上。SegGPT 是“一通百通”,它可以分割任意物体,包括物体的任意零件,甚至物体的不同表面,只要是相对具有物理意义的结构,它都可以分割出来。例如,SegGPT 可以做视频,选中第一帧视频,视频上的运动物体可以不用人的操作就被自动分割出来。它强大的通用能力、灵活的推理能力和自动视觉的分割能力,可以说几乎已经达到了通用模型的里程碑水平。这样的技术和模型,在自动驾驶领域、机器人领域、实体智能领域一定会发挥基础性的作用。
15、LAUNCHED FULLY OPEN-SOURCE ENLIGHTENMENT 3.0 MODEL推出全面开源的“悟道 3.0”模型这个模型发布之后,很多用户关注它能不能做零样本的视频编辑,这也是传统图像视频领域很重要的应用。我们已经实现了零样本的简单提示,虽然提示还是需要的,但不需要你提供样本去训练它,这个模型就可以完成原来各种视频的编辑任务。在这个基础上,我们进一步扩展了一个新的模型,一个接受多模态的输入、产生多模态输出的多模态大模型。这个模型能够在多模态的序列中补全一切,而且能生成多模态的预测。总的来说,把类似于语言上下文的一种学习能力引进图像之后,能够激发出更丰富、更让大家兴奋的新通
16、用智能。语言模型是大模型中竞争的热点,悟道3.0 正式发布语言大模型“悟道天鹰”,对大模型进行评测的一个体系,叫“天秤”Flag Eval。悟道天鹰 Aquila 语言大模型是第一个中英文双语大模型,它是支持商用、符合数据合规要求的数据大模型,所以大家可以放心去用,还可以放心商业化,因为智源是一个非营利机构,我们就是为公用发展提供技术的。悟道天鹰 Aquila 语言大模型,是在中英高质量合规的语料数据库基础上从零开始训练的模型,它通过数据质量的控制和多种训练的优化,实现了在更小的数据集、更短的训练时间内获得比其它开源模型更优的性能。这是一个系列模型,这次发布的 7B 和 33B,就是 70 亿
17、参数和 330亿参数的基础模型,AquilaChat 对话模型,也是这两个参数模型,以及 AquilaCode 文本代码生成模型。Aquila 基础模型(7B、33B)在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,在 Aquila 的训练过程中实现了比 Magtron+DeepSpeed ZeRO-2 将近倍的训练效率,所以我们有信心后续给大家提供更大规模、更适合产品化的模型。Aquila 模型已经具备了很强的对话能力。语言模型可以通过对话的方式理解用户意图,调用图像
18、生成模型来生成一幅图片,比如说“帮我生成一个唐装的图片,帮我生成一个机器人的图片”。如果你对它的生成结果不满意,没关系,你直接告诉它就行了。5051应用实践PRACTICAL APPLICATIONS 第一个是视觉系列大模型。2023 年以来,智源连续发了 6 个视觉大模型,首先是十亿参数的视觉基础模型 EVA,它最重要的特点是通用性,这个模型通过语义学习和几何结构学习相结合,解决了视觉模型的通用性问题。在 ImageNet 分类、COCO 检测分割、视频分类等广泛视觉任务中取得了最强的性能,这些任务在当初都要一个个的专门模型去做,我们靠一个通用模型实现了所有专有模型的功能,而且性能比它们还要
19、强。我们在此基础上又训练 EVA-CLIP 多模型预训练模型,它是零样本学习的基础模型。在 2023 年年初发布 5 Billion 版本,创造零样本学习的性能新高度,超越了此前最强的 OpenCLIP 模型,在 ImageNet的 OneK 零样本达到了 TOP1,达到 82%的准确率。去年发布的 EVA-CLIP One Billion 版本今年才被 Meta 发布的第二版模型追平。语言模型可以问答,视觉模型怎么提问?我们提出了“图像理解图像,图像解释图像,图像生成图像”的理念,把自然语言学习上下文的思想引入视觉模型。提出通用视觉模型 Painter,它以视觉作为建模核心思想,将图像作为输
20、入输出模态,从而获得上下文的视觉信息,完成各种视觉任务。2023 年 4 月,智源推出首个利用视觉提示完成任意分割任务的通用模型SegGPT“一通百通”。SegGPT 是我们大模型进入通用视觉的里程碑,这个模型和 Meta 的 SAM 在同一天发布,都是通用视觉的里程碑。SAM 模型最大的特点是一触即通,简单触碰点击就能把完整的物体分割出来,完美解决了图像分割问题,但是它只在一个物体上。SegGPT 是“一通百通”,它可以分割任意物体,包括物体的任意零件,甚至物体的不同表面,只要是相对具有物理意义的结构,它都可以分割出来。例如,SegGPT 可以做视频,选中第一帧视频,视频上的运动物体可以不用
21、人的操作就被自动分割出来。它强大的通用能力、灵活的推理能力和自动视觉的分割能力,可以说几乎已经达到了通用模型的里程碑水平。这样的技术和模型,在自动驾驶领域、机器人领域、实体智能领域一定会发挥基础性的作用。LAUNCHED FULLY OPEN-SOURCE ENLIGHTENMENT 3.0 MODEL推出全面开源的“悟道 3.0”模型这个模型发布之后,很多用户关注它能不能做零样本的视频编辑,这也是传统图像视频领域很重要的应用。我们已经实现了零样本的简单提示,虽然提示还是需要的,但不需要你提供样本去训练它,这个模型就可以完成原来各种视频的编辑任务。在这个基础上,我们进一步扩展了一个新的模型,一
22、个接受多模态的输入、产生多模态输出的多模态大模型。这个模型能够在多模态的序列中补全一切,而且能生成多模态的预测。总的来说,把类似于语言上下文的一种学习能力引进图像之后,能够激发出更丰富、更让大家兴奋的新通用智能。语言模型是大模型中竞争的热点,悟道3.0 正式发布语言大模型“悟道天鹰”,对大模型进行评测的一个体系,叫“天秤”Flag Eval。悟道天鹰 Aquila 语言大模型是第一个中英文双语大模型,它是支持商用、符合数据合规要求的数据大模型,所以大家可以放心去用,还可以放心商业化,因为智源是一个非营利机构,我们就是为公用发展提供技术的。悟道天鹰 Aquila 语言大模型,是在中英高质量合规的
23、语料数据库基础上从零开始训练的模型,它通过数据质量的控制和多种训练的优化,实现了在更小的数据集、更短的训练时间内获得比其它开源模型更优的性能。这是一个系列模型,这次发布的 7B 和 33B,就是 70 亿参数和 330亿参数的基础模型,AquilaChat 对话模型,也是这两个参数模型,以及 AquilaCode 文本代码生成模型。Aquila 基础模型(7B、33B)在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,在 Aquila 的训练过程中实现了比 Magtron
24、+DeepSpeed ZeRO-2 将近倍的训练效率,所以我们有信心后续给大家提供更大规模、更适合产品化的模型。Aquila 模型已经具备了很强的对话能力。语言模型可以通过对话的方式理解用户意图,调用图像生成模型来生成一幅图片,比如说“帮我生成一个唐装的图片,帮我生成一个机器人的图片”。如果你对它的生成结果不满意,没关系,你直接告诉它就行了。5051应用实践PRACTICAL APPLICATIONS 在技术上,我们在训练过程中实现了模型能力和指令微调的升级迭代,包括对数据集的筛选和优化,充分挖掘基础模型的潜力。AquilaChat 支持可扩展的特殊指令规范,可以根据你的需要再增加设计任务,你
25、可以把它定义出来,然后模型就按照你的工作要求自动完成任务。2022 年发布的 Aitdifus 的 8 种语言,2023 年升级为 18 种语言,它是全球支持语言种类最多的图像生成模型,也已经成为了国际上最热门的图文生成模型,因为支持的语言多,很多国家都可以用这个语言模型来生成他们喜欢的图像。AquilaCode-7B代码模型,是基于Aquila-7B基础模式的代码模型,它也是7B(70亿参数),用小数据集、小参数量实现了高性能,支持中英双语,也是性能最好的开源代码模型。这里使用的数据代码经过了高质量的合规处理,它使用合规的开源许可代码进行训练,所以大家可以放心地将它用于软件开发。Aquila
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AGI 时代 开放
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。