分享
分销 收藏 举报 申诉 / 72
播放页_导航下方通栏广告

类型2022年人工智能技术介绍和应用.pptx

  • 上传人:二***
  • 文档编号:12680033
  • 上传时间:2025-11-24
  • 格式:PPTX
  • 页数:72
  • 大小:3.62MB
  • 下载积分:5 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    2022 人工智能 技术 介绍 应用
    资源描述:
    Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,2,0,2,0,人工智能技术介绍和应用,目录content,第一节,人工智能技术概述,第二节,深度学习与国际象棋,第三节,智能问答,第四节,深度学习与智能围棋,第三节,更多人机交互大战,可以通过暴力搜索所有可能的对弈过,AlphaGoZero成功证明了在没有人类指导和经验的前提下,,1、选取2、展开3、评估4、倒传,在科学发展过程中,在那些已经建立起来的学科之,同时,增强神经网络估值的准,与世界棋王卡斯帕罗夫的人,2012年谷歌公司推出知识图谱搜索服务,国内互联,如今,Watson已经被运用到超过35个国家的17个产业领域,超过7.,这道题的回答让人大跌眼镜,主要原因是,围棋对弈过程可以看做一个马尔科夫过程:,法,即在通用处理器上执行运算分解任务,交给象棋加速芯片并行处理复杂的棋步自动推理,,人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),,和88的西洋跳棋Checkers相比,国际象棋的状态复杂,日韩数十位围棋高手快棋,在6局的人机对弈比赛中,“深蓝”并未占到什么便宜,,第一节,人工智能技术概述,自动化技术发展趋势,自动化技术是一门涉及学科较多、应用广泛的综合性系统工,程,其对象为大规模、复杂的工程和非工程系统,广义内涵包括三方面的含义:代替人体力劳动的机器人;代替,或辅助人脑力劳动的程序;对人机进行协调、管理、控制和优,化的智能系统,研究内容包括自动控制和信息处理两方面,应用包括过程,自动化、机械制造自动化、管理自动化和家庭自动化等,不断提高传统行业的技术水平和市场竞争力,并与,光电子、计算机、信息技术等融合和创新,不断创造和形成新的经济增长点和管理战略哲理,自动,化技,术,智能科学发展趋势,智能属于哲学问题,智能科学研究智能的本质和实现技,术,是由脑科学、认知科学、人工智能等综合形成的交叉,学科,脑科学从分子水平、神经回路、行为实验研究自然智能机,理,目的在于阐明人类大脑的结构与功能,以及人类行为,与心理活动的物质基础,认知科学是研究人类感知、学习、记忆、思维、意识等人,脑心智活动过程的科学,是心理学、信息学、神经科学和,自然哲学的交叉,人工智能是研究、开发用于模拟、延伸和扩展人,的智能的理论、方法、技术及应用系统的一门新的技术科学,智能,科学,自动化,人工智能,智能科学,技术,技术,在科学发展过程中,在那些已经建立起来的学科之,间,还存在着一些被人忽视的无人区,正是从这些领域,里可能得到最大的收获。,诺伯特维纳控制论,1948,人工智能技术的挑战,信息越来越多,甚至成,为垃圾,对信息的有效,组织和挖掘极度匮乏,需要更好地尊重、理解,未建立。,简单的体力劳动已可以被,机器所替代,但脑力劳动,人与信息的共生环境尚,特别是智力尚未完全转移,和扩展到机器上。,并满足人的各种需要,,以人为本,促进人与物,理时空环境的和谐发展。,人-信息,人-机器,人-环境,科技进步改变着我们的生活,但却使人们在信息、,机器高度密集的环境中,变得更为被动和无奈。,人工智能技术发展的特征,以人为本,人工智能,由人类设计,为人类服务,,本质为计算,基础为数据。,必须体现服务人类的特点,而,不应该伤害人类,,特别是不应该,有目的性地做出伤害人类的行为。,人工智能技术发展的特征,环境增强,人工智能,能感知环境,,能产生反应,,能与人交互,,能与人互补。,能够帮助人类做人类不擅长、不喜欢但机器能够完成的工作,,而人类则适合于去做更需要创造性、洞察力、想象力的工作。,人工智能技术发展的特征,学习适应,人工智能,有适应特性,有学习能力,,有演化迭代,有连接扩展。,人工智能,可以应对不断变化的现实环境,,从而使人工智能系统,在各行各业产生丰富的应用。,人机博弈,棋类游戏是人类智慧的结晶,自古以来就有着广泛的爱好者群体,也产生了一代又一代的偶像,级棋王。选择棋类游戏作为人工智能研究的对象,不仅是因为棋类游戏规则清晰,胜负判断一目,了然,而且也更容易在爱好者群体中产生共鸣,因此人工智能研究者前赴后继投身到对不同棋类,游戏的挑战中。,互动环节:,人机小挑战,机器学习之父,机器博弈的水平实际上代表了当时计算机体系架构与计算机科学,的最高水平。早在,1962,年,就职于IBM的,阿瑟,萨缪尔,就在内存仅为,32k的IBM 7090晶体管计算机上开发出了,西洋跳棋(,Checkers)AI,程序,并击败了当时全美最强的西洋棋选手之一的罗伯特尼雷,引,起了轰动。,值得一提的是,萨缪尔所研制的下棋程序是世界上第一个有自主,学习功能的游戏程序,因此他也被后人称之为“,机器学习之父,”。,阿瑟萨缪尔,里程碑事件,真正引起中国人广泛关注的机器博弈史上三个里程碑事件是:,1997年IBM公司,“更深的蓝”,(Deeper Blue)战胜世界国际,象棋棋王卡斯帕罗夫,这是基,于知识规则引擎和强大计算机,硬件的人工智能系统的胜利,2011年IBM公司的问答机器,人,“沃森”,在美国智力问答,竞赛节目中大胜人类冠军,,这是基于自然语言理解和知,识图谱的人工智能系统的胜,2016年谷歌公司,AlphaGo,战胜了围棋,世界冠军李世石,2017年初AlphaGo,升级版Master横扫全球60位顶尖高,手,这是基于蒙特卡洛树搜索和深,度学习的人工智能系统的胜利,深度学习与国际象棋,PART,2,机器学习,人机对抗历史,深蓝,成功秘诀,2017年9月,由中国科学院自动化研究所研制的人工智能程序“,化学习与自适应在线学习建立决策引擎,对海量用户,学习的能力使得它能不断学习进化。,人工智能技术介绍和应用,化学习与自适应在线学习建立决策引擎,对海量用户,水平,21天后达到AlphaGoMaster的水平。,Step 4值和策略网络进行再一次模拟。,同时,增强神经网络估值的准,果迭代更新转移概率和评估函数,间内完成走棋任务,必须要进行剪枝搜索。,在最后一局中,卡斯帕罗夫失去耐心,回到了“正常”的下,国际象棋,国际象棋起源于亚洲,后由阿拉伯人传入欧洲,成为国际通行棋种,也是一项受到广泛喜爱的智,力竞技运动,据称全世界有多达三亿的国际象棋爱好者,甚至在1924年曾一度被列为奥林匹克运动会,正式比赛项目。,国际象棋棋盘由横纵各8格、颜色一深一浅交错排列的,64个小方格组成,棋子共32个,分为黑白两方,每方各16,个。,和88的西洋跳棋Checkers相比,国际象棋的状态复杂,度(指从初始局面出发,产生的所有合法局面的总和)从,10,21,上升到,10,46,,博弈树复杂度(指从初始局面开始,其最,小搜索树的所有叶子节点的总和)也从,10,31,上升到,10,123,。,人机对抗历史,从1958年开始,人工智能研究者对国际象棋的挑战持续了半个多世纪:,1973,年,B.Slate和Atkin,开发了国际象棋软件,“CHESS4.0”,,成为未,来国际象棋AI程序基础;,1987,年,,美国卡内基梅隆大学设,计的国际象棋计算机程序,“深思”,(Deep Thought)以每秒钟75,万步的处理速度露面,其水平相,当于拥有,2450,国际等级分的棋手;,1989,年,,,“深思”,已经有6,台信息处理器,每秒处理速,度达到,200,万步,,但还是在,与世界棋王卡斯帕罗夫的人,机大战中以0比2败北;,1993,年,,“,深思”,二,代击败了丹麦国家队,,并在与前女子世界冠,军小波尔加的对抗中,获胜,。,1958,1973,1983,1987,1988,1989,1991,1993,1958,年,名为,“思考”,1983,年,,Ken,Thompson开发了国,际象棋硬件,“BELLE”,,达到,大,师水平,;,1988,年,,,“深思”,击败丹麦特级大师,拉尔森;,1991,年,,由CHESSBASE,公司研制的国际象棋计算,机程序,“弗里茨”,(Fretz)问世;,IBM704成为,第一台,能同人下国际象棋,的计算机,处理速,度每秒,200,步,;,深蓝一战卡斯帕罗夫,1995,年,,IBM公司设计了全球第一台采用并行化系统、以RS/6000SP,为基础、集成了总计256块处理器以及480颗专门为国际象棋对弈设计的,VLSI加速芯片的国际象棋计算机“深蓝”,重达1270公斤。,1996,年,2,月,10,日至,17,日,,为了纪念首台通用计算机,ENIAC诞生50周年,“深蓝”在美国费城向国际象棋世界冠,军、世界排名第一的加里卡斯帕罗夫发起了挑战。,在6局的人机对弈比赛中,“深蓝”并未占到什么便宜,,棋王卡斯帕罗夫以4比2的总比分轻松获胜,但“深蓝”赢得,了六场比赛中的一场胜利,这也是,计算机第一次在与顶级选,手的对弈中取得胜局,。,“深蓝”升级改造,第一次对决落败之后,,IBM,对“深蓝”计算机进行了升级,,97,型深蓝取名“更深的蓝”(,Deeper Blue)。,运算能力,“更深的蓝”(Deeper Blue)运算速度为,每秒,2,亿步棋,,计算能力为每,秒,113.8,亿次浮点运算,,是1996年版本的2倍,其运算能力在当时的全球,超级计算机中也能排在第259位。,即使按照一盘棋平均走80步,每步棋可能的落子位置为35个计算,其,状态复杂度和博弈树复杂度也远非超级计算机所能穷举,为了在合理的时,间内完成走棋任务,必须要进行,剪枝搜索,。,剪枝搜索,团队还丰富了象棋加速芯片中的象棋知识,使它能够识别不同的棋局,并从,众多可能性中找出最佳行棋方案。“更深的蓝”每秒可检索,1,亿到,2,亿个,棋局,,系统能够搜寻和估算出当前局面往后的12步行棋方案,最多可达,20,步,,而人类,棋手的极限是10步。,象棋知识,“更深的蓝”出师告捷,1997,年,5,月,,IBM公司再次邀请加里卡斯帕罗夫到美国纽约曼哈顿进行第二次人机大战,同样是6盘棋制比,赛。,在前5局里,卡斯帕罗夫为了避免在计算力方面用人脑与“更深的蓝”进行直接较量,他采取了独特的行棋策,略来对付“更深的蓝”,但是这个奇招并没有取得明显的效果,“更深的蓝”总是能够凭借准确无误的局面判断,和精确的计算给出最强的应手。,最终前五局,双方,2.5,对,2.5,打平,,尤其是第三、第四、第五局连续三场和局,卡斯帕罗夫的助手看见他坐在房间,的角落里,双手捂面,仿佛已经失去了斗志。,在最后一局中,卡斯帕罗夫失去耐心,回到了“正常”的下,法,在第七回合就犯了一个不可挽回的低级错误,局势急转直下,,最终在第六盘决胜局中仅仅走了19步就向“更深的蓝”俯首称臣。,最终,卡斯帕罗夫,1,胜,2,负,3,平,以,2.5,比,3.5,的总比分,输给“更深,的蓝”。“更深的蓝”赢得了这场备受世人瞩目的人机大战,也,标志着国际象棋近,2000,年,的发展历史走向了新时代。,人机博弈胜负已明,“深蓝”并不是终结,卡斯帕罗夫也没有服气。1999,年,“弗里茨”升级为“更弗里茨”(Deep Fritz),并,在,2001,年击败了卡斯帕罗夫,。,当今国际象棋男子等级分排名最高的选手是出生于,1990年的挪威特级大师卡尔森(MagnusCarlsen),他,的等级分是2863分,而至少有10款开源国际象棋引擎等,级分达到了,3000,分以上,。,人与机器的国际象棋之争已胜负分明,国际象棋领域的人机博弈也画上了句号,取而代之的是2010年开,始举办的机机博弈国际象棋引擎竞赛TCEC(ThoresenChess Engine Competition)。,加速芯片:“深蓝”的成功秘诀,“深蓝”计算机在硬件上将,通用计算机处理器与象棋加速芯片相结合,,采用混合决策的方,法,即在通用处理器上执行运算分解任务,交给象棋加速芯片并行处理复杂的棋步自动推理,,然后将推理得到的可能行棋方案结果返回通用处理器,最后由通用处理器决策出最终的行棋方,案。,97型深蓝与1996年相比,运算速度差不,多提高了两倍,象棋加速芯片的升级功不可,没。升级后的象棋加速芯片能够从棋局中抽,取更多的特征,并在有限的时间内计算出当,前盘面往后,12,步甚至,20,步,的行棋方案,从,而让“深蓝”更准确地评估盘面整体局势。,知识规则引擎:“深蓝”的成功秘诀,“深蓝”在软件设计上采用了超大规,模,知识库结合优化搜索,的方法。一方面,,“深蓝”存储了国际象棋100多年来,70,万,份国际特级大师的棋谱,利用知识库在开,局和残局阶段节省处理时间并得出更合理,的行棋方案。,剪枝搜索算法示意图,另一方面,“深蓝”采用,Alpha-Beta,剪枝搜索算法,和基于规则的方法对棋局进行评价,通过,缩小搜索空间的上界和下界提高搜索效率,同时根据棋子的重要程度、棋子的位置、棋子对的关,系等特征对棋局进行更有效的评价。,智力问答,PART,3,Watson,自然语言处理,知识图谱,自主学习,Watson认知计算系统平台问世,在“深蓝”之后,IBM公司又选择了一个新的领域挑战人类极限,DeepQA,,不仅仅把,DeepQA项目看成一个问答游戏系统,而且将其称之为认知计算系统平台。认知计算被定义为一种全,新的计算模式,它包含,数据分析、自然语言处理和机器学习领域,的大量技术创新,能够帮助人类从大量,非结构化数据中找出有用的答案。,IBM公司对其寄予厚望,并用公司创始人ThomasJWatson的名字将这个平台命名为,Watson,。,如果说“深蓝”只是在做非常大规模的计算,是人类数学能力,的体现,那么Watson就是将机器学习、大规模并行计算、语义处,理等领域整合在一个体系架构下来理解,人类自然语言,的尝试。,Watson问答系统能力解析,理解,与用户进行交互,根据用户问题通过自然语言,(Understandin,理解技术分析包括结构化数据和图文、图像等非结构化所有类型的数据,最终实现用音视频、,g),户提出问题的有效应答。通过假设生成,透过数据揭示洞察、模式和关,推理,系,将散落在各处的知识片段连接起来进行推,理、分析、对比、归纳、总结和论证,从而获取深入的理解和决策的证据。,(Reasoning),通过以证据为基础的学习能力,从大数据中快,学习(Learning),速提取关键信息,像人类一样学习和记忆这些知识,并可以通过专家训练,在不断与人的交,互中通过经验学习来获取反馈,优化模型。通过精细的个性化分析能力,获得用户的语义、,交互,情绪等信息,进一步利用文本分析与心理语言学模型对海量数据进行深入分析,掌握用户个,(interacting),性特质,构建全方位用户画像,实现更加自然,的互动交流。,Watson研发团队全面备战,Watson包括,90,台,IBM,小型机服务器、,360个Power 750,系列处理器,以及IBM研发的DeepQA系,统。Power 750系列处理器是当时RISC(精简指令集计算机)架构中最强的处理器,可以支持Watson,在不超过3秒钟的时间内得出可靠答案。,算法,研究,IBM公司调动其全球研发团队参与到DeepQA项目中,这些团队分工极为,细致,让它的各个团队都发挥出最大的效率,目标就是在2011年的综艺节目,危险边缘(Quiz Show Jeopardy!)中一鸣惊人。,问答搜索,:以色列海法团队负责深度开放域问答系统工程的搜索;,词语连接,:日本东京团队负责在问答中将词意和词语连接;,数据支持,:中国北京和上海团队则负责以不同的资源给Watson提供数据,支持,算法研究,:此外还有专门研究算法的团队和研究博弈下注策略的团队等。,团,队,问答,搜索,数据,支持,分,工,词语,连接,Watson的工作过程,回答问题,判断决策,答案生成,7.语音合,成引擎,问题分析,6.运用算法评,估可能答案,,将答案,可信度最高且,超过51%,执,灯。行器按下信号,关系抽取,5.在自身知识图,实体抽取,谱中搜索并汇,集特定实体的,属性信息,实,现实体属性完,整勾画。,文本转,换成语,音并播,放出来,,完成回,答,。,4.逐级分解每,获得所有子问个问题,直到,题的答案。,文字识别,3.提取文字结,构信息,减少,冗余搜索。,2.提取专有名,词基本信息,,为其打上分类标签。,1.摄像头拍,照,OCR识,别文字,得,到文字文本。,Watson挑战成功,2011,年,2,月,14,日,-16,日,,做好一切准备的Watson开始了与人类的对决。Watson在第一轮中就奠,定了领先地位,但在比赛中出现了几个糟糕的回答。,比如一个美国城市类的问题,Watson的答案为多伦多。这道题的回答让人大跌眼镜,主要原因是,Watson,没有为答案设置边缘条件,。,另一道回答奥利奥饼干是什么时候被推出的时候,几秒前人类选手Jennings回答相同问题时刚被告,知“20年”错了,Watson还是继续回答“1920年”。这是因为研究团队为了,简化Watson的编程,,让,它,对其他玩家的回答“装聋作哑”,,结果吃了大亏。,最终比分成绩为,Watson:$77147,,Jennings:,$24000,Rutter:$21600,,比赛尘埃落定,人类已经,和Watson相距太远。,Watson进入商业化运营阶段,借着这次Watson人机大战的风头,2012年IBM公司的小型机占据了全球将近2/3的市场份额,,Watson也于2013年开始进入商业化运营,陆续推出的相关产品:,Watson相关产品,Watson发现顾,问(Watson,Discovery,Advisor),Watson参与顾,问(Watson,Engagement,Advisor),Watson分析,(Watson,Analytics),Watson探索,(Watson,Explorer),Watson知识工,作室(Watson,Knowledge,Studio),Watson肿瘤治,疗(Watson,for Oncology),Watson临床试,验匹配,Clinical Trial(Watson for,Matching),如今,Watson已经被运用到超过,35个,国家的,17个,产业领域,超过,7.7,万名开发者参与到Watson,Developer Cloud平台来实施他们的商业梦想,Watson API的月调用量也已高达,13,亿,次,并仍在增长。,Watson成功秘诀:自然语言处理,自然语言处理,研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是计算,机科学与人工智能研究中的重要方向之一。,“Jeopardy!”,而言规则很简单,但是对于Watson则意味着众,多挑战。,它不仅要理解主持人提问的自然语言,还需,要分析这些语言是否包含讽刺、双关、修饰等,,以正确判断题目的意思,并评估各种答案的可能,性,给出最后的选择。,这类问答类节目,对于人类,自然语言处理技术广泛应用,Watson的成功得益于自然语言处理技术多年的积累,同样也带动了这个领域进入了一个更,加快速的发展阶段:,2011年10月苹果公司在发布新品时集成,Siri,智能语音助手,,把聊天问答系统带入了成熟商业,化阶段;,2013年谷歌公司开源,Word2Vec,引爆深度学习这个新的热点,机器翻译、文档摘要、关系抽,取等任务不断取得重要进展,从此人工智能走向第三次高潮。,苹果Siri智能语音助手,谷歌公司开源Word2Vec,Watson成功秘诀:知识图谱,知识图谱,本质上是一种基于图的数据结构,由节点(Point)和边(Edge),组成。在知识图谱中,每个节点表示现实世界中存在的“实体”,每条边为实,体与实体之间的“关系”。可以说,知识图谱就是把异构信息连接在一起而得,到的一个关系网络,提供了从“关系”的角度去分析问题的能力。,2012年谷歌公司推出知识图谱搜索服务,国内互联,网公司百度和搜狗也分别推出,“知心”和“知立方”,来改进其搜索质量。在搜索引擎中引入知识图谱大幅,的地提升和优化了搜索体验。,谷歌改进知识图谱添加比较及过滤等新功能,知识图谱的广泛应用,问,答,知识图谱也被广泛应用于聊天机器人,和问答系统中,用于辅助深度理解人类的语,言和支持推理,并提升人机问答的用户体验。,此外,在,金融、农业、电商、医疗健康、,环境保护,等垂直领域,知识图谱同样得到了,广泛的应用。,系,环,知,统,识,金,保,医,融,图,谱,疗,农,健,康,业,电,商,围棋,PART,4,AlphaGo,机器学习,蒙特卡洛树搜索,深度学习,围棋复杂度增加,8*8格国际象棋的状态复杂度为,10,46,,博弈树复杂度为,10,123,。,19*19格的围棋,其状态复杂度已上升到,10,172,,博弈树,复杂,度则达到惊人的,10,360,,因此也,被视为人类在棋类人机对抗中最后的堡垒。,国际象棋,围棋,人机对抗的尝试与探索,在很长一段时间里,静态方法成了主流研究,方向,中山大学化学系教授陈志行开发的围棋博,弈程序“手谈”和开源软件GNU GO在2003年以,前能够在9*9围棋中达到人类,5-7,级水平。,静,态,方,法,陈志行,手谈,2006年S.Gelly等人提出的UCT算法(Upper Confidence Bound Apply to Tree,上限置,信匙间算法),该算法在蒙特卡洛树搜索中使用UCB公式解决了探索和利用的平衡,并采用随,机模拟对围棋局面进行评价。,该程序的胜率竟然比先前最先进的蒙特卡罗扩展算法高出了几乎一倍,但它也仅能在9路围,棋中偶尔战胜人类职业棋手,在19路围棋中还远远不能与人类抗衡。,UCT,算,法,AlphaGo,横空出世,2016,年D.Silver等人在世界顶级科学杂志,Nature发表文章,称被谷歌公司收购的,DeepMind团队开发出AlphaGo在没有任何让,子情况下,以,5:0,完胜欧洲围棋冠军、职业二段,选手樊麾。,AlphaGo大战樊麾,这是围棋历史上一次史无前例的突破,人工智能程序能在不让子的情况下,第一次在完,整的围棋竞技中击败专业选手。,AlphaGo,系统简介,监督、强化学,策略、价值网,该系统通过对,16,万,局人类高手棋谱中的,习,络,3000,万,手盘面进行监督学习和强化学习;,使用,策略网络和估值网络,实现落子决策和,系统,局势评估;,蒙特卡洛算法,通过与改善了搜索决策的质量;,蒙特卡洛树搜索算法,结合,极大地,异步分布并行,算法,提出,异步分布式并行算法,,使其可运行于,CPU/GPU集群上。,AlphaGo,所向披靡,2016,年,3月,AlphaGo,与,李世石,进行围棋人机,大战,以,4,比,1,的总比分,获胜;,2016,年末,2017,年初,,,它以,Master,为帐号与中,日韩数十位围棋高手快棋,对决,连续,60,局全胜,。,2017,年,5,月,在中国乌镇,围棋峰会上,它与,柯洁,对,战,以,3,比,0,的总比分获,胜。,AlphaGo大战李世石,Master大战聂卫平,AlphaGo大战柯洁,围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平,其最新版本自我估分在,4500,分,左右,实力水平大约在13段左右,人类选手中已然无敌。,AlphaGo,新技能,深度,学习,AlphaGo通过学习大量棋谱,以及更大规模的自我对弈完成学习,这种,深度,学习,的能力使得它能不断学习进化。,发现,AlphaGo发现了人类没有的围棋着法,初步展示了机器发现,“新事物”,新技能,的创造性。这意味着它的增强学习算法可以从大数据中发现新的规律和,知识,为人类扩展自己的知识体系开辟了新的认知通道。,新着法,棋感,知觉,AlphaGo展现了曾被认为是人类独有、计算机难以做到的“,棋感直觉,”这些,技术使得人工智能程序初步具备了既可以考虑局部得失,又可以考虑全局,态势的能力,从而具备了一种全局性“直觉”能力。,AlphaGoZero,青出于蓝,学习策略,整合策略、,舍弃快速,引入,价值网络,2.,舍弃快速走子网络,,不再,进行随机模拟,而是完全使用,神经网络得到的结果替换随机,模拟,从而在提升学习速率的,同时,增强神经网络估值的准,确性。,走子网络,残差结构,1.AlphaGo Zero将,策略网络和,价值网络,整合在一起,使用纯粹,的深度强化学习方法进行端到端,的自我对弈学习,神经网络的权,值完全从随机初始化开始,使用,强化学习进行自我博弈和提升。,3.AlphaGo Zero神经网络中还,引入了残差结构,,可使用更深,的神经网络进行特征表征提取,,从而能在更加复杂的棋盘局面,中进行学习。,AlphaGoZero,青出于蓝,硬件结构,AlphaGo最高需要,1920,块,CPU,和,280,块,GPU,训练,AlphaGoLee用了,176,块,GPU,和,48,块,TPU,,而AlphaGoZero仅仅使用了,单机,4,块,TPU,便完成了训练任,务。,AlphaGoZero仅用3天的时间便达到了AlphaGoLee的,水平,,21,天后达到AlphaGoMaster的水平。,AlphaGoZero成功证明了在没有人类指导和经验的前提下,,深度强化学习方法在围棋领域里仍然能够出色的完成指定的任,务,甚至于比有人类经验知识指导时,完成的更加出色。,AlphaGo,成功秘诀:蒙特卡洛树搜,索,在机器博弈中,每步行棋方案的运算时间、堆栈空间都是有限的,只能给出局部最优解,因此,2006年提出的,蒙特卡洛树搜索就成为随机搜索算法的首选,。,它结合了,随机模拟的一般性和树搜索的准确性,,近年来在围棋等完全信息博弈、多人,博弈及随机类博弈难题上取得了成功应用。理论上,蒙特卡洛树搜索可被用在以状态,,行动定义并用模拟预测输出结果的任何领域。,应用,意义,它结合了,广度优先搜索和深度优先搜索,,会较好地集中到“更值得搜索的变化”(虽,然不一定准确),同时可以给出一个同样不怎么准确的全局评估结果,最后随着搜索,树的自动生长,可以保证在足够大的运算能力和足够长的时间后收敛到完美解。,AlphaGo,成功秘诀:强化学习,机器学习,有监督学习,无监督学习,强化学习,Supervised,Unsupervised,Reinforcement,目标:,Learning,从一个已经标记的训,练集中进行学习。,Learning,Learning,目标:从一堆未标记样本中,发现隐藏的结构。,目标:,在当前行动和未来状态中获得最,大回报。,在边获得样例边学习的过程中,,不断迭代“在当前模型的情况下,如何,选择下一步的行动才对完善当前的模型,最有利”的过程直到模型收敛。,强化学习的广泛应用,强化学习在机器博弈以外还有很多应用,,例如,无人驾驶和广告投放,等。,广告投放,阿里巴巴公司在双11推荐场景中,使用了,深度强,化学习与自适应,在线学习建立决策引擎,对海量用户,行为以及百亿级商品特征进行实时分析,提高人和商,品的配对效率,将手机用户点击率提升了10-20%。,无人驾驶,为什么做围棋AI?,0,0,人机大战:深度学习,算法的标志性成果,1,标志性,3,最复杂与博弈复杂度(注:状态复杂度)的智力游,戏:看似简单,实为复杂,,具有空间10的170次方状态复杂,公认是人工智能领域长期,以来的重大挑战,0,0,接近人类,2,挑战,4,涉及逻辑推理优化选择等多种人类智能,形象思维,,(注:国际象棋只有逻辑推,理,没有形象思维),国际学术界曾经普遍认为解,决围棋问题需要间15-20年时,GoogleDeepmind简介,创新,性,投入力,度,业内龙头,目前技术优势:起步早,,,算法新,,,技术强,,,资源雄厚,最近一年专注于强化学习研究,拟于近期公布新论文和数据,,,并从此退出围棋,AI,领域,传统围棋AI算法MCTS(蒙特卡洛树搜索),动态博弈问题,双人,一人一步,双方信息完备(棋类完全信息,牌类不完全信息),零和,计算机下棋,棋类要素的数字化恰当的数据结构,棋盘、棋子、棋规(着法规则,胜负规则),用着法推演局面博弈树展开,从有利局面选择当前着法博弈搜索,局面评估指标定义与综合,展开深度为4的博弈树,本方,Ply0,对方,Ply1,根节点为当前局面,叶节点为展开终点,双方轮流出手,偶数层为本方,奇数层为对方,本方,Ply2,对方,Ply3,本方,Ply4,围棋落子蒙特卡洛数学模型及评估,围棋对弈过程可以看做一个马尔科夫过程:,五元组:T,S,A(i),P(|i,a),r(i,a),T:决策时刻,S:状态空间,S=i,A(i):可行动集合(可落子点),P(|i,a):状态i下选择行动a的概率,r(i,a):状态i下选择行动a后课获得的收益,从当前局面的所有可落子点中随机(或者给胜率高的点分配更多的,计算力)选择一个点落子,重复以上过程,直到胜负可判断为止,经多次模拟后(计算越多越精确),选择胜率最大的点落子,传统围棋AI算法数学模型MCTS(蒙特卡洛树,搜索),基本思想与特点:,-将可能出现的状态转移过程用状态树表示,-从初始状态开始重复抽样,逐步扩展树中的节点,-某个状态再次被访问时,可以利用已有的结果,提高了效率,-在抽样过程中可以随时得到行为的评价,选择-从根节点出发自上而下地选择一个落子点,扩展-向选定的点添加一个或多个子节点,模拟-对扩展出的节点用蒙特卡洛方法进行模拟,回溯-根据模拟结果依次向上更新祖先节点估计值,围棋是完全信息博弈,从理论上来说,可以通过暴力搜索所有可能的对弈过,程来确定最优的走法,AlphaGo的实现原理,控制宽度,(250),基本算法,Policy,Network,(策略网络),每个卷积核13个卷积层3,*3每层,参数个数192个卷积核800万,,+GPU3ms/步,预测准确率57%,MCTS,(蒙特卡洛树搜索),给胜率高的点分配更多的计算力任意时间算法,计算越多越精确,1、选取2、展开3、评估4、倒传,控制深度,(150),快速模拟,Rollout(随机模拟走子),ValueNetwork(价值网络),在每个分支节点直接判断形势与Rollout随机模拟相结合,互为补充,通过随机模拟走子胜率来判定形势速度很快(1ms/盘),随机性与合理性的平衡,Policy Network策略网络:落子棋感,深度神经网络的有监督学习,目标是获得在围棋盘面下的落子棋感,学习职业棋手和业余高段棋手的棋谱(数十万份棋谱,上亿数量级的落子方式),把当前局面作为输入,预测下一步的走棋。它的预测不只给出最强的一手,而是对棋盘,上所有可能的下一着给一个分数,用Policy Network作为第一感,将计算力分配到最有希望的选点,分枝数从上百个减少到几个,优先计算PolicyNetwork分数高的点,计算力充沛时,适当分配到其他分值较低的点,3224,2,4855,2,12827,2,2048,2048,PolicyNetwork输入特征,19213,2,19213,2,12813,2,2,485,2,1283,2,1923,2,1923,2,311,485,2,2,1000,1283,1923,2,1923,2,局部感知域,权重共享,特征训练,卷积层+池化层,2,12827,2,19213,2,19213,2,12813,2,4855,2048,2048,模型结构,13个卷积层,每层192个3*3卷积核,数百万个参数,训练数据,KGS 6d以上对局,17万,职业对局8万。,训练数据量5000万+,训练时间几十天,运算速度,GPU,3ms,预测准确率,57%,左右互博,自我进化,强化学习,(RL),Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环,境s,给Agent,一个,reward,Agent然后继续和环境交互。根据游戏结,果迭代更新转移概率和评估函数,神经网络结构与策略网络相同,训练方法:自我对局,目标:校正价值导向,将策略网络权值作为初始值,自我对弈更新权值,从而提升棋力,Pros:棋艺更高(win 80%of the games with SL policy network),Cons:走法集中,不适应,MCTS,多搜索范围的需求,Fast-Rollout快速走子,Rollout(随机模拟走子),通过随机模拟走子胜率来判定形势,速度快,随机性,合理性的平衡,原因:1.策略网络的运行速度较慢(3ms),快速走子在2us,2.用来评估盘面。,在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模,拟几次算平均值,效果未必不好。提升棋力,结构:局部特征匹配+线性回归,特征:围棋专业知识,Value Network:胜负棋感,形势判断:,-1:白棋必胜,0:黑棋优势,1:黑棋必胜,深度神经网络的增强型学习(,DeepMind独创,),通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局),获取在围棋盘面的胜负棋感(,注:对每一个落子点给一个当时的快速的胜负,感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉,)(,通过,AlphaGo几千万盘的训练学习得来的,),Value Network模型,模型结构,13个卷积层,每层192个卷积核,每个卷积核3*3,数百万个参数,训练数据,Policy Network自我对弈棋谱。3000万+,特定盘面+胜负结果,训练时间几十天,运算速度,GPU,3ms,方法:,在每个分支节点,使用Value Network直接判断形势,与Rollout随机模拟相结合,互为补充,效果:,职业水平,AlphaGo,Put-Together,MCTS,在对局中实时搜索,Step 1可能性大的落子拓展节点:基于策略网络落子,,Step 2同时使用估值网络和快速走子,:对未来走势进行评估,,综合两者预测未来走法,Step 3走法的:评估结果作为下一步Q值。重新模拟。,Step 4值和策略网络进行再一次模拟。:结合下一步走法的Q,如果出现同样走法,均。新分数=调整后的初始分Q值起平,+0.5*+快速走棋通过模拟(策略网络)得到的赢棋概率+,0.5*估值网络的局面评估分,Step 5或者timeout:反复循环直到,选择被选择次n次,,数最多的走法作为下一步,AlphaGoZero,老大AlphaGoLee,2016年3月4:1打败韩国棋手李世石,老二AlphaGo,Master,2017,年5月3:0打败中国棋手柯洁,老三AlphaGoZero,2017年10月宣布自学围棋40天,打败所有人,规则,老,三,学,棋,过,程,棋盘/黑子/白子,棋子被围起来就死,发现了如果先占,住棋盘的边和角,,学会了如何,打劫、,征子,刚开始,随,机下子,热衷于吃子,,完全不顾死活,懂得看,棋形,后面占便宜,棋士柯洁10月19日02:22,一个纯净、纯粹自我学习的AlphaGo,是最强的.对于AlphaGo的自我进步,来讲.人类太多余了,老,三,战,绩,第3天,下了490万局棋,打败老大,第21天,败了老二,第40天,完整走过了一个人类棋手学棋的全过程,AlphaGoZero,解析,人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),,阿法元不再被人类认知所局限,而能够发现新知识,发展新策略,区别1:特征提取层采用40个残差模块,每个模块包含2个卷积层。运用残差模块提升了网,络深度,更深的网络能更有效地直接从棋盘上提取特征,区别2:同时训练走子策略(policy)网络和胜率值,(value)网络,启示,深度学习训练过程需要消耗大量人类标,注样本,而这对于小样本应用领域(比如,医疗图像处理)是不可能办到的。所以减,少样本和人类标注的方法非常重要,开局和收官和专业棋手的下法并无区别,,但是中盘难于理解;机器经验与人类经,验有很大差别,我们又该如何去选择和,利用呢?,智能围棋与蒙特卡洛树搜索,蒙特卡洛树搜索:搜索验证,没有棋感直觉不行,完全依赖棋感直觉也不行,直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证,AlphaGo使用蒙特卡洛树搜索,对落子棋感和胜负感进行计算验证。,
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:2022年人工智能技术介绍和应用.pptx
    链接地址:https://www.zixin.com.cn/doc/12680033.html
    页脚通栏广告

    Copyright ©2010-2025   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork