分享
分销 收藏 举报 申诉 / 97
播放页_导航下方通栏广告

类型高级人工智能贝叶斯公式.ppt

  • 上传人:xrp****65
  • 文档编号:13089879
  • 上传时间:2026-01-14
  • 格式:PPT
  • 页数:97
  • 大小:744KB
  • 下载积分:10 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    高级 人工智能 贝叶斯 公式
    资源描述:
    ,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,史忠植 高级人工智能,*,高级人工智能,第六章 概率推理,史忠植,中国科学院计算技术所,2026/1/14 周三,1,史忠植 高级人工智能,4.1,概述,4.2贝叶斯概率基础,4.3贝叶斯学习理论,4.4简单贝叶斯学习模型,4.5贝叶斯网络的建造,4.6主动贝叶斯网络,4.7贝叶斯潜在语义模型,4.8,贝叶斯网络的证据推理,内容提要,贝叶斯网络,是什么,贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。,贝叶斯方法正在以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。,2026/1/14 周三,3,史忠植 高级人工智能,贝叶斯网络,是什么,贝叶斯(,Reverend Thomas,Bayes,1702-1761,),学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方,这一论文在他生前并没有发表,而是在他死后,由他的朋友发表的。著名的数学家拉普拉斯(,Laplace,P.S.,),用贝叶斯的方法导出了重要的“相继律”,贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍接受。,2026/1/14 周三,4,史忠植 高级人工智能,贝叶斯网络,是什么,二十世纪初,意大利的菲纳特(,B.de,Finetti,),以及英国的杰弗莱(,Jeffreys,H.,),都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后,瓦尔德(,Wald,A.,),提出了统计的决策理论,在这一理论中,贝叶斯解占有重要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。,1958,年英国最悠久的统计杂志,Biometrika,全文重新刊登了贝叶斯的论文,,20,世纪,50,年代,以罗宾斯(,Robbins H.,),为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。,2026/1/14 周三,5,史忠植 高级人工智能,贝叶斯网络,是什么,随着人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以前有了很大的变化。,80,年代贝叶斯网络用于专家系统的知识表示,,90,年代进一步研究可学习的贝叶斯网络,用于数据采掘和机器学习。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖了人工智能的大部分领域,包括因果推理、不确定性知识表达、模式识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊物,ISBA,2026/1/14 周三,6,史忠植 高级人工智能,贝叶斯网络,的应用领域,辅助智能决策,数据融合,模式识别,医疗诊断,文本理解,数据挖掘,2026/1/14 周三,7,史忠植 高级人工智能,统计概率,统计概率:若在大量重复试验中,事件,A,发生的频率稳定地接近于一个固定的常数,p,,它表明事件,A,出现的可能性大小,则称此常数,p,为事件,A,发生的概率,记为,P(A),即,pP(A),可见概率就是频率的稳定中心。任何事件,A,的概率为不大于1的非负实数,即,0,P(A)1,2026/1/14 周三,8,史忠植 高级人工智能,条件,概率,条件概率,:,我们把事件,B,已经出现的条件下,事件,A,发生的概率记做为,P(A|B),。,并称之为在,B,出现的条件下,A,出现的条件概率,而称,P(A),为无条件概率。,若事件,A,与,B,中的任一个出现,并不影响另一事件出现的概率,即当,P(A)P(AB),或,P(B)P(BA),时,则称,A,与,B,是相互独立的事件。,2026/1/14 周三,9,史忠植 高级人工智能,加法定理,两个不相容(互斥)事件之和的概率,等于两个事件概率之和,即,P(A+B)P(A)P(B),若,A、B,为两任意事件,则:,P(A+B)P(A)P(B)P(AB),2026/1/14 周三,10,史忠植 高级人工智能,乘法定理,设,A、B,为两个任意的非零事件,则其乘积的概率等于,A(,或,B),的概率与在,A(,或,B),出现的条件下,B(,或,A),出现的条件概率的乘积。,P(A,B)P(A),P(B|A),或,P(A,B)P(B),P(A|B),2026/1/14 周三,11,史忠植 高级人工智能,贝叶斯网络定义,贝叶斯网络是表示变量间概率依赖关系的有向无环图,这里每个节点表示领域变量,每条边表示变量间的概率依赖关系,同时对每个节点都对应着一个条件概率分布表(,CPT),,指明了该变量与父节点之间概率依赖的数量关系。,2026/1/14 周三,12,史忠植 高级人工智能,贝叶斯网的表示方法,=,P(A)P(S)P(T|A)P(L|S)P(B|S)P(C|T,L)P(D|T,L,B),P(A,S,T,L,B,C,D),条件独立性假设,有效的表示,CPT:,T L B D=0 D=1,0 0 0 0.1 0.9,0 0 1 0.7 0.3,0 1 0 0.8 0.2,0 1 1 0.9 0.1,.,Lung Cancer,Smoking,Chest X-ray,Bronchitis,Dyspnoea,Tuberculosis,Visit to Asia,P(D|T,L,B),P(B|S),P(S),P(C|T,L),P(L|S),P(A),P(T|A),贝叶斯网络是表示变量间概率依赖关系的有向无环图,2026/1/14 周三,13,史忠植 高级人工智能,先验概率,先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率,该类概率没能经过实验证实,属于检验前的概率,所以称之为先验概率。先验概率一般分为两类,一是客观先验概率,是指利用过去的历史资料计算得到的概率;二是主观先验概率,是指在无历史资料或历史资料不全的时候,只能凭借人们的主观经验来判断取得的概率。,2026/1/14 周三,14,史忠植 高级人工智能,后验概率,后验概率一般是指利用贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率进行修正后得到的更符合实际的概率。,2026/1/14 周三,15,史忠植 高级人工智能,联合,概率,联合概率也叫乘法公式,是指两个任意事件的乘积的概率,或称之为交事件的概率。,2026/1/14 周三,16,史忠植 高级人工智能,设,A,1,A,2,A,n,是两两互斥的事件,且,P,(,A,i,)0,,i=,1,2,n,A,1,+A,2,+,+A,n,=,全概率公式,A,1,A,2,A,3,A,n,B,另有一事件,B,=,B,A,1,+BA,2,+,+,BA,n,称满足上述条件的,A,1,A,2,A,n,为,完备事件组,.,2026/1/14 周三,17,史忠植 高级人工智能,全,概率,例:某汽车公司下属有两个汽车制造厂,全部产品的40%由甲厂生产,60%由乙厂生产.而甲乙二厂生产的汽车的不合格率分别为1%,2%.求从公司生产的汽车中随机抽取一辆为不合品的概率.,解:设,A,1,A,2,分别表示甲厂汽车 乙厂汽车,B,表示不合格品,P(A,1,)=0.4,P(A,2,)=0.6,P(B/A,1,)=0.01,P(B/A,2,)=0.02,A,1,A,2,=,P(B)=P(A,1,B+A,2,B),=,P(A,1,B)+P(A,2,B),=,P(A,1,)P(B/A,1,)+P(A,2,)P(B/A,2,),=0.40.01+0.60.02,=0.016,甲,乙,B,A,1,A,2,2026/1/14 周三,18,史忠植 高级人工智能,由此可以形象地把全概率公式看成为,“,由原因推结果,”,每个原因对结果的发生有一定的“作用”,即结果发生的可能性与各种原因的“作用”大小有关.全概率公式表达了它们之间的关系.,诸,A,i,是原因,B,是结果,A,1,A,2,A,3,A,4,A,5,A,6,A,7,A,8,B,2026/1/14 周三,19,史忠植 高级人工智能,实际中还有下面一类问题,是,“,已知结果求原因,”,引例:某汽车公司下属有两个汽车制造厂,全部,产品的40%由甲厂生产,60%由乙厂生产.而甲,乙二厂生产的汽车的不合格率分别为1%,2%.,从公司生产的汽车中随机抽取一辆为不合品,甲,乙,B,A,1,A,2,问它是甲厂生产的可能性多大?,即求:,P(A,1,/B),2026/1/14 周三,20,史忠植 高级人工智能,P(A,1,)=0.4,P(A,2,)=0.6,P(B/A,1,)=0.01,P(B/A,2,)=0.02,由题可知,甲,乙,B,A,1,A,2,如何求,P(A,1,/B),P(A,1,/B),=,2026/1/14 周三,21,史忠植 高级人工智能,有三个箱子,分别编号为1,2,3,1号箱装有1个红球4个白球,2号箱装有2红球3白球,3号箱装有3红球.某人从三箱中任取一箱,从中任意摸出一球,,发现是红球,求该球是取自1号箱的概率,.,1,2,3,1红4白,?,2026/1/14 周三,22,史忠植 高级人工智能,记,A,i,=,球取自,i,号箱,i,=1,2,3;,B,=,取得红球,求,P,(,A,1,|,B,),1,2,3,1红4白,?,P(A,1,)=1/3,=,P(A,2,),=,P(A,3,),P(B/A,1,)=1/5,P(B/A,2,)=2/5,P(B/A,3,)=1,由题可知,=0.125,2026/1/14 周三,23,史忠植 高级人工智能,该公式于1763年由贝叶斯(,Bayes,),给出.它是在观察到事件,B,已发生的条件下,寻找导致,B,发生的每个原因的概率.,贝叶斯公式,设,A,1,A,2,A,n,是样本空间中的完备事件组且,P,(,A,i,)0,,i,=1,2,n,另有一事件,B,,,则有,2026/1/14 周三,24,史忠植 高级人工智能,贝叶斯规则,基于条件概率的定义,p(A,i,|E,),是在给定证据下的后验概率,p(A,i,),是先验概率,P(E|A,i,),是在给定,A,i,下的证据似然,p(E,),是证据的预定义后验概率,=,=,i,i,i,i,i,i,i,i,),),p(A,A,|,p(E,),),p(A,A,|,p(E,p(E),),),p(A,A,|,p(E,E),|,p(A,=,=,p(B),A)p(A),|,p(B,p(B),B),p(A,B),|,p(A,A,1,A,2,A,3,A,4,A,5,A,6,E,2026/1/14 周三,25,史忠植 高级人工智能,贝叶斯网络的概率解释,任何完整的概率模型必须具有表示(直接或间接)该领域变量联合分布的能力。完全的枚举需要指数级的规模(相对于领域变量个数),贝叶斯网络提供了这种联合概率分布的紧凑表示:分解联合分布为几个局部分布的乘积:,从公式可以看出,需要的参数个数随网络中节点个数呈线性增长,而联合分布的计算呈指数增长。,网络中变量间独立性的指定是实现紧凑表示的关键。这种独立性关系在通过人类专家构造贝叶斯网中特别有效。,2026/1/14 周三,26,史忠植 高级人工智能,简单贝叶斯学习模型,简单贝叶斯学习模型(,Simple,Bayes,或,Na,ve Bayes,),将训练实例,I,分解成特征向量,X,和决策类别变量,C,。,简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以,指数级,降低了贝叶斯网络构建的复杂性,,而且在许多领域,在违背这种假定的条件下,,简单贝叶斯也表现出相当的健壮性和高效性,111,,它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前,许多研究人员正致力于改善特征变量间独立性的限制,54,,以使它适用于更大的范围。,2026/1/14 周三,27,史忠植 高级人工智能,简单贝叶斯,Nave Bayesian,结构简单只有两层结构,推理复杂性与网络节点个数呈线性关系,2026/1/14 周三,28,史忠植 高级人工智能,How a naive,Bayes,classifies?,Bayes,Decision rule:Find the c that maximizes(1),(1),Given an instance vector,Calculate for all class,c,2026/1/14 周三,29,史忠植 高级人工智能,How to train a naive,Bayes,?(discrete case),Suppose,X,j,is a discrete variable whose value is,x,j,then usually we can estimate,Where,is#of the training examples belonging to class,c,and is#of training examples belonging to class,c,and having their,X,j,=,x,j,;,j,are“prior parameters.”,from training data.,(,Dirichlet,priors,;Cooper,1999),2026/1/14 周三,30,史忠植 高级人工智能,How to train a naive,Bayes,?continuous case,Parameter estimation,Assuming is Gaussian,(,Duda,&Hart 1973),Discretization,Equal width interval binning,Bin log,l,(,Spector,1990),1-R,(Holts,1994),Entropy-based,(Fayyad&,Irani,1993),2026/1/14 周三,31,史忠植 高级人工智能,简单贝叶斯学习模型,设样本,A,表示成属性向量,如果属性对于给定的类别独立,那么,P(A|,C,i,),可以分解成几个分量的积:,a,i,是样本,A,的第,i,个属性,2026/1/14 周三,32,史忠植 高级人工智能,简单贝叶斯学习模型,简单贝叶斯分类模型,这个过程称之为简单贝叶斯分类,(,SBC:Simple Bayesian Classifier),。,一般认为,只有在独立性假定成立的时候,,SBC,才能获得精度最优的分类效率;或者在属性相关性较小的情况下,能获得近似最优的分类效果。,2026/1/14 周三,33,史忠植 高级人工智能,简单贝叶斯模型的提升,基于,Boosting,简单贝叶斯模型。,提升方法(,Boosting,),总的思想是学习一系列分类器,在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给与更大的重视。尤其是,在学习完分类器,Hk,之后,增加了由,Hk,导致分类错误的训练例子的权值,并且通过重新对训练例子计算权值,再学习下一个分类器,H,k,+1,。,这个过程重复,T,次。最终的分类器从这一系列的分类器中综合得出。,2026/1/14 周三,34,史忠植 高级人工智能,PAC-,Bayes,学习,现代学习理论大致可以分为两大类:贝叶斯推理和,PAC,(,Probability Approximation Correct,)学习。这两类学习算法都以训练数据集作为输入,经过学习,输出一个概念或模型;它们也都关联着相应的正确性定理:,PAC,学习对独立同分布的训练样本集提供了很好的性能保证,而贝叶斯正确性定理能保证充分地利用先验信息。结合这两类学习算法的优点,产生了,PAC-,Bayes,学习理论。,David A,Mcallester,1999,给出了两个,PAC-,Bayes,定理,Ralf,Herbrich,等提出了贝叶斯点机理论,2026/1/14 周三,35,史忠植 高级人工智能,贝叶斯神经网络模型,基于模型组合的贝叶斯神经网络模型,利用贝叶斯证据框架理论学习神经网络的结构,2026/1/14 周三,36,史忠植 高级人工智能,是表示变量间连结关系的有向无环图,贝叶斯网络的学习,结构学习,参数学习,基于评分函数的结构学习,基于条件独立性检验的结构学习,构建贝叶斯网络,2026/1/14 周三,37,史忠植 高级人工智能,构建贝叶斯网络,Bayesian,Network,Bayesian,Network,Bayesian,Network,Problem,Domain,Problem,Domain,Problem,Domain,Expert,Knowledge,Expert,Knowledge,Training,Data,Training,Data,Probability,Elicitor,Learning,Algorithm,Learning,Algorithm,2026/1/14 周三,38,史忠植 高级人工智能,贝叶斯概率(密度估计),贝叶斯学习理论利用先验信息和样本数据来获得对未知样本的估计,而概率(联合概率和条件概率)是先验信息和样本数据信息在贝叶斯学习理论中的表现形式。如何获得这些概率(也称之为密度估计)是贝叶斯学习理论争议较多的地方。研究如何根据样本的数据信息和人类专家的先验知识获得对未知变量(向量)的分布及其参数的估计。它有两个过程:一是确定未知变量的先验分布;二是获得相应分布的参数估计。如果以前对所有信息一无所知,称这种分布为无信息先验分布;如果知道其分布求它的分布参数,称之为有信息先验分布。,2026/1/14 周三,39,史忠植 高级人工智能,密度估计,先验分布的选取原则,共轭分布,杰弗莱原则,最大熵原则,2026/1/14 周三,40,史忠植 高级人工智能,从数据中学习,共轭分布族,先验与后验属于同一分布族,预先给定一个似然分布形式,对于变量定义在0-1之间的概率分布,存在一个离散的样本空间,Beta,对应着 2 个似然状态,多变量,Dirichlet,分布对应 2个以上的状态,2026/1/14 周三,41,史忠植 高级人工智能,共轭分布,Raiffa,和,Schaifeer,提出先验分布应选取共轭分布,即要求后验分布与先验分布属于同一分布类型。它的一般描述为,:,设样本,X,1,X,2,X,n,对参数,的条件分布为,p,(,x,1,x,2,x,n,|,),,如果先验分布密度函数,决定的后验密度,同属于一种类型,则称,与,为,p,(,x,|,),的共轭分布。,2026/1/14 周三,42,史忠植 高级人工智能,杰弗莱原则,杰弗莱对于先验分布的选取做出了重大的贡献,它提出一个不变原理,较好地解决了贝叶斯假设中的一个矛盾,并且给出了一个寻求先验密度的方法。杰弗莱原则由两个部分组成:一是对先验分布有一合理要求;一是给出具体的方法求得适合于要求的先验分布。,先验分布的选取原则,2026/1/14 周三,43,史忠植 高级人工智能,最大熵原则,很明显,(1)的不确定性要比(2)的不确定性小得多,而且从直觉上也可以看得出当取的两个值得概率相等时,不确定性达到最大。,熵是信息论中描述事物不确定性的程度的一个概念。,如果一个随机变量只取与两个不同的值,比较下面两种情况:,(1),(2),2026/1/14 周三,44,史忠植 高级人工智能,最大熵原则,对连续型随机变量,x,,它的概率密度函数为,p(x),,若积分,设随机变量,x,是离散的,它取,至多可列个值,且,则,称为,x,的熵,有意义,,称它为连续型随机变量的熵,2026/1/14 周三,45,史忠植 高级人工智能,1),n(n,m/n),m(1,variance,+,-,=,n,m,mean,=,x),(1,x,m),(,n,(,m),(,n),n),m,|,(,x,p,1,m,n,1,m,Beta,-,-,=,-,-,-,G,G,G,先验分布的选取,beta,分布,2026/1/14 周三,46,史忠植 高级人工智能,先验分布的选取多项,Dirichlet,分布,1),m,(,m,),m,/,m,(1,m,state,i,the,of,variance,m,m,state,i,the,of,mean,.,x,x,x,),(,m,).,(,m,),(,m,),m,(,),m,.,m,m,|,(,x,p,N,1,i,i,N,1,i,i,N,1,i,i,i,i,th,N,1,i,i,i,th,1,m,1,-,m,1,m,N,2,1,N,1,i,i,N,2,1,Dirichlet,N,2,1,+,-,=,=,G,G,G,G,=,=,=,=,=,-,-,=,2026/1/14 周三,47,史忠植 高级人工智能,不完全数据的密度估计,期望最大化方法(,Expectation Maximization EM,),Gibbs,抽样(,Gibbs Sampling GS,),Bound and Collapse(BC),2026/1/14 周三,48,史忠植 高级人工智能,期望最大化方法,分为以下几个步骤:,(1)含有不完全数据的样本的缺项用该项的最大似然估计代替;,(2)把第一步中的缺项值作为先验信息,计算每一缺项的最大后验概率,并根据最大后验概率计算它的理想值。,(3)用理想值替换(1)中的缺项。,(4)重复(13),直到两次相继估计的差在某一固定阀值内。,2026/1/14 周三,49,史忠植 高级人工智能,Gibbs,抽样,Gibbs,抽样(,Gibbs Sampling GS),GS,是最为流行的马尔科夫、蒙特卡罗方法之一。,GS,把含有不完全数据样本的每一缺项当作待估参数,通过对未知参数后验分布的一系列随机抽样过程,计算参数的后验均值的经验估计。,2026/1/14 周三,50,史忠植 高级人工智能,贝叶斯网络的结构学习,基于搜索评分的方法:,初始化贝叶斯网络为孤立节点,使用启发式方法为网络加边,使用评分函数评测新的结构是否为更好,贝叶斯评分(,Bayesian Score Metric,),基于墒的评分,最小描述长度,MDL(Minimal,Description Length),重复这个过程,直到找不到更好的结构,基于依赖分析的方法,:,通过使用条件独立性检验,conditional independence(CI),找到网络的依赖结构,2026/1/14 周三,51,史忠植 高级人工智能,基于,MDL,的贝叶斯网结构学习,计算每一点对之间的互信息:,建立完全的无向图,图中的顶点是变量,边是变量之间的互信息,建立最大权张成树,根据一定的节点序关系,设置边的方向,2026/1/14 周三,52,史忠植 高级人工智能,基于条件独立性的贝叶斯网络学习,假定:节点序已知,第一阶段,(Drafting),计算每对节点间的互信息,建立完整的无向图,.,第二阶段(,Thickening),如果接点对不可能,d-,可分的话,把这一点对加入到边集中。,第三阶段(,Thinning),检查边集中的每个点对,如果两个节点是,d-,可分的,那么移走这条边。,2026/1/14 周三,53,史忠植 高级人工智能,基于条件独立性检验,(CI),的,贝叶斯网络结构学习,1,)初始化图结构,B=,A=,R=,S=;,2,)对每一节点对,计算它们的互信息,并将互信息大于某一域值的节点对按互信息值的大小顺序加入到,S,中;,3,)从,S,中取出第一个点对,并从,S,中删除这个元素,把该点对加入到边集,A,中;,4,)从,S,中剩余的点对中,取出第一个点对,如果这两各界点之间不存在开放路径,再把该点对加入,A,到中,否则加入到,R,中;,5,)重复,4),直到,S,为空;,6,)从,R,中取出第一个点对;,7,)找出该点对的某一块集,在该子集上做独立性检验,如果该点对的两个节点,仍然相互依赖,则加入到,A,中;,8,)重复,6),直到,R,为空;,9,)对,A,中的每一条边,如果除这条边外,仍旧含有开放路径,则从,A,中临时移出,并在相应的块集上作独立性测试,如果仍然相关,则将其返回到,A,中,否则从,A,中删除这条边。,2026/1/14 周三,54,史忠植 高级人工智能,树增广的朴素贝叶斯网,TAN,的结构学习,2026/1/14 周三,55,史忠植 高级人工智能,主动贝叶斯网络分类器,主动学习:,主动在候选样本集中选择测试例子,并将这些实例以一定的方式加入到训练集中。,选择策略,抽样选择,投票选择,随机抽样,相关抽样,不确定性抽样,2026/1/14 周三,56,史忠植 高级人工智能,主动贝叶斯网络分类器,学习过程,输入:带有类别标注的样本集,L,,为带类别标注的候选样本集,UL,选择停止标准,e,,每次从候选集中选择的样本个数,M,输出:分类器,C.,过程:,While not e,TrainClassifer,(L,C)/,从,L,中学习分类器,C,;,For each x,计算,ES,;,SelectExampleByES,(S,UL,M,ES)/,根据,ES,从,UL,中选择,M,个例子的子集,S.,LabeledAndAdd,(S,L);/,用当前的分类器,C,标注,S,中的元素,并把它加入到,L,中。,Remove(S,UL);/,从,UL,中移走,S.,CheckStop,(/,根据当前状态设置退出条件,Return C;,2026/1/14 周三,57,史忠植 高级人工智能,主动贝叶斯网络分类器,基于最大最小熵的主动学习,首先从测试样本中选择出类条件熵最大和最小的候选样本(,MinExample,MaxExample,),然后将这两个样本同时加入到训练集中。类条件熵最大的样本的加入,使得分类器能够对具有特殊信息的样本的及早重视;而类条件熵最小的样本是分类器较为确定的样本,对它的分类也更加准确,从而部分地抑制了由于不确定性样本的加入而产生的误差传播问题,2026/1/14 周三,58,史忠植 高级人工智能,主动贝叶斯网络分类器,基于分类损失与不确定抽样相结合的主动学习,分类损失:,选择过程:,从测试样本中选择个熵较大的样本,组成集合,maxS,,然后对此集合中每个元素计算相对于该集合的分类损失和,选择分类损失和最小的样本做标注并加入到训练样本集中。,2026/1/14 周三,59,史忠植 高级人工智能,主动贝叶斯网络分类器,A,B,C,D,E,F,精度评定,(%),精度,召回率,A,645,6,5,0,0,0,0.7670,0.9832,B,140,132,0,0,0,0,0.9429,0.4853,C,25,2,50,0,0,0,0.8475,0.6494,D,5,0,2,33,1,0,0.9167,0.8049,E,9,0,0,3,51,0,0.9623,0.8095,F,17,0,2,0,1,64,1.0000,0.7619,A,B,C,D,E,F,精度评定,(%),精度,召回率,A,641,11,4,0,0,0,0.8412,0.9771,B,81,191,0,0,0,0,0.8565,0.7022,C,8,21,48,0,0,0.8571,0.6234,D,6,0,2,32,1,0,0.9143,0.7273,E,9,0,0,3,51,0,0.9623,0.8095,F,17,0,2,0,1,64,1.0000,0.7619,初始标注,样本数:,96,为标注训练,样本数:,500,测试集,样本数:,1193,ALearnerByMaxMinEntropy,测试结果,ALearnerByUSandCL,测试结果,2026/1/14 周三,60,史忠植 高级人工智能,贝叶斯潜在语义模型,随着互联网的普及,网上信息正在呈指数级增长趋势。合理地组织这些信息,以便从茫茫的数据世界中,检索到期望的目标;有效地分析这些信息,以便从浩如烟海的信息海洋中,挖掘出新颖的、潜在有用的模式,正在成为网上信息处理的研究热点。网上信息的分类目录组织是提高检索效率和检索精度的有效途径,如在利用搜索引擎对网页数据进行检索时,如能提供查询的类别信息,必然会缩小与限制检索范围,从而提高查准率,同时,分类可以提供信息的良好组织结构,便于用户进行浏览和过滤信息。,2026/1/14 周三,61,史忠植 高级人工智能,贝叶斯潜在语义模型,聚类分析是文本挖掘的主要手段之一。它的主要作用是:1)通过对检索结果的聚类,将检索到的大量网页以一定的类别提供给用户,使用户能快速定位期望的目标;2)自动生成分类目录;3)通过相似网页的归并,便于分析这些网页的共性。,K-,均值聚类是比较典型的聚类算法,另外自组织映射(,SOM),神经网络聚类和基于概率分布的贝叶斯层次聚类(,HBC),等新的聚类算法也正在不断的研制与应用中。然而这些聚类算法大部分是一种无监督学习,它对解空间的搜索带有一定的盲目性,因而聚类的结果一定程度上缺乏语义特征;同时,在高维情况下,选择合适的距离度量标准变得相当困难。而网页分类是一种监督学习,它通过一系列训练样本的分析,来预测未知网页的类别归属。目前已有很多有效的算法来实现网页的分类,如,Naive Bayesian、SVM,等。遗憾的是获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练集才能获得较高精度的分类效果。,2026/1/14 周三,62,史忠植 高级人工智能,贝叶斯潜在语义模型,Kamal Nigam,等人提出从带有类别标注和不带有类别标注的混合文档中分类,Web,网页,它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习贝叶斯分类器,通过引入贝叶斯潜在语义模型,首先将含有潜在类别主题变量的文档分配到相应的类主题中。接着利用简单贝叶斯模型,结合前一阶段的知识,完成对未含类主题变量的文档作标注。针对这两阶段的特点,我们定义了两种似然函数,并利用,EM,算法获得最大似然估计的局部最优解。这种处理方法一方面克服了非监督学习中对求解空间搜索的盲目性;另一方面它不需要对大量训练样本的类别标注,只需提供相应的类主题变量,把网站管理人员从繁琐的训练样本的标注中解脱出来,提高了网页分类的自动性。为了与纯粹的监督与非监督学习相区别,称这种方法为半监督学习算法。,2026/1/14 周三,63,史忠植 高级人工智能,LSA,的应用,信息滤波,文档索引,视频检索,向量的相似性,特征的相似性,贝叶斯潜在语义分析,B,LSALSA,2026/1/14 周三,64,史忠植 高级人工智能,贝叶斯潜在语义分析,B,LSA,文档产生模型,以一定的概率选择文档,d,以一定的概率选择一潜在变量,z,以一定的概率产生特征,w,产生如下的联合概率模型,2026/1/14 周三,65,史忠植 高级人工智能,最大化似然函数,目的在于估计下面的分布参数,贝叶斯潜在语义分析,B,LSA,2026/1/14 周三,66,史忠植 高级人工智能,EM,算法求得最大似然,E,步,M,步,似然函数值与迭代步骤的关系,2026/1/14 周三,67,史忠植 高级人工智能,半监督,web,挖掘算法,(1),算法描述,:,已知:,求划分,:,贝叶斯潜在语义分析,B,LSA,2026/1/14 周三,68,史忠植 高级人工智能,半监督,web,挖掘算法,(2),解决策略:,1.,划分,D,为两个集和,:,3.,使用,Naive Bayesian,标注,2.,使用,BLSA,标注,2026/1/14 周三,69,史忠植 高级人工智能,1),使用,BLSA,估计分布参数,2),使用最大后验概率标注文档,1.,使用,BLSA,标注,半监督,web,挖掘算法,(3),2026/1/14 周三,70,史忠植 高级人工智能,半监督,web,挖掘算法,(3),2.,使用,Naive Bayesian,标注,M,步,:,E,步,:,似然,函数,2026/1/14 周三,71,史忠植 高级人工智能,试验结果,1000,足球类文档,876,特征词,半监督,web,挖掘算法,(4),2026/1/14 周三,72,史忠植 高级人工智能,贝叶斯网中的证据推理,目的:通过联合概率分布公式,在给定的网络结构,和已知证据下,计算某一事件的发生的概率。,E,网络,证据,查询,推理,贝叶斯推理可以在反复使用贝叶斯规则而获得,=,=,p(B),A)p(A),|,p(B,p(B),B),p(A,B),|,p(A,2026/1/14 周三,73,史忠植 高级人工智能,推理方法概述,精确推理,网络的拓扑结构是推理复杂性的主要原因;,当前的一些精确算法是有效地,能够解决现实中的大部分问题,由于对知识的认知程度,精确推理还存在一些问题,近似推理,证据的低似然性和函数关系 是近似推理中复杂性的主要原因,NP Hard,2026/1/14 周三,74,史忠植 高级人工智能,影响推理的因素,网络结构的特征,网络的拓扑结构,网络的大小,网络中变量的类型(离散、连续),变量的分布墒,相关查询的特征,任务,查询类型(批处理、异步执行),可用的计算资源(嵌入式系统、并行处理),相关证据的特征,证据的特征,2026/1/14 周三,75,史忠植 高级人工智能,查询的任务类型,预测,对给定的模型,将要发生什么,给定证据下的后验计算,所有的边界后验,指定的边界后验,指定的联合条件查询,最可能的假设,一个最可能的,n,个最可能的,决策策略,2026/1/14 周三,76,史忠植 高级人工智能,继续前面的医疗诊断例子,贝叶斯推理中非条件分布和边界分布是常见的查询模式,一个节点的边界分布也称为该节点的信任函数,2026/1/14 周三,77,史忠植 高级人工智能,推理过程中的信任传播,2026/1/14 周三,78,史忠植 高级人工智能,推理算法,精确推理,联合概率计算,Nave Bayesian,图约简算法,Polytree,算法,近似推理,前向模拟推理,随机模拟推理,The algorithms purpose is“fusing and propagating the impact,of new evidence and beliefs through Bayesian networks so that each proposition eventually will be assigned a certainty measure,consistent with the axioms of probability theory.”,(Pearl,1988,p 143),2026/1/14 周三,79,史忠植 高级人工智能,精确推理计算联合概率,任何查询都可以通过联合概率回答,步骤:,计算联合概率,P(AB)=P(A)*P(B|A),边界化不在查询中的变量,P(B)=,A,P(AB),效率低,A,B,2026/1/14 周三,80,史忠植 高级人工智能,图约简算法一般原理,基本观点,任何概率查询可以表示成网络的子网,推理的目的是把网络分解成几个子网,三个基本操作,拟转弧操作(,Arc Reversal),贝叶斯公式,孤寡点移出(,Barren node removal),求和公式,值节点归并(,Merge with Value node),期望最大化,2026/1/14 周三,81,史忠植 高级人工智能,约简算法,拟转弧操作,X,1,X,3,X,2,X,1,X,3,X,2,X,1,X,3,X,2,X,1,X,3,X,2,p(x,1,x,2,x,3,)=p(x,3,|,x,1,)p(x,2,|,x,1,)p(x,1,),p(x,1,x,2,x,3,)=p(x,3,|,x,2,x,1,)p(x,2,)p(x,1,),p(x,1,x,2,x,3,)=p(x,3,|,x,1,)p(x,2,x,1,),=
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:高级人工智能贝叶斯公式.ppt
    链接地址:https://www.zixin.com.cn/doc/13089879.html
    页脚通栏广告

    Copyright ©2010-2025   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork