iris数据集的贝叶斯分类.doc

上传人：二***

文档编号：4762812

上传时间：2024-10-12

格式：DOC

页数：9

大小：162.82KB

下载积分：5 金币

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

5 金币

下载 开通VIP

还剩页未读，继续阅读

举报
申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：
如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

特殊限制：
部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。

关键词：
iris 数据贝叶斯分类

资源描述：

IRIS数据集的Bayes分类实验一、实验原理 1) 概述模式识别中的分类问题是根据对象特征的观察值将对象分到某个类别中去。统计决策理论是处理模式分类问题的基本理论之一，它对模式分析和分类器的设计有着实际的指导意义。贝叶斯（Bayes）决策理论方法是统计模式识别的一个基本方法，用这个方法进行分类时需要具备以下条件： Ø 各类别总体的分布情况是已知的。 Ø 要决策分类的类别数是一定的。其基本思想是：以Bayes公式为基础，利用测量到的对象特征配合必要的先验信息，求出各种可能决策情况（分类情况）的后验概率，选取后验概率最大的,或者决策风险最小的决策方式(分类方式)作为决策（分类）的结果。也就是说选取最有可能使得对象具有现在所测得特性的那种假设，作为判别的结果。常用的Bayes判别决策准则有最大后验概率准则（MAP），极大似然比准则（ML），最小风险Bayes准则，Neyman-Pearson准则（N-P）等。 2) 分类器的设计对于一个一般的c类分类问题，其分类空间：表特性的向量为：其判别函数有以下几种等价形式： a) ， b) c) d) 3) IRIS数据分类实验的设计 Ø IRIS数据集：一共具有三组数据，每一组都是一个单独的类别，每组有50个数据，每个数据都是一个四维向量。其分类空间为：表特性的向量为： Ø 实验目的：利用Bayes判别准则对三组数据进行分类，希望能够尽量准确的判断出从IRIS数据集中选取的样本所属的类别。 Ø 实验设计思路：将每个数据看作是一个具有4维特征的观察样本假设每类数据的每维都的分别服从正态分布即并且两两独立。由数理统计理论可知，样本均值和修正方差分别为和的无偏估计量，故可近似为求得和为：贝叶斯决策规则选取：由于不同维度数据两两独立，故其中：另让门限值: 其中：和为所选待分类样本j类数据和i类的个数，属于先验知识。比较与门限值的大小判断样本所属类别最后计算分类的正确率 Ø 二、实验过程 1) 求取每类数据的每个分量的均值和修正方差数代码如下： sum=zeros(3,4); sd=zeros(3,4); for j=1:1:4 for i=1:1:50 $$ for i=1:1:20 $$ sum(1,j)=sum(1,j)+sample1(i,j); sum(2,j)=sum(2,j)+sample2(i,j); sum(3,j)=sum(3,j)+sample3(i,j); end end sum=sum/50; $$sum=sum/20;$$ for j=1:1:4 for i=1:1:50 sd(1,j)=sd(1,j)+(sample1(i,j)-sum(1,j))^2; sd(2,j)=sd(2,j)+(sample2(i,j)-sum(2,j))^2; sd(3,j)=sd(3,j)+(sample3(i,j)-sum(3,j))^2; end end sd=sd/49; $$ sd=sd/19; $$ 其中每类数据都有4组均值和修正方差，3类数据总共12组，分别存放在sum 和sd这两个3×4的矩阵中。 2) 用一个函数来实现分类器的功能,代码如下 function [clfresult,accuracyrate] = bayesclassifier(samples,dimen,sum,sd,mode1,mode2) clfresult=zeros(dimen,2); if ((mode1(1,1)~=0)&&(mode1(1,2)~=0)&&(mode1(1,3)==0)) compare=[1,2]; end if ((mode1(1,1)~=0)&&(mode1(1,2)==0)&&(mode1(1,3)~=0)) compare=[1,3]; end if ((mode1(1,1)==0)&&(mode1(1,2)~=0)&&(mode1(1,3)~=0)) compare=[2,3]; end compare1=compare(1,1); compare2=compare(1,2); class=zeros(1,3); la=zeros(1,4); lb=zeros(1,4); for i=1:1:dimen if samples(i,5)==1 class(1,1)=class(1,1)+1; end if samples(i,5)==2 class(1,2)=class(1,2)+1; end if samples(i,5)==3 class(1,3)=class(1,3)+1; end end n=class(1,compare2)/class(1,compare1) for i=1:1:dimen la(1,1)=1/sqrt(sd(compare1,1))*exp(-(samples(i,1)-sum(compare1,1))^2/(2*sd(compare1,1))); la(1,2)=1/sqrt(sd(compare1,2))*exp(-(samples(i,2)-sum(compare1,2))^2/(2*sd(compare1,2))); la(1,3)=1/sqrt(sd(compare1,3))*exp(-(samples(i,3)-sum(compare1,3))^2/(2*sd(compare1,3))); la(1,4)=1/sqrt(sd(compare1,4))*exp(-(samples(i,4)-sum(compare1,4))^2/(2*sd(compare1,4))); lb(1,1)=1/sqrt(sd(compare2,1))*exp(-(samples(i,1)-sum(compare2,1))^2/(2*sd(compare2,1))); lb(1,2)=1/sqrt(sd(compare2,2))*exp(-(samples(i,2)-sum(compare2,2))^2/(2*sd(compare2,2))); lb(1,3)=1/sqrt(sd(compare2,3))*exp(-(samples(i,3)-sum(compare2,3))^2/(2*sd(compare2,3))); lb(1,4)=1/sqrt(sd(compare2,4))*exp(-(samples(i,4)-sum(compare2,4))^2/(2*sd(compare2,4))); for j=1:1:4 if(mode2(1,j)==0) la(1,j)=1; lb(1,j)=1; end end lx=la(1,1)*la(1,2)*la(1,3)*la(1,4)/(lb(1,1)*lb(1,2)*lb(1,3)*lb(1,4)) clfresult(i,1)=i; if lx>=n clfresult(i,2)=compare1; else clfresult(i,2)=compare2; end end accuracyrate=0; for i=1:1:dimen if clfresult(i,2)~=samples(i,5) accuracyrate=accuracyrate+1; end end accuracyrate=accuracyrate/dimen; end 该函数有共有两个输出量，六个输入参数。其中各个参数的规定如下: Samples：一个Dimen×5的矩阵，Dimen是选取样本的数量，矩阵前4列存放样本的4维数据，最后一列存放相应行样本真实的类别数（1，2，3）。 Dimen:选取样本的数量。 Sum:数据集的均值参数阵。 Sd：数据集的修正方差参数阵。 Mode1:模式选择参数1，它是一个3维的行向量：其中分别对应数据集的三个类别，当不为零时，就在决策域中添加第i类。总共有三种模式：在第一类和第二类中进行判别在第一类和第三类中进行判别在第二类和第二类中进行判别 Mode2:模式选择参数2，它是一个4维德行向量：其中分别对应数据集的4个维度分量，当不为零时，第i个维度的分量就作为判别分类的依据进行考虑，为零时，则第i个维度的分量忽略。Mode2共有多种模式15种模式。例如：表示第二维的数据特征不参与分类。对于两个输出参数： Clfresult:是一个3×Dimen的矩阵，输出对每个数据的分类结果，并显示其真实所属类别和在Samples中的序号。 Accuracyrate:输出Bayes分类的正确率。 3) 选定不同的样本组合与特征的组合，调用bayesclassifier函数进行分类。三、实验结果与分析 1) 实验结果： Ø 利用每类50个数据求出相应的均值和修正方差作为正态分布参数。并将每类中所有的50个数据全部拿来分类,dimen=100结果为(分类的正确率)： Mode1 Mode2 一类（50）二类（50）一类（50）三类（50）二类（50）三类（50） (1,0,0,0) 0.89 0.95 0.70 (0,1,0,0) 0.83 0.75 0.58 (0,0,1,0) 1 1 0.93 (0,0,0,1) 1 1 0.94 (1,1,0,0) 0.99 0.99 0.68 (1,0,1,0) 1 1 0.87 (1,0,0,1) 1 1 0.94 (0,1,1,0) 1 1 0.88 (0,1,0,1) 1 1 0.92 (0,0,1,1) 1 1 0.94 (1,1,1,0) 1 1 0.82 (1,1,0,1) 1 1 0.92 (1,0,1,1) 1 1 0.95 (0,1,1,1) 1 1 0.94 (1,1,1,1) 1 1 0.94 Ø 利用每类的20个数据求出相应的均值和修正方差作为正态分布参数。并将每类中另外的30个数据拿来分类,dimen=60结果为(分类的正确率)： Mode1 Mode2 一类（30）二类（30）一类（30）三类（30）二类（30）三类（30） (1,0,0,0) 0.9167 0.9833 0.7167 (0,1,0,0) 0.8667 0.75 0.60 (0,0,1,0) 1 1 0.9167 (0,0,0,1) 1 1 0.9167 (1,1,0,0) 0.9833 1 0.70 (1,0,1,0) 1 1 0.8667 (1,0,0,1) 1 1 0.9333 (0,1,1,0) 1 1 0.8667 (0,1,0,1) 1 1 0.9000 (0,0,1,1) 1 1 0.9333 (1,1,1,0) 1 1 0.8167 (1,1,0,1) 1 1 0.9333 (1,0,1,1) 1 1 0.9500 (0,1,1,1) 1 1 0.9333 (1,1,1,1) 1 1 0.9500 Ø 利用每类的20个数据求出相应的均值和修正方差作为正态分布参数。分别在第二类中取20个，10个和5个数据，在第三类中固定取30个数据，放在一起进行分类，结果为（第二类数据分类的正确率）： Mode1 Mode2 二类（20）三类（30）二类（10）三类（30）二类（5）三类（30） (1,0,0,0) 0.6500 0 0 (0,1,0,0) 0.3000 0 0 (0,0,1,0) 0.8500 0.5000 0.4000 (0,0,0,1) 0.9000 0.8000 0.6000 (1,1,1,1) 0.9000 0.8000 0.8000 2) 分析： Ø 实验结果反映出鸢尾花数据集：第一类数据和第二类数据的第一和第二维比较相似，第三和第四维数据差别很大。第一类数据和第三类数据的第一和第二维比较相似，第三和第四维数据差别很大。第二类数据和第三类数据的第一和第二维比较相似，第三和第四维数据差别较。第二类和第三类数据整体相似度较高。和直观判断相符。 Ø 在分类时如果选取差别较大的特征分量，分类的正确率会比较高。选取多维特征参与分类决策并不一定会增加分类的正确率，很多情况下其分类效果应该介于效果最好的基于单位特征的分类和效果最差的基于单位特征的分类之间或者并不会提高太多。在做高维特征的数据分类时可以考虑选取分类效果好的少量维度，从而达到比采用全维度更好的效果，同时可以简化计算。 Ø 实验结果表1和表2中的数据相差不大，1中用所有的数据求分布参数，再反过来对所有的数据分类，而2是用其中20组求分布参数，另外30组拿来分类，两组的结果差别不是很大，说明Bayes方法是相对稳定的，有一定的容限，可以处理未知的数据，具有实际运用的价值。 Ø 实验结果表3是当两类数据取的样本个数不同时的实验结果，由于实验把门限的先验概率比定义为不同类样本数之比，故可以用表3的结果来看是否合理，由表我们看出，随着样本比的改变，门限的改变导致了分类正确率的较大的变化，实验整体的分类正确率可能变化不大，但是较少的那类数据的样本数越少，其分类错误率就越大，这是不合理的。所以门限不能用这种方式来定，本实验的情况还是设门限为1比较合理。模式识别实验报告一学生：刘文学号：3110038020 班级：硕037

展开阅读全文

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

关于本文

本文标题：iris数据集的贝叶斯分类.doc
链接地址：https://www.zixin.com.cn/doc/4762812.html

二***

内容提供者实名认证

平台协调中心【客服】

相似文档自信AI助手

某单位通信指挥车项目建设方案.docx
part遗传毒理学.pptx
本文列举了PLC五种故障查找方法的流程图样本.doc
BAAI平台使用说明技术讲解.pptx
会计电算化固定资产管理.pptx
八年级历史上册20社会生活的变化.pptx
科龙电器电子商务策划方案模板.doc
物联网解决方案CHD监狱门禁管理样本.doc
人的由来同步检测卷1.doc

搜索标签自信AI导航

iris 数据 贝叶斯 分类