基于Gauss分布和Gram-Schmidt正交化的朴素贝叶斯分类算法.pdf
《基于Gauss分布和Gram-Schmidt正交化的朴素贝叶斯分类算法.pdf》由会员分享,可在线阅读,更多相关《基于Gauss分布和Gram-Schmidt正交化的朴素贝叶斯分类算法.pdf(5页珍藏版)》请在咨信网上搜索。
1、收稿日期:.基金项目:江西省高校人文社会科学研究项目(J Y );贵州省自然科学技术基金项目(Y );重庆市自然科学技术基金项目(c s t c j c y j m s x mX );陕西铁路工程职业技术学院基金项目(KY ).作者简介:黄小杰(),男,讲师,博士.通信作者:吴春(),男,副教授,博士.E m a i l:w u c h u n c o m.黄小杰,刘芝秀,邓梓杨,等基于G a u s s分布和G r a m S c h m i d t正交化的朴素贝叶斯分类算法J南昌大学学报(理科版),():HUAN GXJ,L I UZX,D E N GZY,e ta l N a i v e
2、B a y e sc l a s s i f i c a t i o na l g o r i t h mb a s e do nG a u s sd i s t r i b u t i o na n dG r a m S c h m i d to r t h o g o n a l i z a t i o nJJ o u r n a l o fN a n c h a n gU n i v e r s i t y(N a t u r a lS c i e n c e),():基于G a u s s分布和G r a m S c h m i d t正交化的朴素贝叶斯分类算法黄小杰,刘芝秀,邓梓杨,
3、刘红军,吴春(南昌工程学院理学院,江西 南昌 ;南昌大学数学与计算机学院,江西 南昌 ;贵州师范大学数学科学学院,贵州 贵阳 ;重庆师范大学数学科学学院,重庆 )摘要:朴素贝叶斯分类算法是一种简单实用的分类方法,人们对它的属性间条件独立性假设做了许多研究,致力于消除冗余属性、减少属性间的关联性,以获得一些新属性来使用朴素贝叶斯算法,但新属性间的独立性却不易度量,因而改进之处的理论支撑有所不足,改进后的朴素贝叶斯算法的效果更多的是由数据实验进行佐证.本文定义了G a u s s分布型数据,提出了经G r a m S c h m i d t正交化方法改进的朴素贝叶斯算法,使其可以方便地使用于G a
4、 u s s分布型数据的分类.该改进方法不同以往显式的构造新属性集或属性变换矩阵,而是直接正交化属性的样本数据,并证明了正交后的属性数据所对应的抽象新属性的独立性.这说明对于G a u s s分布型数据的分类,原朴素贝叶斯算法中的条件独立性的假设不会给算法的使用造成障碍,经G r a m S c h m i d t正交化后即可满足这个约束条件.关键词:G a u s s分布型数据;G r a m S c h m i d t正交化;朴素贝叶斯;分类中图分类号:T P 文献标志码:A文章编号:()N a i v eB a y e s c l a s s i f i c a t i o na l g
5、 o r i t h mb a s e do nG a u s sd i s t r i b u t i o na n dG r a m S c h m i d t o r t h o g o n a l i z a t i o nHUANGX i a o j i e,L I UZ h i x i u,D e n gz i y a n g,L I U H o n g j u n,WUC h u n(D e p a r t m e n to fS c i e n c e,N a n c h a n gI n s t i t u t eo fT e c h n o l o g y,N a n c
6、h a n g ,C h i n a;S c h o o l o fM a t h e m a t i c sa n dC o m p u t e rS c i e n c e,N a n c h a n gU n i v e r s i t y,N a n c h a n g ,C h i n a;S c h o o l o fM a t h e m a t i c a lS c i e n c e s,G u i z h o uN o r m a lU n i v e r s i t y,G u i y a n g ,C h i n a;S c h o o l o fM a t h e m
7、 a t i c a lS c i e n c e s,C h o n g q i n gN o r m a lU n i v e r s i t y,C h o n g q i n g ,C h i n a)A b s t r a c t:T h en a i v eB a y e sc l a s s i f i c a t i o na l g o r i t h mi sas i m p l ea n dp r a c t i c a lm e t h o df o rc l a s s i f i c a t i o n T h e r ew e r eal o to fs t u
8、d i e s o nt h e a s s u m p t i o no f c o n d i t i o n a l i n d e p e n d e n c eb e t w e e na t t r i b u t e s T h e r e s e a r c h w a s c o mm i t t e d t oe l i m i n a t e r e d u n d a n t a t t r i b u t e sa n dt or e d u c e t h ec o r r e l a t i o nb e t w e e na t t r i b u t e s,
9、w i t ht h ea i mt oo b t a i ns o m en e wa t t r i b u t e sb e i n g m o r e i n d e p e n d e n t o fa n da d a p t e dt on a i v eB a y e sa l g o r i t h m H o w e v e r,t h e i n d e p e n d e n c eb e t w e e nn e wa t t r i b u t e sw a sn o te a s yt om e a s u r e T h e r e f o r e,t h e
10、i m p r o v e m e n t o f t h en a i v eB a y e s a l g o r i t h mw a sn o t s u p p o r t e ds u f f i c i e n t l yb y t h e o r yb u tw a sm o r e s u p p o r t e db yd a t ae x p e r i m e n t s T h i sp a p e rd e f i n e d G a u s sd i s t r i b u t e dd a t aa n dp r o p o s e d a ni m p r o
11、 v e dn a i v eB a y e sa l g o r i t h mu s i n gt h eG r a m S c h m i d to r t h o g o n a l i z a t i o nm e t h o d,m a k i n g i t c o n v e n i e n t f o r c l a s s i f i c a t i o nw i t hG a u s s i a nd i s t r i b u t i o nd a t a T h e i m p r o v e dm e t h o dw a sd i f f e r e n t f
12、r o mt h ep r e v i o u sm e t h o d U n l i k ep r e v i o u sm e t h o d s t h a t e x p l i c i t l yc o n s t r u c tn e wa t t r i b u t e ss e t o r a t t r i b u t e s t r a n s f o r m a t i o nm a t r i x,t h ea p p r o a c h i nt h ec u r r e n tp a p e rd i r e c t l yo r t h o g o n a l
13、i z e dt h es a m p l ed a t ao fa t t r i b u t e s I tw a sa l s op r o v e d t h a tt h ea b s t r a c tn e wa t t r i b u t e sc o r r e s p o n d i n gt ot h eo r t h o g o n a l i z e da t t r i b u t e sd a t a w e r e i n d e p e n d e n c e T h i ss h o w e d t h a t t h ea s s u m p t i o
14、no fc o n d i t i o n a l i n d e p e n d e n c e i nt h eo r i g i n a l n a i v eB a y e s a l g o r i t h mw i l l n o t c a u s eo b s t a c l e s t o t h eu s eo f t h e a l g o r i t h mf o r t h e c l a s s i f i c a t i o no fG a u s sd i s t r i b u t e dd a t a,a s t h i sc o n s t r a i n
15、 t c a nb es a t i s f i e da f t e rG r a m S c h m i d to r t h o g o n a l i z a t i o n 第 卷第期 年月南昌大学学报(理科版)J o u r n a l o fN a n c h a n gU n i v e r s i t y(N a t u r a lS c i e n c e)V o l N o J u n K e yW o r d s:G a u s sd i s t r i b u t i o nd a t a;G r a m S c h m i d to r t h o g o n a
16、l i z a t i o n;n a i v eB a y e s;c l a s s i f i c a t i o n朴素贝叶斯算法是一种简单实用的概率估计与分类算法,它有着广泛的应用.例如可用于山火风险评估、内河航运事故分析、垃圾邮件过滤、冰雹天气识别、缺失数据处理等各个方面.然而,朴素贝叶斯算法要求属性之间具有条件独立性,这个假设往往与实际情况相左,从而影响了它的使用性能.为了满足属性的条件独立性假设以便合理地使用朴素贝叶斯算法,就必须尽量消除冗余属性、减少属性间的关联性,对此人们进行了大量的研究,主要集中在筛选或构造的新属性集.如,利用互信息、相关性等计算属性间的相关度,剔除冗余属
17、性;利用主成分分析(p r i n c i p a l c o m p o n e n ta n a l y s i s,P C A)对原属性集进行降维处理,使新主成分属性之间互不相关;利用独立分量分析方法(i n d e p e n d e n t c o m p o n e n t a n a l y s i s,I C A)将原属性变换到新的属性空间中以消除属性之间的相关性,使得新属性尽可能满足朴素贝叶斯算法的条件独立性假设,从而提高它的概率估计与分类效率.但是,通过消除冗余属性、减少属性间的关联性获得新属性集后,新属性间的条件独立性却难以度量,成为了一个新的问题,因而其理论支撑有所不足
18、,经改进后的朴素贝叶斯算法的分类效果通常是用数据实验进行佐证.显然,朴素贝叶斯及其改进算法并不能适用所有类型的数据,对算法适用的数据类型做更充分的说明是必须的.事实上,数据和算法是强耦合的,先对数据进行说明不但能够更全面地评估算法的效果,而且有助于进行更深入的理论分析.我们首先定义了G a u s s分布型数据,提出了基于G r a m S c h m i d t正交化方法 改进的朴素贝叶斯算法、它和以往具体的构造出新属性或属性变换矩阵(P C A、I C A)不同,而是将属性的样本数据直接正交化处理.自然地正交后的数据抽象的对应着一些新的属性.我们同时也证明了这些未显式构造出的抽象属性是独立
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Gauss 分布 Gram Schmidt 正交 朴素 贝叶斯 分类 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。