基于随机森林分类模型的葡萄干特征分析.pdf
《基于随机森林分类模型的葡萄干特征分析.pdf》由会员分享,可在线阅读,更多相关《基于随机森林分类模型的葡萄干特征分析.pdf(11页珍藏版)》请在咨信网上搜索。
1、Advances in Applied Mathematics 应用数学进展应用数学进展,2023,12(8),3576-3586 Published Online August 2023 in Hans.https:/www.hanspub.org/journal/aam https:/doi.org/10.12677/aam.2023.128356 文章引用文章引用:余丽萍,吴喜之,王涛.基于随机森林分类模型的葡萄干特征分析J.应用数学进展,2023,12(8):3576-3586.DOI:10.12677/aam.2023.128356 基于随机森林分类模型的葡萄干特征分析基于随机森林分
2、类模型的葡萄干特征分析 余丽萍余丽萍*,吴喜之,吴喜之,王涛王涛 云南师范大学数学学院,云南 昆明 收稿日期:2023年7月18日;录用日期:2023年8月8日;发布日期:2023年8月16日 摘摘 要要 为了实现两种葡萄干的高效率分类,以为了实现两种葡萄干的高效率分类,以R语言作为工具,将两种土耳其葡萄干语言作为工具,将两种土耳其葡萄干(Besni和和Kecimen)的的900颗颗(每种每种450颗颗)葡萄干图像数据葡萄干图像数据作为作为数据集,通过图像提取技术,提取数据集,通过图像提取技术,提取7种形态学特征:种形态学特征:Area、Perimeter、MajorAxisLength、Mi
3、norAxisLength、Eccentricity、ConvexArea、Extent,数据集经过归一化和清,数据集经过归一化和清除噪音的处理,选择随机森林算法建立分类模型,与除噪音的处理,选择随机森林算法建立分类模型,与SVM模型相比较,结果表明:随机森林模型使用混模型相比较,结果表明:随机森林模型使用混淆矩阵进行综合评价结果显示与淆矩阵进行综合评价结果显示与SVM模型不分上下,但对于葡萄干数据而言,使用随机森林模型对变量模型不分上下,但对于葡萄干数据而言,使用随机森林模型对变量重要性的解读更适合,研究表示重要性的解读更适合,研究表示Perimeter和和MajorAxisLength这两
4、个形态学特征对随机森林的分类模型这两个形态学特征对随机森林的分类模型十分重要。十分重要。关键词关键词 机器学习,随机森林,特征分类,机器学习,随机森林,特征分类,R语言语言 Characterization of Raisins Based on Random Forest Classification Model Liping Yu*,Xizhi Wu,Tao Wang College of Mathematics,Yunnan Normal University,Kunming Yunnan Received:Jul.18th,2023;accepted:Aug.8th,2023;publ
5、ished:Aug.16th,2023 Abstract In order to realize the efficient classification of two kinds of raisins,R language was used as a tool,and the image data of 900 raisins(450 raisins each)of two kinds of Turkish raisins(Besni and Ke-cimen)were used as a dataset,and seven morphological features were extra
6、cted by image extrac-tion technique:Area,Perimeter,MajorAxisLength,MinorAxisLength,Eccentricity,ConvexArea,and Extent,the dataset was normalized and noise removal,and the Random Forest algorithm was *通讯作者。余丽萍 等 DOI:10.12677/aam.2023.128356 3577 应用数学进展 selected to build the classification model,which
7、 was compared with the SVM model,and the re-sults showed that:the Random Forest model using the confusion matrix for the comprehensive evaluation of the results showed that it was indistinguishable from the SVM model,but for the rai-sin data,the interpretation of the importance of the variables usin
8、g the random forest model is more appropriate,and the study indicated that the two morphological features of Perimeter and MajorAxisLength are important for the classification model of the random forest.Keywords Machine Learning,Random Forest,Feature Classification,R Language Copyright 2023 by autho
9、r(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 葡萄干是富含碳水化合物和营养物质的浓缩食物,含有抗氧化剂、钾、纤维和铁1 2。随着机器学习算法的日益成熟,使用机器结合机器学习的图像处理方法,葡萄干的分类方法也向人工智能方向发展。Ilkay CINAR 1等人将收集的两种土耳其葡萄干图像数据经过图像处理,归
10、一化和去除噪音从而提取到 7种特征,使用 Logistic Regression(LR)、Multilayer Perceptron(MLP)和支持向量机(SVM)机器学习技术创建了模型,并进行了性能测量,LR 的分类准确率为 85.22%,MLP 的分类准确率为 86.33%,SVM 的分类准确率为 86.44%,准确率都在 80%以上。Navab Karimi 3等人拍摄了 1400 幅葡萄干图像,利用图像提取技术共获得 146 个纹理特征,接着利用主成分分析(PCA)从提取的特征中找到最佳特征,使用人工神经网络(ANN)和支持向量机(SVM)对混合物进行分类。与人工神经网络相比,使用前
11、50 个特征,SVM 分类器的分类结果更有效、更准确。因此本研究在 Ilkay CINAR 1等人收集的葡萄干数据的基础上,在 R 上使用 SVM、随机森林等分类方法,建立各种分类模型,选择其中分类效果较好的方法,对其进行更加深入地分析其分类的结果,为探寻分类方法分析特征变量的重要性,从而改进葡萄干识别技术,提供了新的思路。2.数据数据 本研究获取的葡萄干样本数据,来自 Ilkay CINAR 1等人提供的葡萄干样本图像数据,一共有两个品种,分别是 Besni 和 Kecimen,如图 1 所示,每种葡萄干有 450 粒样本,共计 900 粒葡萄干。Ilkay CINAR 1等人在前人的基础上
12、,在葡萄干众多的特征类型中,根据形态学特征进行了特征提取过程,每一种葡萄干共挑选出 7 个形态学特征,这些形态学特征的具体描述如下:Area:给出葡萄干颗粒边界内的像素数。Perimeter:它通过计算葡萄干颗粒的边界和周围像素之间的距离来测量环境。MajorAxisLength:给出了主轴的长度,这是可以在葡萄干上画出的最长的线。MinorAxisLength:给出了小轴的长度,这是可以在葡萄干上画出的最短的线。Eccentricity:它给出了椭圆的偏心度,它与葡萄干有相同的时刻。ConvexArea:给出了由葡萄干颗粒形成的区域的最小凸壳的像素数。Extent:给出葡萄干颗粒形成的区域与
13、边界框中总像素的比率。Open AccessOpen Access余丽萍 等 DOI:10.12677/aam.2023.128356 3578 应用数学进展 Figure 1.Sample images of the raisin varieties used in the study(Besni(left),Kecimen(right)图图 1.研究中使用的葡萄干品种的样本图像(Besni(左),Kecimen(右)3.研究方法研究方法 Ilkay CINAR 1等人采用的方法分别为 Logistic Regression(LR),Multilayer Perceptron(MLP)和Su
14、pport Vector Machine(SVM)建立模型,根据葡萄干颗粒的特征对其进行分类。其中 LR 和 MLR 属于参数模型,SVM 的使用属于非参数模型,因此本研究也将继续使用其他同类型的方法建立模型。3.1.各类算法介绍各类算法介绍 3.1.1.参数模型参数模型 参数模型,顾名思义建立模型需要先假设样本的分布服从某一个我们所知道的分布,因此我们可以确定该分布的某一些参数值,比如正态分布的均值和方差。本次研究的参数模型如下:1)lda:线性判别分析(Linear Discriminant Analysis)通常假定服从多元正态分布,使用贝叶斯的最大后验分布估计(maximum a po
15、steriori estimation,MAP)来判别,寻求特征的线性组合4。2)mda:混合线性判别分析(Mixed linear Discriminant Analysis)是基于高斯混合模型(Gaussian mixture model,GMM)的线性判别分析,假定对于第 k 类的分布为混合的正态(高斯)分布,还需 EM 算法计算必要值,然后用最大后验分布(MAP)法来做判别分析5。3)Logit:logistic 回归(Logistic Regression)假设服从伯努利(Bernoulli)分布,建立的模型阐明了因变量和自变量之间的关系,因此来提取特征。3.1.2.非参数模型非参数
16、模型 非参数模型,建立模型不需要对样本做假设,因此算法需从数据中不断学习,最终建立出一个合理的模型。本次研究的非参数模型如下:1)SVM:支持向量机(Support Vector Machine)能够通过分离机制将数据分为二维空间的线性空间数据、三维空间的平面数据和多维空间的超平面数据。SVM 找到分离数据的最佳超平面,并执行分类过程,因此 SVM 的最佳超平面是在两个类之间边缘最大的超平面6。2)bagging:bootstrap aggregating 的缩写,基于自助法(bootstrap)抽样的组合方法,自助法抽样是从样本中重复进行放回抽样,是自助法(bootstrap)与决策树的组合
17、方法7。3)RF:随机森林(Random Forest)基于 bagging 算法,也就是说以决策树为基础,并且能够进行随机选择的一种组合方法,因此决策树存在的问题大都得到改善,比如过拟合8。余丽萍 等 DOI:10.12677/aam.2023.128356 3579 应用数学进展 4)knn:k 最近邻方法(K-Nearest Neighbor)根据测试集自变量观测值与训练集自变量观测值的距离最近的 k 个点对测试集的因变量做加权平均9。5)adaboost:全称为 adaptive boosting 方法,是监督学习中的一个二分类模型,与 bagging 不同之处在于 adaboost
18、每次用自助法抽样来构建分类树时,都会根据前一棵树的结果对误判的观测值,选择判错率高的树的增加抽样权重,使得判错率高的树更具有代表性,使得下一棵树能够令误判的观测值有更多代表性,最终的结果由所有的树加权投票得到10。3.1.3.交叉验证交叉验证 交叉验证(Cross Validation)是一种为提高分类安全性而开发的误差预测方法,可以在任何模型之间做客观的评价1。本研究使用的为 k 折交叉验证:随机将数据集分成 k 份,随机选择一份作为测试集,另外1k 份合并为训练集,用该训练集建模,然后用测试集,测试,算出平均误判率 error,公式为 11kiierrorerrk=其中ierr表示模型在第
19、i组测试集上观测值被分类错误的个数,error越接近0,则说明模型分类效果越好。因此我们能够根据测试集的判错误差大小对不同模型的比较来判定模型的好坏,比较不同模型的误判率。Ilkay CINAR 1等人采用的交叉验证为十折,为了减少误差,本次研究也是使用十折交叉验证。3.2.精度评估精度评估 3.2.1.混淆矩阵混淆矩阵 创建分类问题所需的新模型或使用现有模型后,在该模型上取得成功是通过正确估计的数量来计算的。为了估计分类模型的正确性,我们使用混淆矩阵(Confusion matrix)来评估性能指标,判断模型。在混淆矩阵中有四个参数。这些结果被命名为 tp(true positives):真
20、阳性;fp(false positives):假阴性;fn(false negatives):假阴性;tn(true negatives):真阴性。正确地归为阳类的例子称为真阳性,正确地归为阴类的例子称为真阴性,被错误归类为阴性的阳性类的例子称为假阴性,而被错误归类为阳性的阳性类的例子称为假阳性,混淆矩阵的四个参数见表 1。Table 1.Confusion matrix 表表 1.混淆矩阵 Predicted Kecimen Besni Actual Kecimen tp fp Besni fn tn 混淆矩阵提供了通过在测试数据上的分类模型执行的估计类和真实类的信息,因此有以下指标综合判断
21、分类是否成功。如下为指标及其计算式:准确率(Accuracy):tptnAccuracy100tpfptnfn+=+精确率(Precision 或真阳性率 True Positive):tpPrecision100fptp=+余丽萍 等 DOI:10.12677/aam.2023.128356 3580 应用数学进展 敏感率(Sensitivity):tpRecall100tpfn=+假阳性率(Flase Positive):fpFlase Positive Value100tnfp=+3.2.2.OOB 误差误差 OOB(Out Of Bag):在随机森林中,会有 1/3 左右的样本不会出现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 分类 模型 葡萄干 特征 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。