基于机器学习的中药材鉴别方法.pdf
《基于机器学习的中药材鉴别方法.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的中药材鉴别方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、第2 2 卷第2 期2023 年6 月济源职业技术学院学报Journal of Jiyuan Vocational and Technical CollegeVol.22No.2Jun.2023基于机器学习的中药材鉴别方法陈丹,陈伟(1.长江工程职业技术学院公共课部,湖北武汉430 2 0 0;2.菲律宾碧瑶大学研究生院,菲律宾碧瑶2 6 0 0 0)摘要:就2 0 2 1年“高教社杯”全国大学生数学建模竞赛E题“中药材的鉴别”的第1、2 问给出了可行的解法。针对问题1,使用极差和主成分分析方法将数据进行降维,利用平均轮廊法和肘部法则来确定最佳的聚类个数,使用KM e a n s 聚类的方法将
2、中药品聚类分为3类。针对问题2,分别使用支持向量机、BP神经网络、Logistic回归方法构建了药材产地分类模型,三个模型在训练集和测试集的准确率、精确率、召回率和F1值都分别均在0.8 及0.7 以上。特别地,Logistic回归模型在训练集和测试集的F1值高达0.8 6 6、0.7 8 9。结合三个分类模型为待鉴别的15个产品找到了合适的产地。这样的药材鉴别方法分析速度快、分类效果好,可为其他红外光谱数据分类鉴别问题提供借鉴。关键词:红外光谱图;K-Means聚类;中草药鉴别;BP神经网络;Logistic回归D0I:10.3969/j.issn.1672-0342.2023.02.012
3、中图分类号:R282中医药是中华文化的重要组成部分,具有悠久的历史和丰富的文化内涵 。中药材的种类丰富、产地繁多,每种药材都有其独特的功效和用途,因此在中医药领域中有着非常重要的地位。道地药材是指经过中医临床长期应用优选出来的,产在特定地域,与其他地区所产同种中药材相比,品质和疗效更好,且质量稳定,具有较高知名度的中药材2 。普通药材与道地药材虽为同一种药材,但是临床效果会有所区别。由于普通药材比道地药材成本低廉,中药材掺假以次充好的现象时有发生。产地为中药材的道地性的主要指标,产地的鉴别对于药材品质鉴别尤为重要3。为了保证中药材的质量和安全性,需要采用科学的鉴别方法来准确鉴别其品种和质量。然
4、而,传统的经验鉴别方法存在不足之处,因此需要应用现代科学鉴定手段来提高鉴别的准确性和效率。近红外和中红外光谱技术是一种常用的鉴别方法,可以通过照射中药材的光谱特征来区分不同品种和产地的中药材。不同种类的药材或者不同产品的同一种药材在有机物的含量和无机元素的化学成分上都有差别,因此它们在光谱特征上存在较大差异。收稿日期:2 0 2 3-0 4-2 0作者简介:陈丹(19 8 6 一),女,湖北咸宁人,讲师,研究方向为统计学、数学建模;陈伟(19 8 5一),男,江西上饶人,博士,讲师,研究方向为人工智能、工商管理。65文献标识码:A文章编号:16 7 2-0 342(2 0 2 3)0 2-0
5、0 6 5-0 6利用光谱技术可以更加准确地鉴别中药材的品种和产地,尤其是对于产地鉴别的准确性和重要性更高,因为不同产地的环境条件和种植方式对药材的质量有很大影响,而这些影响可以通过光谱特征反映出来。由于红外光谱鉴别中药材具有研究成本低、分析速度快的特点,检验技术近年来被广泛应用到中药材鉴别领域4一、问题阐述问题来自2 0 2 1年全国大学生数学建模E题5。题目要求我们根据赛题附件的一些中药材的近红外光谱和中红外光谱数据,分析解决以下问题。(一)问题1根据赛题附件1给出的几种药材的红外光谱数据,研究不同种类药材的特征和差异性,并鉴别药材的种类。(二)问题2赛题附件2 提供了某种药材的中红外光谱
6、数据,部分有产地信息,部分没有。请分析不同产地药材的特征和差异性,并将产地信息补全。济源职业技术学院学报二、模型假设0.40.3-(1)假设题目所给的数据真实可靠。(2)假设数据中的药材经过临床应用优选出来。(3)假设红外光谱鉴别中药材前以通过粉末直接压片法、溶剂提取法处理。(4)假设整个过程不破坏样品,快速鉴别,准确稳定。三、问题求解(一)问题1 求解1.数据预处理本题数据来自2 0 2 1年全国大学生数学建模E题的附件1,可以在全国大学生数学建模的官方网站中下载。附件1中提供了42 2 个中药材样本的中红外光谱数据,如表1所示,No列为药材的编号,其第2 列开始第一行的数据表示红外光谱的波
7、数(cm=)、第二行及其下面的数据表示在对应第一行波段红外光谱照射下的中药材的吸光度。表1中药材样本的中红外光谱数据No65210.0941960.0940570.09405720.1060430.1058320.10583230.272430.2720490.27204940.0748140.0747560.07475650.3222130.3198390.319839首先对附件中的数据进行检查,利用Python发现在附件中无缺失值,利用3原则发现有3个异常值。利用python做出如图1中红外光谱图,观察易得的确有3个异常值。去掉异常值后做出光谱图如图2 所示。0.80.6警0.40.20.
8、0660.10.0600图2除去异常值后的中红外光谱图2.数据降维表1中的数据包含光谱的波数6 52,39 9 9 的数据,合计3348 列,数据维度过大,需要进行降维处理。不同种类的中药材,其含有的化学成分存在差异,并且不同的化学成分在不同波段的红外光谱中吸光度会不同,这样就会产生不同的峰;并且峰度也存在一定的差异,由此,我们可以通过判断不同波段的峰以及峰度值的差异来判断中药材是否属于相同的种类。通过观察图2 我们发现波段区10 0 0,12 0 0,16 0 0,17 0 0 等的吸光度的波动性非常大,说明这些波段所在的峰所代表的化学成分差异大,因而分析这些波动性大的区6536540450
9、0图1中红外光谱图200波段3999间有利于区分中药材的类别,同时可以达到降维0.009856的效果。利用Python软件求出每一个波长值对0.01742应的吸光度的极差,找出极差与极差均值的差值0.005553的绝对值大于2.2 的异常值,就可以找到吸光度0.003266差异大的波段区间为6 52,7 2 9,7 57,7 6 0,0.001061983,1082,16 31,16 51。这样我们可以将3348的原始数据降为2 0 3维,但是数据维度还是过大,我们采用主成分分析法来进一步降维6 。采用SPSS26.0软件进行效度检验,根据表2KMO和巴特利特检验显示,KMO值为0.9380.
10、5,样本量足够,巴特利特球形度检验的P值为0.0 0 0 8 5%,如波段表3总方差解释所示。25035001900.000A00陈丹,陈伟:基于机器学习的中药材鉴别方法表3总方差解释初始特征值成分总计1189.271212.67630.72540.156所以只需要选择前2 个主要成分就基本上保留了原来数据的代表9 9.48 2%的信息。数据的维度也就可以从2 0 3维降为2 维。3.聚类分析模型的建立机器学习按照有无监督可以分为有监督学习和无监督学习两类。有监督学习是指在训练数据中,每个样本都有一个已知的标签或输出值,模型通过学习这些标签或输出值来预测新的未知数据的标签或输出值。典型的有监督
11、学习算法包括决策树、支持向量机、逻辑回归等。无监督学习是指在训练数据中,没有给出样本的标签或输出值,模型需要自己发现数据中的结构和规律。典型的无监督学习算法包括聚类、主成分分析等。问题1是机器学习中的分类问题,由于没有明确的分类标准,属于无监督的分类方法。下面使用K-Means聚类分析的方法来解决这个分类问题。在使用K-Means聚类方法时,首先需要确定聚类的数量K值,这是一个非常重要的步骤。如果K值选择不合适,可能会导致分类效果不好,使得分类结果过于粗糙或过于细致。因此,选择合适的K值非常重要。我们通常使用轮廓系数法(Silhouette Coefficient)和肘部法则(ElbowMet
12、hod)来确定K值。轮廓系数通过计算每个数据点的轮廓系数来评估聚类的效果。轮廓系数是一个介于1和1之间的实数,它衡量了每个数据点距离所在簇的相似度和距离其他簇的不相似度。通常情况下,轮廓系数越接近1,聚类效果越好。肘部法则法通过计算不同K值下的聚类误差平方和(SSE),并绘制SSE与K值的折线图,找到SSE曲线出现类别个数11882147387提取载荷平方和方差百分比/%累积/%93.23793.2376.24499.4820.35799.8390.07799.916表4分类结果部分编号1,2,4,6,7,9,1,2,14,17,19,21,23.10,13,20,24,27,29,36,37
13、,42,43.3,5,8,11,15,16,18,22,25,26,28,33.总计189.27112.676“肘部”的位置,该位置的K值通常被认为是最佳的聚类数量。利用Python画出轮廓系数图和肘部法则图。图3展示了簇数与轮廓系数对应关系,当K等于3时,轮廓系数达到峰值,说明最佳聚类数为3。簇数与总的簇内离差平方和关系的折线图如图4所示。从图中可以看到,当K=3时,斜率突然由大变小,图像出现“肘部”,所以最佳聚类数应该为3。0.700.650.600.550.500.452图3轮廓系数法确定聚类数14121086422将K值设为3对降维得到的两个主成分数据进行K-Means 聚类分析,得到
14、下面的分类结果,如表4所示。67方差百分比/%93.2376.2443434聚类数图4肘部法则确定聚类数累积/%93.23799.48256聚类数576897济源职业技术学院学报将第一类用黑色表示,第二类深灰色表示,第(二)问题2 求解三类浅灰色表示,利用Python绘制三类中药材的1.数据预处理光谱曲线图。第二问数据来自2 0 2 1年全国大学生数学建0.4-模E题的附件2,如表5所示。数据包含了6 7 3个中药材样本的中红外光谱数据,其中59 8 种已0.3-经分类,合计11类,有15个中药材未分类。No列为药材的编号,OP列为药材的种类(未分类的药材种类空缺,比如第3个药材),第3列开始
15、第0.1-一行的数据表示光谱的波数(cm-)、第二行及其下面的数据表示在对应第一行波段红外光谱照射0.0-下的中药材的吸光度。60400No12345首先对附件中的数据进行检查,利用Python发现在附件中只有OP列有15个缺失值,为15个不知产品的中药材样本,其他列均无缺失值,利用3原则发现无异常值。利用Python作出光谱图,如图6 所示。1.501.25-1.00-0.750.500.250.002.基于机器学习方法的药材产地鉴别模型的建立问题2 中的数据大部分中药材样本有明确的分类标签,可以通过学习这些标签来预测未知的15个中药材的类别,这属于有监督的分类问题。常用的有监督分类方法有支
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 中药材 鉴别方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。