基于机器学习的微生物溶解有机碳含量估测.pdf
《基于机器学习的微生物溶解有机碳含量估测.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的微生物溶解有机碳含量估测.pdf(9页珍藏版)》请在咨信网上搜索。
1、生物技术进展生物技术进展 2023 年 第 13 卷 第 4 期 645 653Current Biotechnology ISSN 20952341技术与方法技术与方法Techniques and Methods基于机器学习的微生物溶解有机碳含量估测马云鹏,朱静*,崔兴华新疆农业大学计算机与信息工程学院,乌鲁木齐 830052摘 要:微生物群落会对所处环境的宏观性质产生重要影响,但微生物存在数据高维、复杂、稀疏的特点,为了解微生物与生态环境之间的关系提出了新的挑战。机器学习的发展以及第二代DNA测序技术应用的普及为解决这一问题提供了一种新的方法。利用308个样本共44 d的植物凋落物分解实验
2、的土壤微生物群和溶解有机碳(dissolved organic carbon,DOC)数据,并以1 709个细菌微生物操作分类单元(operational taxonomic units,OTU)作为特征构建12种常用的机器学习模型,采用嵌入法、包装法以及嵌入-包装融合法进行特征选择,并选择梯度提升决策树(gradient boosting decision tree,GBDT)作为最优模型进行参数优化。模型采用均方根误差、平均绝对误差、线性拟合优度作为评价指标。结果表明,特征筛选后降低了数据维度,提升了模型精度,在仿真实验中,嵌入-包装融合法在应用模型中表现最佳。将嵌入-包装融合法与梯度提升
3、决策树结合构建溶解有机碳预测模型,并通过实验验证了模型的有效性。研究结果为利用细菌微生物数据应用机器学习方法估测溶解有机碳提供了新思路。关键词:机器学习;微生物;特征筛选;建模预测;有机碳DOI:10.19586/j.20952341.2022.0007 中图分类号:TP181;Q93 文献标志码:AContent Estimating of Microbial Dissolved Organic Carbon Based on Machine LearningMA Yunpeng,ZHU Jing*,CUI XinghuaCollege of Computer and Information
4、 Engineering,Xinjiang Agricultural University,Urumqi 830052,ChinaAbstract:The microbial communities has an important impact on the macro nature of the environment.However,the characteristics of high-dimensional,complex and sparse microbial data also pose new challenges for understanding the relation
5、ship between microorganisms and ecological environment.The development of machine learning and the popularization of the application of the second generation DNA sequencing technology provided a new solution to this problem.In this study,soil microbiome and dissolved organic carbon(DOC)data of 308 s
6、amples from plant litter decomposition experiments for 44 days were used,and 1 709 operational taxonomic units(OTU)of bacteria and microorganisms were used as features to build 12 commonly used machine learning models.Embedding method,packaging method and embedd-packaging fusion method were used for
7、 feature selection,and gradient boosting decision tree(GBDT)was selected as the optimal model for parameter optimization.The model adopted root mean square error,mean absolute error and linear goodness of fit was used as evaluation indexes.The results showed that,the feature selection reduced the da
8、ta dimension and improved the model accuracy.In the simulation experiment,the embedding-packaging fusion method performs was the best in the application model.The prediction model of dissolved organic carbon was constructed by combining the embedding and packaging fusion method with gradient boostin
9、g decision tree,and the validity of the model was verified by experiments.The results provided a new way to estimate dissolved organic carbon using machine learning method based on bacterial and microbial data.Key words:machine learning;microorganism;feature screening;modeling prediction;organic car
10、bon收稿日期:20220117;接受日期:20220309基金项目:新疆畜牧科学院畜牧研究所基础研究项目(2020BD1002-2-2-2)。联系方式:马云鹏 E-mail:;*通信作者 朱静 E-mail:生物技术进展生物技术进展 Current Biotechnology微生物群落在不同的生态系统中发挥重要的作用,虽然微生物群系控制着许多宏观性质,但阐明特定微生物与生态系统功能之间的关系仍然是生态学中一个复杂的问题。第二代DNA测序技术降低了微生物群落中宏基因组数据的获取难度,使得利用微生物探究宏观性质变化成为可能。然而,微生物数据的分析也存在一定难度,每个研究只采用了少量样本,而且产生
11、的测序结果通常都是高维、稀疏的数据1。随着人工智能的发展,机器学习技术提供了一种分析高维数据的新方法2-3,并可用于阐明微生物菌群与环境属性及宿主表型之间的关系。研究显示,利用机器学习的随机森林模型和使用微生物菌群数据可以有效鉴定栖息地、宿主和疾病状态,并证明机器学习模型分类准确性较高4;Zeller等5利用线性回归模型结合微生物组数据,可以有效区分患者;Ning等6利用支持向量机模型可以有效对口腔微生物群落进行分类;Lo等7利用卷积神经网络结合微生物组数据可以预测宿主的健康状态;Bokulich等8认为机器学习结合微生物组数据不仅可以用于分类问题,还可以用于回归问题,相关机器学习算法也可用于
12、筛选微生物组数据重要特征,揭示相关微生物组数据与目标变量的重要程度,并从机器学习的角度为了解微生物组产生的影响提供一种新的视角。目前大部分的微生物组数据研究主要是探究宿主表型预测,以及微生物自身及相互之间产生的影响。最近的研究表明,土壤中含有大量微生物9,增温、森林植被、有机肥等均会影响土壤中的微生物数量,进而影响溶解有机碳(dissolved organic carbon,DOC)含量10-13。研究证明细菌微生物群落在碳循环中发挥重要的作用,并对土壤中DOC的丰度产生重要影响14,且第二代测序技术应用的普及为利用细菌微生物操作分类单元(operational taxonomic units
13、,OTU)丰度数据预测所产生的溶解有机碳提供了可能。OTU丰度单元是最常用的依据微生物组数据利用机器学习预测目标情况的输入特征,在生物信息学中为了便于对菌群进行分析,需要人为地对原始16S rRNA基因数据进行聚类操作。根据不同的相似度水平,对所有的测序数据进行OTU划分,一般情况下序列间相似性97%可以认定为同一个种,即一个OTU都是同属一个种的微生物。但是微生物组数据样本的数量一般远小于OTU丰度数据,造成数据高维的特点,传统的统计学方法难以有效地对高维数据进行处理,而机器学习可以从复杂、高维、大量的数据中进行学习,进而用于阐明微生物菌群与目标属性之间的联系15。本研究应用常见的12种机器
14、学习模型,根据细菌微生物菌群丰度预测来自植物凋落物分解的DOC含量,其中细菌微生物菌群的丰度被视为模型特征/自变量,DOC含量被视为模型的目标/因变量。所有数据用于机器学习,选择预测精度较优的前3种机器学习模型作为基模型,利用包装法、嵌套法及包装-嵌套融合方法进行特征选择,选取对DOC含量影响最大的特征子集,基于筛选出来的最优特征子集构建溶解有机碳估测模型,发现梯度提升决策树(gradient boosting decision tree,GBDT)模型具有最高精度,并对模型参数进行网格参数搜索优化,建立了DOC估测模型,以期为利用细菌微生物估测DOC含量提供新方法。1GBDT建模与方法1.1
15、GBDT建模GBDT算法是一种使用分类与回归树(calssification and regression tree,CART)作为决策树的Boosting 集成学习算法,既可以处理回归问题也可以处理分类问题,是利用加法模型和前向分布算法实现学习的优化过程,即 GBDT 是一系列CART回归树的加法组合,通过新建一棵树来拟合之前预测值与目标值的“残差”,即Boosting集成学习的核心思想为将一系列弱学习器进行组合,构成一个强学习器。GBDT建模如下。初始化弱学习器,估计使损失函数极小化的常数值,L()yi,c为GBDT的损失函数。f0()x=arg min i=1NL()yi,c(1)式中,
16、N为模型训练数据的样本数;yi为模型输出值;c为使得损失函数达到最小的常数。令迭代次数为m=1,2,M对样本i=1,2,N,计算损失函数在负梯度的值,作为残差估计。rmi=-L()yi,f()xif()xif()x=fm-1()x(2)646马云鹏,等:基于机器学习的微生物溶解有机碳含量估测式中,yi为模型输出值;f(xi)为迭代次数m次的上一次预测值。对rmi拟合一个回归树,得到第m棵树的叶节点区域Rmi,j=1,2,J,用以拟合残差近似值。对j=1,2,J,利用线性搜索估计叶节点区域的值,使损失函数极小化。mj=argminxi RmjLyi,fm-1()xi+m(3)式中,yi为模型输出
17、值;fm-1(xi)为迭代次数m次的上一次第i个样本的预测值;m为迭代次数m次时的节点残差拟合值。更新回归树,计算公式如公式(4)。fm(x)=fm-1(x)+j=1JmjI()x Rmj(4)式 中,fm-1(x)为 迭 代 m-1 次 的 预 测 值;mj为迭代m次第j个叶节点的残差拟合值;I为 指示函数。最终输出模型,见公式(5)。f(x)=fM(x)=m=1Mj=1JmjI(x Rmj)(5)式中,fM(x)为迭代M次最终的预测模型。1.2数据与方法1.2.1数据预处理本研究使用的数据来源于Johansen等16研究土壤微生物在植物凋落物分解产生的碳流量作用相关实验,数据已存入NCBI
18、序列档案(序列号:SRP151768)。在 Johansen 等16的研究中,将收集到的土壤样本中的微生物群落,接种到3个含有无菌沙粒和松木凋落物的相同微环境中,并在25 下孵育44 d。第44天,测定微环境中DOC含量,从相同微环境的一个子集中提取 DNA,并在 Illumina MiSeq 上对 16S rRNA 基因扩增子进行测序,通过对308个样品的细菌群落谱进行细化,得到了 1 023 条序列,共 2 521 个OTU丰度(表1)。首先对原始数据进行数据清洗。原始 OTU数据具有高维、稀疏的特征,也造就了大量空值,将原始数据中所有样本共有的OTU丰度单元数据为0的列进行删除,删除空缺
19、列后得到1 709个特定分类单元的丰度数据,因在原始的数据中OTU丰度有的高达上万,有的为零,很容易出现“大数吃小数”的问题,在机器学习中算法模型容易忽略丰度较小的OTU特征,因此需要将原始数据进行归一化处理,见公式(6)。x*=x-xminxmax-xmin(6)式中,x*为经过归一化后得到的数据;x 为特征数据;xmin为特征数据的最小值;xmax为特征数据的最大值。将数据进行归一化处理之后可以消除量级的影响,使结果映射到 0,1 之间,进行归一化后的数据用于机器学习训练,可以有效提高模型的收敛速度及预测精度。1.2.2特征选择本研究中主要使用了 Embedded 嵌入法中的特征重要性度量
20、(feature importance select,FIS)、Wrapper 包装法中的递归消除特征(recursive feature elimination,RFE)及包装法-嵌入法融合这3种特征选择方法。嵌入法首先使用基学习模型进行训练,利用基学习模型得到特征的权值系数,然后根据权值系数从大到小的选择特征。嵌入法是一种可以自己选择使用哪些特征的方法,即算法训练和筛选特征同时进行(图1)。包装法与嵌入法类似,也是通过自身算法对特征进行选择,通过目标函数来获得特征的重要性,并在每次迭代时保留最佳特征或者剔除最差表1OTU部分样表Table 1OTU partial sample table
21、样本样本1样本2样本3样本4样本5操作分类单元编号OTU_40101402621022OTU_1238288926OTU_9601010906OTU_2017011173OTU_1100000OTU_62736720OTU_25001800DOC含量/(mgg-1)10.467.005.008.429.46注:OTU操作分类单元;DOC溶解有机碳。647生物技术进展生物技术进展 Current Biotechnology特征,并在下一次迭代时使用以前未使用过的特征来构建模型,直至将所有特征用尽,然后根据保留或剔除特征的顺序来选择一个最佳特征子集(图2)。嵌入法考虑单个特征对目标的影响,模型简单
22、,计算开销比较小,包装法考虑特征子集对目标的影响程度,弥补了嵌入法针对特征筛选不足的情况,但是反复构建模型计算开销比较大。因此本研究首先使用嵌入法筛选出对目标变量影响比较大的特征,然后利用包装法对嵌入法筛选出来的特征进行二次特征筛选(图3)。1.2.3交叉验证交叉验证法(cross validation)是将数据集D均匀的划为k份且互斥的子集,循环每次用 k-1个子集的并集当作训练集,余下的子集作为测试集,即可进行k次训练和测试。交叉验证相比较原始的一次性划分数据有诸多优点,如可以明显降低一次划分所造成的随机性;模型进行k次训练可以充分的利用原始数据并且提高模型的泛化能力。1.2.4评价指标评
23、价指标采用均方根误差(root mean squared error,RMSE)、平均绝对误差(mean absolute error,MAE)及线性拟合优度(coefficient of determination,R2)来评价本研究的模型。RMSE为预测值和真实值之间误差平方和的平均数的平方根,用来衡量预测值同真值之间的偏差,见公式(7)。RMSE(y,y)=1mi=1m()yi-yi2(7)式中,y为真实值;y为预测值;m为数据量;yi为第i条数据的DOC实测值;yi为第i条数据的DOC预测值。特征子集全部特征算法+模型评估算法依赖于模型评估完成特征选择图1嵌入法特征选择过程Fig.1F
24、eature selection process of embedding method获取特征子集全部特征算法算法依赖于模型评估完成特征选择模型评估特征图2包装法特征选择过程Fig.2Feature selection process of wrapper method特征子集全部特征算法+模型评估嵌入法获取特征子集嵌入法筛选之后的特征算法包装法最优特征子集图3包装-嵌套融合法特征选择过程Fig.3Feature selection process of wrapper-embedded fusion method648马云鹏,等:基于机器学习的微生物溶解有机碳含量估测MAE表示预测值和真实
25、值之间绝对误差的平均值,能反映预测值误差的实际情况,见公式(8)。MAE(y,y)=1mi=1m|yi-yi(8)式中,y为真实值;y为预测值;m为数据量;yi为第i条数据的DOC实测值;yi为第i条数据的DOC预测值。R2的取值范围为 0,1 之间,越接近于 1,说明模型的拟合效果越好,见公式(9)。R2=1-i=1m()yi-yi2i=1m()yi-y 2(9)式中,m为数据量;yi为第i条数据的DOC实测值;yi为第i条数据的DOC预测值,y 为m条数据的DOC平均值。1.2.5实验方案将人工剔除空值的 OTU 丰度数据(共1 709个特征)归一化后应用于初始的12种机器学习方法。将30
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 微生物 溶解 有机 含量 估测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。