分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于机器学习的微生物溶解有机碳含量估测.pdf

基于机器学习的微生物溶解有机碳含量估测.pdf

上传人：自信****多点

文档编号：639480

上传时间：2024-01-22

格式：PDF

页数：9

大小：2.37MB

《基于机器学习的微生物溶解有机碳含量估测.pdf》由会员分享，可在线阅读，更多相关《基于机器学习的微生物溶解有机碳含量估测.pdf（9页珍藏版）》请在咨信网上搜索。

1、生物技术进展生物技术进展 2023 年第 13 卷第 4 期 645 653Current Biotechnology ISSN 20952341技术与方法技术与方法Techniques and Methods基于机器学习的微生物溶解有机碳含量估测马云鹏，朱静*，崔兴华新疆农业大学计算机与信息工程学院，乌鲁木齐 830052摘要：微生物群落会对所处环境的宏观性质产生重要影响，但微生物存在数据高维、复杂、稀疏的特点，为了解微生物与生态环境之间的关系提出了新的挑战。机器学习的发展以及第二代DNA测序技术应用的普及为解决这一问题提供了一种新的方法。利用308个样本共44 d的植物凋落物分解实验

2、的土壤微生物群和溶解有机碳（dissolved organic carbon，DOC）数据，并以1 709个细菌微生物操作分类单元（operational taxonomic units，OTU）作为特征构建12种常用的机器学习模型，采用嵌入法、包装法以及嵌入-包装融合法进行特征选择，并选择梯度提升决策树（gradient boosting decision tree，GBDT）作为最优模型进行参数优化。模型采用均方根误差、平均绝对误差、线性拟合优度作为评价指标。结果表明，特征筛选后降低了数据维度，提升了模型精度，在仿真实验中，嵌入-包装融合法在应用模型中表现最佳。将嵌入-包装融合法与梯度提升

3、决策树结合构建溶解有机碳预测模型，并通过实验验证了模型的有效性。研究结果为利用细菌微生物数据应用机器学习方法估测溶解有机碳提供了新思路。关键词：机器学习；微生物；特征筛选；建模预测；有机碳DOI：10.19586/j.20952341.2022.0007 中图分类号：TP181;Q93 文献标志码：AContent Estimating of Microbial Dissolved Organic Carbon Based on Machine LearningMA Yunpeng，ZHU Jing*，CUI XinghuaCollege of Computer and Information

4、 Engineering，Xinjiang Agricultural University，Urumqi 830052，ChinaAbstract：The microbial communities has an important impact on the macro nature of the environment.However，the characteristics of high-dimensional，complex and sparse microbial data also pose new challenges for understanding the relation

5、ship between microorganisms and ecological environment.The development of machine learning and the popularization of the application of the second generation DNA sequencing technology provided a new solution to this problem.In this study，soil microbiome and dissolved organic carbon（DOC）data of 308 s

6、amples from plant litter decomposition experiments for 44 days were used，and 1 709 operational taxonomic units（OTU）of bacteria and microorganisms were used as features to build 12 commonly used machine learning models.Embedding method，packaging method and embedd-packaging fusion method were used for

7、 feature selection，and gradient boosting decision tree（GBDT）was selected as the optimal model for parameter optimization.The model adopted root mean square error，mean absolute error and linear goodness of fit was used as evaluation indexes.The results showed that，the feature selection reduced the da

8、ta dimension and improved the model accuracy.In the simulation experiment，the embedding-packaging fusion method performs was the best in the application model.The prediction model of dissolved organic carbon was constructed by combining the embedding and packaging fusion method with gradient boostin

9、g decision tree，and the validity of the model was verified by experiments.The results provided a new way to estimate dissolved organic carbon using machine learning method based on bacterial and microbial data.Key words：machine learning；microorganism；feature screening；modeling prediction；organic car

10、bon收稿日期：20220117；接受日期：20220309基金项目：新疆畜牧科学院畜牧研究所基础研究项目（2020BD1002-2-2-2）。联系方式：马云鹏 E-mail：；*通信作者朱静 E-mail：生物技术进展生物技术进展 Current Biotechnology微生物群落在不同的生态系统中发挥重要的作用，虽然微生物群系控制着许多宏观性质，但阐明特定微生物与生态系统功能之间的关系仍然是生态学中一个复杂的问题。第二代DNA测序技术降低了微生物群落中宏基因组数据的获取难度，使得利用微生物探究宏观性质变化成为可能。然而，微生物数据的分析也存在一定难度，每个研究只采用了少量样本，而且产生

11、的测序结果通常都是高维、稀疏的数据1。随着人工智能的发展，机器学习技术提供了一种分析高维数据的新方法2-3，并可用于阐明微生物菌群与环境属性及宿主表型之间的关系。研究显示，利用机器学习的随机森林模型和使用微生物菌群数据可以有效鉴定栖息地、宿主和疾病状态，并证明机器学习模型分类准确性较高4；Zeller等5利用线性回归模型结合微生物组数据，可以有效区分患者；Ning等6利用支持向量机模型可以有效对口腔微生物群落进行分类；Lo等7利用卷积神经网络结合微生物组数据可以预测宿主的健康状态；Bokulich等8认为机器学习结合微生物组数据不仅可以用于分类问题，还可以用于回归问题，相关机器学习算法也可用于

12、筛选微生物组数据重要特征，揭示相关微生物组数据与目标变量的重要程度，并从机器学习的角度为了解微生物组产生的影响提供一种新的视角。目前大部分的微生物组数据研究主要是探究宿主表型预测，以及微生物自身及相互之间产生的影响。最近的研究表明，土壤中含有大量微生物9，增温、森林植被、有机肥等均会影响土壤中的微生物数量，进而影响溶解有机碳（dissolved organic carbon，DOC）含量10-13。研究证明细菌微生物群落在碳循环中发挥重要的作用，并对土壤中DOC的丰度产生重要影响14，且第二代测序技术应用的普及为利用细菌微生物操作分类单元（operational taxonomic units

13、，OTU）丰度数据预测所产生的溶解有机碳提供了可能。OTU丰度单元是最常用的依据微生物组数据利用机器学习预测目标情况的输入特征，在生物信息学中为了便于对菌群进行分析，需要人为地对原始16S rRNA基因数据进行聚类操作。根据不同的相似度水平，对所有的测序数据进行OTU划分，一般情况下序列间相似性97%可以认定为同一个种，即一个OTU都是同属一个种的微生物。但是微生物组数据样本的数量一般远小于OTU丰度数据，造成数据高维的特点，传统的统计学方法难以有效地对高维数据进行处理，而机器学习可以从复杂、高维、大量的数据中进行学习，进而用于阐明微生物菌群与目标属性之间的联系15。本研究应用常见的12种机器

14、学习模型，根据细菌微生物菌群丰度预测来自植物凋落物分解的DOC含量，其中细菌微生物菌群的丰度被视为模型特征/自变量，DOC含量被视为模型的目标/因变量。所有数据用于机器学习，选择预测精度较优的前3种机器学习模型作为基模型，利用包装法、嵌套法及包装-嵌套融合方法进行特征选择，选取对DOC含量影响最大的特征子集，基于筛选出来的最优特征子集构建溶解有机碳估测模型，发现梯度提升决策树（gradient boosting decision tree，GBDT）模型具有最高精度，并对模型参数进行网格参数搜索优化，建立了DOC估测模型，以期为利用细菌微生物估测DOC含量提供新方法。1GBDT建模与方法1.1

15、GBDT建模GBDT算法是一种使用分类与回归树（calssification and regression tree，CART）作为决策树的Boosting 集成学习算法，既可以处理回归问题也可以处理分类问题，是利用加法模型和前向分布算法实现学习的优化过程，即 GBDT 是一系列CART回归树的加法组合，通过新建一棵树来拟合之前预测值与目标值的“残差”，即Boosting集成学习的核心思想为将一系列弱学习器进行组合，构成一个强学习器。GBDT建模如下。初始化弱学习器，估计使损失函数极小化的常数值，L()yi，c为GBDT的损失函数。f0()x=arg min i=1NL()yi,c（1）式中，

16、N为模型训练数据的样本数；yi为模型输出值；c为使得损失函数达到最小的常数。令迭代次数为m=1，2，M对样本i=1，2，N，计算损失函数在负梯度的值，作为残差估计。rmi=-L()yi,f()xif()xif()x=fm-1()x（2）646马云鹏，等：基于机器学习的微生物溶解有机碳含量估测式中，yi为模型输出值；f(xi)为迭代次数m次的上一次预测值。对rmi拟合一个回归树，得到第m棵树的叶节点区域Rmi，j=1，2，J，用以拟合残差近似值。对j=1，2，J，利用线性搜索估计叶节点区域的值，使损失函数极小化。mj=argminxi RmjLyi,fm-1()xi+m（3）式中，yi为模型输出

17、值；fm-1(xi)为迭代次数m次的上一次第i个样本的预测值；m为迭代次数m次时的节点残差拟合值。更新回归树，计算公式如公式（4）。fm(x)=fm-1(x)+j=1JmjI()x Rmj（4）式中，fm-1(x)为迭代 m-1 次的预测值；mj为迭代m次第j个叶节点的残差拟合值；I为指示函数。最终输出模型，见公式（5）。f(x)=fM(x)=m=1Mj=1JmjI(x Rmj)（5）式中，fM(x)为迭代M次最终的预测模型。1.2数据与方法1.2.1数据预处理本研究使用的数据来源于Johansen等16研究土壤微生物在植物凋落物分解产生的碳流量作用相关实验，数据已存入NCBI

18、序列档案（序列号：SRP151768）。在 Johansen 等16的研究中，将收集到的土壤样本中的微生物群落，接种到3个含有无菌沙粒和松木凋落物的相同微环境中，并在25 下孵育44 d。第44天，测定微环境中DOC含量，从相同微环境的一个子集中提取 DNA，并在 Illumina MiSeq 上对 16S rRNA 基因扩增子进行测序，通过对308个样品的细菌群落谱进行细化，得到了 1 023 条序列，共 2 521 个OTU丰度（表1）。首先对原始数据进行数据清洗。原始 OTU数据具有高维、稀疏的特征，也造就了大量空值，将原始数据中所有样本共有的OTU丰度单元数据为0的列进行删除，删除空缺

19、列后得到1 709个特定分类单元的丰度数据，因在原始的数据中OTU丰度有的高达上万，有的为零，很容易出现“大数吃小数”的问题，在机器学习中算法模型容易忽略丰度较小的OTU特征，因此需要将原始数据进行归一化处理，见公式（6）。x*=x-xminxmax-xmin（6）式中，x*为经过归一化后得到的数据；x 为特征数据；xmin为特征数据的最小值；xmax为特征数据的最大值。将数据进行归一化处理之后可以消除量级的影响，使结果映射到 0，1 之间，进行归一化后的数据用于机器学习训练，可以有效提高模型的收敛速度及预测精度。1.2.2特征选择本研究中主要使用了 Embedded 嵌入法中的特征重要性度量

20、（feature importance select，FIS）、Wrapper 包装法中的递归消除特征（recursive feature elimination，RFE）及包装法-嵌入法融合这3种特征选择方法。嵌入法首先使用基学习模型进行训练，利用基学习模型得到特征的权值系数，然后根据权值系数从大到小的选择特征。嵌入法是一种可以自己选择使用哪些特征的方法，即算法训练和筛选特征同时进行（图1）。包装法与嵌入法类似，也是通过自身算法对特征进行选择，通过目标函数来获得特征的重要性，并在每次迭代时保留最佳特征或者剔除最差表1OTU部分样表Table 1OTU partial sample table

21、样本样本1样本2样本3样本4样本5操作分类单元编号OTU_40101402621022OTU_1238288926OTU_9601010906OTU_2017011173OTU_1100000OTU_62736720OTU_25001800DOC含量/（mgg-1）10.467.005.008.429.46注：OTU操作分类单元；DOC溶解有机碳。647生物技术进展生物技术进展 Current Biotechnology特征，并在下一次迭代时使用以前未使用过的特征来构建模型，直至将所有特征用尽，然后根据保留或剔除特征的顺序来选择一个最佳特征子集（图2）。嵌入法考虑单个特征对目标的影响，模型简单

22、，计算开销比较小，包装法考虑特征子集对目标的影响程度，弥补了嵌入法针对特征筛选不足的情况，但是反复构建模型计算开销比较大。因此本研究首先使用嵌入法筛选出对目标变量影响比较大的特征，然后利用包装法对嵌入法筛选出来的特征进行二次特征筛选（图3）。1.2.3交叉验证交叉验证法（cross validation）是将数据集D均匀的划为k份且互斥的子集，循环每次用 k-1个子集的并集当作训练集，余下的子集作为测试集，即可进行k次训练和测试。交叉验证相比较原始的一次性划分数据有诸多优点，如可以明显降低一次划分所造成的随机性；模型进行k次训练可以充分的利用原始数据并且提高模型的泛化能力。1.2.4评价指标评

23、价指标采用均方根误差（root mean squared error，RMSE）、平均绝对误差（mean absolute error，MAE）及线性拟合优度（coefficient of determination，R2）来评价本研究的模型。RMSE为预测值和真实值之间误差平方和的平均数的平方根，用来衡量预测值同真值之间的偏差，见公式（7）。RMSE(y,y)=1mi=1m()yi-yi2（7）式中，y为真实值；y为预测值；m为数据量；yi为第i条数据的DOC实测值；yi为第i条数据的DOC预测值。特征子集全部特征算法+模型评估算法依赖于模型评估完成特征选择图1嵌入法特征选择过程Fig.1F

24、eature selection process of embedding method获取特征子集全部特征算法算法依赖于模型评估完成特征选择模型评估特征图2包装法特征选择过程Fig.2Feature selection process of wrapper method特征子集全部特征算法+模型评估嵌入法获取特征子集嵌入法筛选之后的特征算法包装法最优特征子集图3包装-嵌套融合法特征选择过程Fig.3Feature selection process of wrapper-embedded fusion method648马云鹏，等：基于机器学习的微生物溶解有机碳含量估测MAE表示预测值和真实

25、值之间绝对误差的平均值，能反映预测值误差的实际情况，见公式（8）。MAE(y,y)=1mi=1m|yi-yi（8）式中，y为真实值；y为预测值；m为数据量；yi为第i条数据的DOC实测值；yi为第i条数据的DOC预测值。R2的取值范围为 0，1 之间，越接近于 1，说明模型的拟合效果越好，见公式（9）。R2=1-i=1m()yi-yi2i=1m()yi-y 2（9）式中，m为数据量；yi为第i条数据的DOC实测值；yi为第i条数据的DOC预测值，y 为m条数据的DOC平均值。1.2.5实验方案将人工剔除空值的 OTU 丰度数据（共1 709个特征）归一化后应用于初始的12种机器学习方法。将30

26、8个样本按照10倍交叉验证法分成训练集和测试集，训练集用于机器学习训练，测试集用于评估机器学习模型，由于数据量小而且特征多，因此为了避免过拟合现象的发生，使用10倍交叉验证的方式应用于原始数据进行模型参数调参，可以检测模型的泛化性和稳定性，让模型的输出结果更为可靠。如果只将数据进行简单的人为划分，则会增加样本划分的偶然性，使得预测模型变得不准确。将数据进行10折划分后，所有的数据都可用于模型训练，增加了数据利用率，同时通过10折交叉验证来确定模型的参数，是经过10次比较得出的相对最优模型，可以一定程度上防止过拟合和欠拟合现象的发生17。所有机器学习模型构建使用Python语言，应用Pychar

27、m软件结合sklearn库，各机器学习模型使用默认参数。将初始的12种机器学习方法，依照 RMSE、MAE、R2这 3 种评价指标选择前3种较优的机器学习模型作为基学习模型用于特征选择，结合包装法、嵌入法、包装-嵌入融合方法选取最优的特征子集。将选取的最优特征子集用于初始训练表现最好的机器学习模型，使用网格搜索（grid search，GS）参数优化方法进行参数寻优，从而确定预测模型的最优参数。2结果与分析2.1机器学习预测结果由表 2 可知，应用 12 种机器学习模型进行预测，GBDT 表现最优，选取较优的 3 种模型，即GBDT、随机森林（random forest，RF）和极限树（ext

28、ratree，ET）作为基模型用于包装法的递归消除特征（recursive feature elimination，RFE），选择GBDT用于嵌入法的特征重要性度量（feature importance select，FIS）以及嵌入-包装融合法（RFE-FIS）作为对比。2.2基模型不同的递归消除特征结果以GBDT为基模型的递归消除特征得到112个OTU丰度单元评分最高（图5）。以RF为基模型的递归消除特征得到88个OTU丰度单元评分最高（图6）。以ET为基模型的递归消除特征得到141个OTU丰度单元评分最高（图7）。以上结果表明基模型不同则通过递归消除特征选取的最佳特征子集不同，应用递归消

29、除特征来进行特征选择时，基模型选择至关重要。DK1K2K3K4K5K7K8K6K9K10训练集K1K2K3K4K5K7K8K6K9K10测试集K1K2K3K4K5K7K8K6K9K10K1K2K3K4K5K7K8K6K10K9结果1结果2结果10平均结果图410折交叉验证示意图Fig.410-fold cross-validation schematic diagram649生物技术进展生物技术进展 Current Biotechnology2.3融合模型选择特征结果使用GBDT作为基模型用于特征重要性选择FIS（GBDT）得到246个OTU丰度单元特征最为重要，然后使用递归消除特征以GBDT

30、为基模型进行二次特征选择得到140个OTU丰度单元评分最高（图8）。筛选得到的140个菌群操作分类单元具体编号如表3所示。结果表明，经过特征重要性度量筛选后，对DOC有影响的特征有246个，但是特征重要性度量只考虑了单个特征对DOC的影响，未考虑多特征对DOC的影响，因此使用递归消除特征进行二次特征选择，可对特征进一步缩减，得到了包含140个特征的最优特征子集。图8也表明140个特征子集的模型交叉验证得分最高。2.4预测结果分析将筛选之后得到的特征用于较优的 GBDT、RF及ET模型可得如表4所示的预测结果。进一图6RFE（RF）特征选择Fig.6RFE（RF）feature selectio

31、n图8RFE-FIS（GBDT）特征选择Fig.8RFE-FIS（GBDT）feature select表2多种机器学习模型预测结果Table 2Prediction results of multiple machine learning models算法套索回归弹性网回归支持向量机决策树K近邻多层感知机极限树极限梯度提升决策树随机森林自适应增强算法引导聚集算法梯度提升决策树RMSE2.460 62.305 82.389 32.779 22.748 62.549 01.995 52.049 11.979 12.073 42.103 51.955 4MAE1.979 11.804 41.894

32、 22.131 42.097 02.116 51.551 81.576 01.515 41.620 51.622 91.472 4R20.305 20.390 50.342 10.065 00.146 70.262 20.539 90.508 10.544 50.503 10.477 20.558 5注：RMSE均方根误差；MAE平均绝对误差；R2线性拟合优度。图5RFE（GBDT）特征选择Fig.5RFE（GBDT）feature selection图7RFE（ET）特征选择Fig.7RFE（ET）feature selection650马云鹏，等：基于机器学习的微生物溶解有机碳含量估测步分

33、析表明，GBDT算法模型应用经过二次特征选择的140个特征取得较优的预测结果，利用网格参数搜索法进一步提升模型的精度，网格搜索法在 GBDT 模型的参数空间中对参数值进行分割，化为网格，以尝试每种参数，获得模型的最优参数解。sklearn库中GBDT算法模型的默认参数学习率（learning_rate）为 0.1，构造回归树的数量（n_estimators）为100，最大数深（max_depth）为3，对模型影响较大的3种参数使用网格搜索如表5所示。经过网格搜索得到GBDT算法模型的最优参数为学习率0.07，树的数量574，最大深度3，优化前后的对比精度如表6所示，优化后预测结果与真实值对比如

34、图9所示，经历过特征选择和参数优化后的GBDT模型预测值与真实值的线性拟合效果如图10所示。以上结果表明，经历过特征选择及参数优化的算法模型对比初始模型的预测精度明显提高。根据测试数据可知，在3种评价指标下进行过数据特征选择以及模型参数优化后的GBDT模型达到了最优的预测精度，相比应用最初原始的1 709个特征，经过二次特征选择及参数优化后的GBDT模型精度得到显著提高，筛选出了对 DOC 影响至关重要的 140个 OTU 丰度特征，降低了特征数，使得该模型的预测值最为接近实际值。表5模型参数网格搜索范围Table 5Model parameter grid search range参数lea

35、rning_raten_estimatorsmax_depth搜索范围0.010.21001 000110搜索步长0.011.001.00表4模型预测结果Table 4Model prediction results特征选择方法RFE（RF）RFE（GBDT）RFE（ET）FIS（GBDT）RFE-FIS（GBDT）算法梯度提升决策树极限树随机森林梯度提升决策树极限树随机森林梯度提升决策树极限树随机森林梯度提升决策树极限树随机森林梯度提升决策树极限树随机森林RMSE1.940 71.963 11.958 51.821 21.855 11.905 81.954 31.874 01.936 51.

36、864 41.937 11.956 41.818 81.914 61.924 7MAE1.478 61.501 01.486 01.377 51.420 51.453 71.487 61.425 91.474 21.412 11.499 31.493 81.386 81.466 31.459 3R20.579 20.566 90.566 90.618 30.601 50.581 80.556 30.597 60.566 10.601 30.566 70.555 80.620 30.577 80.570 2注：RFE递归消除特征；RF随机森林；GBDT梯度提升决策树；ET极限树；FIS特征重要性

37、度量；RMSE均方根误差；MAE平均绝对误差；R2线性拟合优度。表3REF-FIS（GBDT）特征选择OTU表Table 3RFE-FIS（GBDT）feature selection OTU table操作分类单元编号OTU_401OTU_57OTU_273OTU_181OTU_138OTU_267OTU_70OTU_10OTU_28OTU_1111OTU_358OTU_3002OTU_363OTU_545OTU_12OTU_202OTU_389OTU_100OTU_16OTU_29OTU_82OTU_9OTU_51OTU_1200OTU_2512OTU_320OTU_357OTU_698O

38、TU_960OTU_160OTU_292OTU_120OTU_167OTU_309OTU_98OTU_45OTU_84OTU_1974OTU_713OTU_953OTU_407OTU_1348OTU_20OTU_574OTU_636OTU_81OTU_170OTU_313OTU_1OTU_1033OTU_5179OTU_103OTU_3826OTU_1509OTU_458OTU_5531OTU_11OTU_249OTU_23OTU_262OTU_1914OTU_329OTU_15OTU_44OTU_56OTU_2139OTU_179OTU_226OTU_372OTU_4794OTU_6OTU_

39、95OTU_101OTU_1259OTU_21OTU_3858OTU_8OTU_193OTU_54OTU_950OTU_211OTU_347OTU_1052OTU_2669OTU_40OTU_188OTU_4022OTU_616OTU_22OTU_473OTU_7OTU_35OTU_77OTU_106OTU_1119OTU_169OTU_581OTU_516OTU_53OTU_221OTU_539OTU_5OTU_220OTU_474OTU_13OTU_32OTU_75OTU_235OTU_1569OTU_470OTU_652OTU_994OTU_150OTU_1469OTU_61OTU_10

40、19OTU_227OTU_534OTU_18OTU_27OTU_94OTU_251OTU_201OTU_293OTU_5988OTU_4277OTU_55OTU_3824OTU_146OTU_1032OTU_24OTU_597OTU_26OTU_131OTU_1297OTU_431OTU_2586OTU_5841OTU_1550OTU_5059注：OTU操作分类单元。651生物技术进展生物技术进展 Current Biotechnology3讨论Johansen等16的研究证明，细菌群落相比真菌群落与溶解有机碳之间有更强的联系；Thompson等18利用Johansen等16的数据通过随机森林

41、的特征重要性度量、人工神经网络以及指示种分析 3 种特征选择方法，得到共有的 86 个 OTU 特征。应用随机森林结合筛选得到的86个特征预测DOC的含量，预测值与真实值的皮尔逊相关系数为0.636，线性拟合优度为0.404 5，应用人工神经网络得到的预测值与真实值的皮尔逊相关系数为0.676，线性拟合优度为0.456 9。本研究的结果与Thompson等18的结果相似，证明机器学习可以作为高维稀疏微生物数据的特征选择工具，以及利用细菌微生物菌群反推溶解有机碳含量的一种技术手段，并取得了较好的效果，也从侧面印证了Johansen等16研究结果的科学性。本研究与先前研究不同点在于：通过对原始数据

42、进行数据处理和特征选择，并构建了12种机器学习模型进行对比分析，超过了Thompson等18研究的2种机器学习方法；使用了5种特征选择方法，多于 Thompson 等18使用的 3 种方法；Thompson等18将数据特征降低到86个，本研究将数据特征降低到 140个，经过参数优化后的 GBDT 模型表现最优，DOC预测值与真实值的皮尔逊相关系数为 0.812，线性拟合优度为 0.659 9，优于Thompson等18的研究；Thompson等18的研究选择了257个样本作为训练集，51个样本作为测试集，这样简单的划分具有较大的随意性，本研究为了减少样本划分对实验模型的影响，

43、同时降低模型过拟合的风险使用了十折交叉验证，使得结果更具有说服力。通过网格搜索对GBDT模型进行参数优化，最优参数为学习率0.07，树的数量574，数模型的最大深度3，此时模型10折交叉验证的均方根误差为1.722 0，平均绝对误差为1.293 4，线性回归拟合优度为0.659 9，模型预测精度比参数优化前明显提高。从机器学习的角度解释了细菌微生物菌群中特定的140个操作分类单元与溶解有机碳有较强的关系，证明仅依靠140个OTU丰度数据即可较好地得到溶解有机碳的估测值，该模型在一定程度上解决了数据特征问题，而且也简化了研究人员的实验环节，但是该模型也只是估测，无法达到Johansen等16真实

44、实验所得到的数据，所以与真实结果略有不同，但也为利用细菌微生物估测溶解有机碳提供了一种新的方法。本研究对细菌微生物菌群与溶解有机碳进行了初步探索，但仍存在许多重要的问题值得进一步研究，如本实验的数据是在实验室人为设定条件下得到的测量值，无法真实模拟野外环境；虽然样本数量足够微生物学家研究使用，但是机器学习使用还略有不足；研究数据仅考虑细菌丰度对溶解有机碳的影响，未考虑时间进程和细菌丰度之间综合影响溶解有机碳含量的关系等。未来研图9预测值与真实值对比图Fig.9Comparison figure between predicted and true values图10线性拟合效果图Fig.10L

45、inear fitting effect draw表6参数优化后精度对比Table 6Precision comparison after parameter optimization模型状态RFE-FIS（GBDT）GS-RFE-FIS（GBDT）RMSE1.818 81.722 0MAE1.386 81.293 4R20.620 30.659 9注：RFE递归消除特征；FIS特征重要性度量；GBDT梯度提升决策树；GS网络搜索；RMSE均方根误差；MAE平均绝对误差；R2线性拟合优度。652马云鹏，等：基于机器学习的微生物溶解有机碳含量估测究需进行更多实地研究以更好地了解野外环境下的细菌微

46、生物与溶解有机碳之间的关系，以佐证本实验结果。随着实验样本量的增加，新兴的深度学习可以更好地拟合大数据，发现更深层次的特征，取得比机器学习更好的预测效果19，使得未来依据细菌微生物来推测一段时间内溶解有机碳的变化趋势成为一种可能。综上所述，未来机器学习将会成为分析微生物菌群与其所产生的影响的一个重要工具，研究者应积极利用新技术，探索两者之间的结合点，并借助计算机强大的计算能力，使其成为未来微生物菌群分析的重要工具。参考文献 1 LI H Z.Microbiome,metagenomics,and high-dimensional compositional data analysisJ.Ann

47、.Rev.Stat.Appl.,2015,2:73-94.2 SARKER I H.Machine learning:Algorithms,real-world applications and research directionsJ.SN Comput.Sci.,2021,2(3):1-21.3 HASAN B M S,ABDULAZEEZ A M.A review of principal component analysis algorithm for dimensionality reductionJ.J.Soft Comput.Data Min.,2021,2(1):20-30.4

48、 STATNIKOV A,HENAFF M,NARENDRA V,et al.A comprehensive evaluation of multicategory classification methods for microbiomic dataJ.Microbiome,2013,1(1):1-12.5 ZELLER G,TAP J,VOIGT A Y,et al.Potential of fecal microbiota for early:tage detection of colorectal cancerJ/OL.Mol.Syst.Biol.,2014,10(11):766202

49、2-05-06.https:/doi.org/10.15252/msb.20145645.6 NING J,BEIKO R G.Phylogenetic approaches to microbial community classificationJ.Microbiome,2015,3(1):1-13.7 LO C,MARCULESCU R.MetaNN:accurate classification of host phenotypes from metagenomic data using neural networksJ.BMC Bioinform.,2019,20(12):1-14.

50、8 BOKULICH N A,DILLON M R,BOLYEN E,et al.q2-sample-classifier:machine-learning tools for microbiome classification and regressionJ/OL.J.Open Res.Softw.,2018,3(30):9342022-05-06.https:/doi.org/10.21105/joss.00934.9 黄荣才,高胜涛,范士杰,等.畜禽粪污源抗生素及耐药基因在环境中的归趋J.生物技术进展,2019,9(2):146-151.10 刘超,王宪伟,宋艳宇,等.增温对冻土区泥炭沼

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于机器学习微生物溶解有机含量估测

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。