基于随机森林下的云南省耕地利用效率测算及基尼系数分析.pdf
《基于随机森林下的云南省耕地利用效率测算及基尼系数分析.pdf》由会员分享,可在线阅读,更多相关《基于随机森林下的云南省耕地利用效率测算及基尼系数分析.pdf(6页珍藏版)》请在咨信网上搜索。
1、湖北农业科学2023 年收稿日期:2022-06-06基金项目:国家科技支撑计划课题(2015BAD06B04)作者简介:李昊勋(1997-),男,云南开远人,在读硕士研究生,研究方向为土地整治利用,(电话)18314592913(电子信箱);通信作者,郑宏刚(1971-),男,云南禄丰人,教授,硕士,主要从事国土资源利用与水土保持研究,(电话)13888695662(电子信箱)。第 62 卷第 7 期2023 年 7 月湖北农业科学Hubei Agricultural SciencesVol.62 No.7Jul.,2023李昊勋,郑宏刚,刘淑霞,等.基于随机森林下的云南省耕地利用效率测算及
2、基尼系数分析 J.湖北农业科学,2023,62(7):32-37耕地是一种为人类提供粮食作物的特定资源和生产要素,也是人类赖以生存和保证社会生产发展、国家粮食稳定和生态稳定可持续的重要基础之一,始终是不可替代的农业生产资料1,2。目前,随着粮食安全战略的推进,耕地利用效率的研究与实践存在着一系列问题,如何精准分析耕地利用率的现状基于随机森林下的云南省耕地利用效率测算及基尼系数分析李昊勋a,郑宏刚b,刘淑霞b,赵昊a,陈冉a(云南农业大学,a.资源与环境学院;b.水利学院,昆明650201)摘要:以20112020年云南省16个地州市为研究对象,对地均农业机械动力、地均劳动力等10个指标进行数据
3、收集,在R语言中的随机森林算法下得到指标权重进而得出16个地州市的耕地利用效率;并根据基尼系数平均差公式计算得到6组不同区域之间的耕地利用效率基尼系数。结果表明,迪庆藏族自治州、德宏傣族景颇族自治州、怒江傈僳族自治州、大理白族自治州在20112020年平均耕地利用效率较高,普洱市、临沧市平均耕地利用效率相对偏低;滇中和滇西相比其他5组不同区域的耕地利用效率基尼系数整体在减小,而滇中和滇南以及滇南和滇北的平均基尼系数是6组不同区域平均基尼系数中最小的2组。关键词:耕地利用效率;随机森林;基尼系数;云南省中图分类号:F301.21文献标识码:A文章编号:0439-8114(2023)07-0032
4、-06DOI:10.14088/ki.issn0439-8114.2023.07.006开放科学(资源服务)标识码(OSID):Calculation of cultivated land utilization efficiency and analysis of Gini coefficient in YunnanProvince based on random forestLI Hao-xuna,ZHENG Hong-gangb,LIU Shu-xiab,ZHAO Haoa,CHEN Rana(a.College of Resources and Environment;b.Colleg
5、e of Water Conservancy,Yunnan Agricultural University,Kunming 650201,China)Abstract:Taking 16 autonomous prefectures and cities of Yunnan Province from 2011 to 2020 as the research object,data of 10 indicators such as agricultural machinery power and labor force per land was collected,and the weight
6、s of these indicators were obtainedby using the random forest algorithm in R language.On the basis of this,the cultivated land use efficiency of the 16 prefectures and cities was obtained.The Gini coefficients of cultivated land use efficiency among six groups of different regions were calculated ac
7、cordingto the Gini coefficient mean difference formula.The results showed the average cultivated land utilization efficiency of Diqing TibetanAutonomous Prefecture,Dehong Dai and Jingpo Autonomous Prefecture,Nujiang Lisu Autonomous Prefecture,and Dali Bai Autonomous Prefecture was high from 2011 to
8、2020,while the average cultivated land utilization efficiency of Pu er City and Lincang Citywas relatively low;compared with other five groups of different regions,the Gini coefficient of cultivated land utilization efficiencyof central and western Yunnan decreased as a whole,while the average Gini
9、coefficients of central and southern Yunan,and southernand northern Yunnan were the smallest in the 6 groups of different regions.Key words:cultivated land use efficiency;random forest;Gini coefficient;Yunan Province第 7 期及其影响因子是众多学者研究的主题之一,也是当前土地工作的重点。研究分析区域耕地利用效率情况及对粮食生产的影响,鉴别和分析主要的影响因素,对实施耕地粮食战略措施
10、和开展耕地有效利用保护等工作提供依据有重要现实意义。不少学者针对耕地利用问题及其利用效率从不同的角度进行了研究和探索,在研究方法和模型上,多采用DEA模型评价法、AHP法、灰色关联法、PCA法和Super-SBM模型评价法等3-8。此外,一些学者还集中于耕地利用效率评价、区域差异等领域研究9-11。这些研究方法主观因素影响较大,同时一些模型在做回归分析和分类分析中也存在过拟合的现象。目前,以机器学习为理论研究的人工智能算法已经被运用于一些评价模型和预测模型的构建中12,它是一种多领域交叉的学科,主要包括了神经网络、随机森林、决策树算法、支持向量机等算法。机器学习算法对很多种资料可以产生高准确度
11、的分析和探索,同时也能深入挖掘数据,避免受主观因素的影响。本研究在对机器学习研究的基础上,采用机器学习中的随机森林算法,以20112020年云南省16个地州市为样本构建耕地利用效率的随机森林模型计算指标权重和耕地利用效率,并且通过基尼指数直接算法求出不同区域间的耕地利用效率基尼系数来分析和研究耕地利用系统的动态性、影响性和不同的差异性等特点13,为更好地推进耕地利用保护和充分利用耕地提供一定的理论和建议。1研究区域概况与数据来源1.1研究区域概况云南省地处中国西南边陲,位于东经 973110611、北纬 21082915,北回归线横贯南部,北依亚洲大陆,南连东南亚半岛,处在东南季风和西南季风控
12、制之下,同时受西藏高原区的影响,形成了复杂多样的自然地理环境。云南省行政区内现设16个州(市),共有129个县(市、区),国土总面积 39.4 万 km2。其中,耕地面积占全省总面积的15.97%13。云南省高原特色农业、东北大农业、江浙集约农业和京津沪都市农业是中国现代农业发展的4种模式,且云南省的粮食产量在全国13个主产区之外稳居首位,因此粮食的产量离不开耕地的有效利用,研究云南省耕地利用效率水平对提高本省乃至全国粮食产量研究有重要意义。1.2数据来源数据来源于20112020年的 中国城市统计年鉴 云南省统计年鉴 云南省政府经济与社会发展报告 以及云南省农业农村厅和云南省昆明市、曲靖市、
13、玉溪市、保山市、昭通市、普洱市、丽江市、临沧市、楚雄彝族自治州(简称楚雄州)、红河哈尼族彝族自治州(简称红河州)、文山壮族苗族自治州(简称文山州)、西双版纳傣族自治州(简称西双版纳州)、大理白族自治州(简称大理州)、德宏傣族景颇族自治州(简称德宏州)、怒江傈僳族自治州(简称怒江州)、迪庆藏族自治州(简称迪庆州)16个州(市)的官方统计资料。2指标体系构建与研究方法2.1指标体系构建对耕地利用效率指标的选取国内外许多学者基本都是从投入和产出 2 个方面来构建指标体系14-16,并且应遵循数据的科学性、可获取性、全面性等原则17。本研究除了采用耕地投入因素和耕地产出因素指标外,还加入耕地利用因素和
14、耕地可持续性因素指标。耕地投入因素主要体现为投入相关的劳动力、资本等;耕地利用因素为在不同区域耕地质量和不同耕地水平条件下对耕地的利用程度;耕地产出因素主要表现为对耕地的投入后所产生的耕地收益;耕地可持续性因素是在满足自己需求的同时所能拥有利用资源的安全基准前提。以地均农业机械动力、地均劳动力、地均化肥施用量为云南省州(市)耕地利用效率投入水平指标;以耕地灌溉指数和耕地复种指数为耕地利用程度指标;以粮食单位面积产量、农民人均农业产值、单位面积农业产值为耕地产出效益指标;以人均耕地面积和粮食安全系数为耕地可持续性指标来构建云南省耕地利用效率评价指标体系(表1)。2.2研究方法2.2.1随机森林法
15、随机森林(Random forest,RF)指的是由Breiman18于2001年提出的利用多棵树对样本进行训练并预测的一种分类器,具有可以处理大量的输入变量、模型计算稳定性强等特点,由于其良好的性能表现,在统计、农业、医学等许多领域的问题解决中都取得了不错的效果19-22。随机森林分类的基本思想:首先,利用Bootstrap抽样从原始训练集抽取 N个样本训练集,每个样本训练集的大小约为原始数据集的 2/3;其次,为每个训练集分别建立分类树,产生由 n棵分类树组成的森林,在每棵树生长过程中,从全部 M 个特征变量中随机抽选m(mM)个特征变量,在这m个属性中根据Gini指数最小原则选出最优属性
16、进行内部节点李昊勋等:基于随机森林下的云南省耕地利用效率测算及基尼系数分析33湖北农业科学2023 年分支23;最后,集合N棵决策树的预测结果,采用投票的方式决定新样本的类别。每次抽样约有1/3的数据未被抽中,利用这部分袋外数据(Out-of-bag)进行无偏估计产生 OOB 误差24。以袋外数据为基础,运用Gini指数计算各指标的指标权重,计算公式如式(1)所示。Wi=Gii=1NGi(1)式中,Gi为 Gini指数的减少值;N 为指标个数;Wi为第i个分解指标的权重,满足i=1NWi=1。按照决策树对应的线性规则形成指标与权重相对应的关系集并输出RF模型,各叶节点上指标的属性值与其权重加权
17、求和的均值为耕地利用效率25。2.2.2基尼系数直接计算法基尼系数是一个国际上通用的度量经济不平等状况的指标,自从基尼提出基尼系数以来,基尼系数便一直吸引着许多经济学家和统计学家进行基尼系数计算的探索和深入研究26。目前,对于基尼系数延伸的算法主要有直接计算法、拟合曲线法、分组计算和分解方法4种。近年来,学者们将基尼系数的探索研究延伸到许多领域,如不同区域耕地利用效率的差异分析2,16、资源生态环境研究27、道路空间分布格局28等。本研究采用基尼系数直接计算方法(也称基尼平均差公式)来分析云南省不同区域之间的耕地利用效率差异程度,具体公式如式(2)所示。G=12n2ij|xi-xj(2)式中,
18、n 表示地区数,本研究把云南省 16 个州(市)按地理区域分为滇中、滇西、滇北和滇南4个地区,故 n=4;为平均耕地利用效率;xi和 xj分别表示地区i和j的耕地利用效率;G表示基尼系数(不同于随机森林中的Gini指数),且G(0,1)。3结果与分析3.1随机森林算法结果随机森林一般是基于R语言或Python平台进行的,本研究选取 R语言作为随机森林算法的基本运行平台。首先,根据表1的10项指标在20112020年的数据生成 160组原始数据集,利用 Bootstrap 抽样技术从中抽取大约60%的数据集作为训练集,剩下的数据集作为测试集。在 R语言中安装 radomForest程序包,且区分
19、了训练集和测试集后,以 16个州(市)为因变量、10项指标数据为自变量进行初次建模分类学习,对指标属性特征进行多次采样学习,本研究做的是分类分析,则m设定为变量个数的平方根,此时分类树的数目 n=500,节点分裂时输入的特征变量个数 m=3,OOB误差为 2.08%。同时在 confusion matrix函数监督下进行样本的训练,训练样本的置信区间在0.892,0.996,模型拟合度较好,且学习精度为96.88%,Kappa值为 96.67%。经过多次调试和参数敏感性分析,当分类树设置为默认值 500时,RF 模型在建模训练过程中输出 Gini指数减少值,如表 2所示。表2RF模型下的指标G
20、ini指数减少值评价指标地均农业机械动力地均劳动力地均化肥施用量耕地灌溉指数耕地复种指数粮食单位面积产量农民人均农业产值单位面积农业产值人均耕地面积粮食安全系数Gini指数减少值10.68113.2297.5286.56310.35312.7633.0873.00311.77710.093表1云南省耕地利用效率评价指标体系目标层耕地利用效率准则层耕地投入因素耕地利用因素耕地产出因素耕地可持续因素指标层地均农业机械动力地均劳动力地均化肥施用量耕地灌溉指数耕地复种指数粮食单位面积产量农民人均农业产值单位面积农业产值人均耕地面积粮食安全系数指标含义农业机械总动力/耕地面积农业从业人数/耕地面积化肥施
21、用量/耕地面积耕地有效灌溉面积/耕地面积农作物播种总面积/耕地面积粮食总产量/耕地面积农业产值/农业人口数农业产值/耕地面积耕地面积/总人口人均粮食占有量/400 kg34第 7 期求取平均值后即得到各评价指标的平均权重,如图 1所示。在 RF分类模型识别下农民人均农业产值和单位面积农业产值被认为是不重要的2个指标,二者总权重比例仅为 6.84%;地均劳动力、地均农业机械总动力、粮食单位面积产量、人均耕地面积和耕地复种指数是影响耕地利用效率较重要的5个指标,总权重达0.66,其他指标权重处于中间水平。粮食安全系数人均耕地面积单位面积农业产值农民人均农业产值粮食单位面积产量耕地复种指数耕地灌溉指
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 云南省 耕地 利用 效率 测算 系数 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。