基于贝叶斯逻辑回归模型的边坡稳定性预测.pdf
《基于贝叶斯逻辑回归模型的边坡稳定性预测.pdf》由会员分享,可在线阅读,更多相关《基于贝叶斯逻辑回归模型的边坡稳定性预测.pdf(8页珍藏版)》请在咨信网上搜索。
1、第4 1卷第10 期2023年10 月文章编号:10 0 9-7 7 6 7(2 0 2 3)10-0 17 3-0 8Vol.41,No.10Journal of Municipal Technology0ct.2023D0I:10.19922/j.1009-7767.2023.10.173基于贝叶斯逻辑回归模型的边坡稳定性预测王大兵,黄郁东,韩振中3,徐考4,崔文海1,周苏华2*(1.贵州省交通建设工程质量监督执法支队,贵州贵阳550 0 0 8;2.湖南大学土木工程学院,湖南长沙4 10 0 8 2;3.贵州省质安交通工程监控检测中心有限责任公司,贵州贵阳550 0 14;4.贵州省兴义
2、公路管理局,贵州兴义56 2 4 0 0)摘要:该研究中提出了一种基于贝叶斯逻辑回归模型的边坡稳定性预测方法。该方法以边坡稳定性为预测对象,选取边坡的坡高、坡角以及岩土体的黏聚力、内摩擦角、重度、孔隙压力比6 个指标作为特征参数,通过贝叶斯推断对逻辑回归模型中的自变量的回归系数和截距进行了估计。在收集大量边坡数据集的基础上,研究了数据预处理方法(标准化、归一化至 0,1、归一化至-1,1)及3种先验分布(正态分布、柯西分布、t分布)对模型精度的影响。结果表明:将数据进行归一化处理后得到的预测结果在准确性上与采用标准化处理后得到的结果较为接近;采用不同形式的先验分布,模型优化结果差别不大,但发现
3、各先验分布的平均值和标准差会影响回归系数(截距)的后验结果;在采用五折交叉验证的情况下,当数据预处理方法为归一化至-1,1且先验分布为正态分布时,模型的预测准确率最高,其AUC值达到了0.8 6 0。关键词:安全工程;边坡稳定;贝叶斯逻辑回归;机器学习中图分类号:TU43Slope Stability Prediction by Bayesian Logistic Regression ModelWang Dabing,Huang Yudong,Han Zhenzhong,Xu Kao*,Cui Wenhai,Zhou Suhua?*(1.Guizhou Provincial Transpor
4、tation Construction Project Quality Supervision and Law Enforcement Detachment,Guiyang550008,China;2.College of Civil Engineering,Hunan University,Changsha 410082,China;3.Guizhou Province Quality and Safety Trafic Engineering Monitoring and Inspection Center Co.,Ltd.,Guiyang 550014,China;Abstract:Th
5、is paper presents a slope stability prediction method based on a Bayesian logistic regression model.Themethod focuses on predicting slope stability.Six predictive indicators of slope height,slope angle,cohesion of rock&soil,internal friction angle,weight and pore pressure ratio are selected to be ch
6、aracteristic parameters.ThroughBayesian inference,the regression coefficients and intercept of the models independent variables in logistic regres-sion are estimated.Based on a substantial dataset of slope information,the impact of data preprocessing methods(data standardization,normalization to 0,1
7、,normalization to-1,1)and three different prior distributions(nor-mal distribution,Cauchy distribution,t-distribution)on model accuracy are investigated in this study.The resultsindicate that the accuracy of prediction outcomes by normalized treatment is closely resembling those by standard-ization;
8、Theres not much differences in model optimization outcomes by different forms of prior distributions.But itis observed that the posterior results of regression coefficients(intercepts)will be impacted by the means and stan-dard deviations of these prior distributions;Under a 5-fold cross-validation
9、scenario,when data is normalized to文献标志码:A4.Xingyi Highway Management Bureau,Xingyi 562400,China)收稿日期:2 0 2 3-0 8-0 5基金项目:贵州省交通运输厅科技计划项目(2 0 2 3-312-0 30);贵州省科技支撑计划(2 0 2 0-4 Y047)作者简介:王大兵,男,工程师,学士,主要从事交通建设工程质量安全监督工作。通讯作者:周苏华,男,副教授,博士,主要从事岩土工程相关的教学与科研工作。引文格式:王大兵,黄郁东,韩振中,等.基于贝叶斯逻辑回归模型的边坡稳定性预测.市政技术,2
10、0 2 3,4 1(10):17 3-18 0.(WANGDB,HUANGY D,HAN ZZ,et al.Slope stability prediction by Bayesian logistic regression modelJJ.Journal of municipal technology,2023,41(10):173-180.)市放技术174Journal of Municipal Technologythe range of-1,1 and a normal distribution prior is employed,the model attains the highe
11、st predictive accuracy,with an area under curve(AUC)value of 0.860.Key words:safety engineering;slope stability;Bayesian logistic regression;machine learning第4 1卷边坡破坏是一种常见的地质灾害,可造成重大的生命安全和财产损失问题。所以,边坡稳定性一直都是工程界研究的一个热点话题。边坡工程是一个具有不确定性、非线性、高复杂性的系统 1,其稳定性受到多种随机、模糊、复杂因素的影响 2 。过去国内外大量学者主要使用极限平衡法 3-5 和数值分
12、析法 6-8 等确定性分析方法对边坡稳定性做出准确的评价。近年来,有学者将不确定性分析方法引人到边坡稳定性评价中,也取得了较好的效果。其中,机器学习法以其高效、快速的自主学习能力和准确的预测能力等优点而得到快速发展,许多学者应用机器学习法研究边坡失稳原因及预测边坡稳定性,主要包括BP神经网络 1-2 1、极限学习机 9、支持向量机 10-13、模糊理论 、朴素贝叶斯分类器 14 等,这些方法具有灵活的非线性拟合建模能力,但在处理大量数据时存在计算速度慢、鲁棒性低等缺点。逻辑回归模型是机器学习法中的一种判别式模型,常用于滑坡敏感性分析和评价 15-17 ,具有计算速度快、预测准确率高等优点。贝叶
13、斯推断作为判别式模型参数求解的常用方法,利用先验信息并结合似然原则,弥补了推断抽样选取统计量时主观性不足的缺点,协调了样本的随机性和充分性,其计算速度也随着计算机的飞速发展而大幅提升。贝叶斯推断被应用于时间序列分析、模式识别等领域,例如应文威等 18 提出了多维大气噪声模型参数贝叶斯估计算法;万华平等 19对比分析了人行斜拉桥的实测结果及基于贝叶斯推断的修正结果;方圣恩等 2 0 提出了结合近似贝叶斯计算和改进群体蒙特卡洛抽样的结构损伤识别方法。尽管上述学者将贝叶斯推断引人到各领域中并取得了较好的成果,但对于数据预处理情况及先验分布对参数后验的影响研究尚不多见。针对以上问题,为了准确预测边坡稳
14、定性,为处理边坡工程问题提供理论依据,笔者进行了基于贝叶斯逻辑回归模型的边坡稳定性预测研究,并研究了不同的数据预处理方法及不同形式的参数先验分布对边坡稳定性预测准确率的影响,研究结果可为相关边坡工程的稳定性分析提供依据。1数据来源在基于机器学习模型的预测研究中,输入变量是影响预测结果的重要因素,因此输入变量的合理性直接决定了最终预测结果。而在边坡稳定性的研究中,学者们主要从岩(土)体自身性质、地质地形特征构造等方面确定特征参数。其中,薛新华等 1、冯夏庭等 2 夏元友等 2 1 均选择了边坡的坡高H、坡角以及岩土体的黏聚力c、内摩擦角、重度、孔隙压力比ru共计6 个指标作为边坡稳定性研究的特征
15、参数。笔者以此为基础,收集相关的边坡案例,进行边坡稳定性的预测研究。为建立可靠的边坡稳定性预测模型,笔者收集了280组开源边坡数据,详细情况见表1。去除文献之间的交叉引用及参数缺失的数据,最终选取了17 1组边坡数据,其中包含8 1个稳定边坡、90 个失稳边坡。表1数据来源Tab.1 Data source边坡数量稳定边坡数量6941461732144024522341222预测模型2.1贝叶斯逻辑回归模型贝叶斯逻辑回归模型是以逻辑回归(logistic re-gression)模型为基础,结合观察数据本身,利用贝叶斯推断(Bayesian inference)方法对模型回归系数和截距进行估计
16、的一种判别模型。逻辑回归模型作为一种常用的分类模型,其本质是一种广义的线性回归模型。逻辑回归模型通过 sigmoid函数,将回归后的因变量值映射到 0,1 区间上,进而达到二分类的目的。其函数表达式为:y=sigmoid(z)=个失稳边坡数量文献281429221823162429251926exp(z)(1)1+exp(z)第10 期式中:x;为自变量,即影响因素;o为截距,;为自变量的回归系数,均为待估计的值。设边坡稳定的概率为P(Y=1),考虑6 个边坡稳定性的影响因素,由此可建立基于逻辑回归的边坡稳定性分类模型,如下:即:1王大兵等:基于贝叶斯逻辑回归模型的边坡稳定性预测(2)i=11
17、75如果使用原始数据进行分析,数值较大的指标将在评价结果中占主导作用,从而弱化数值较小指标的影响。因此通常先对原始数据进行数据预处理,而常用的数据预处理方法为标准化和归一化。为了对比不同的数据预处理方法对预测准确率的影响,下文将研究分别使用标准化(见式(6))、归一化至 0,1(见式(7))、归一化至-1,1(见式(8)处理数据后的预测情况。(6)x=x-X(7)Xmax-Xmin,(4)设参数向量Q=(o,1,2,3,4,s,)的后验分2=Xmax-Xnin(8)2C2.2.2先验分布的选取布为f(|X),先验分布为f(),由贝叶斯定理可知:(0|x)-X10)()-_1x10)r(0)=L
18、(X|0)(0)。f(X)Jf(X10)(0)de其中X为样本数据,L(XI)为参数的似然函数,这便是模型参数的贝叶斯推断的基本原理。贝叶斯推断有以下几个特征:1未知参数是随机分布的。与传统频率派认为参数是固定的不同,贝叶斯学派认为参数本身是随机分布的。2)参数可能有不同的分布。每个参数都是独立的,可以用不同的概率分布来描述。3)分布的均值即是参数的推断值。贝叶斯推断往往从似然函数和先验分布得出后验分布,后验分布的均值或中位数被视为参数的推断值。马尔科夫蒙特卡洛法(MarkovChainMonteCarlo,简称MCMC法)的出现,使得贝叶斯推断分析中计算后验分布密度这一难题得以解决。以MCM
19、C法为代表的现代贝叶斯统计方法已广泛应用于各类学科,并取得了显著成果。MCMC法的精髓在于构建马尔科夫链,使其平稳分布就是待抽样的目标分布。目前常用的MCMC采样方法有MH采样、Gibbs采样等。Hoffman 等 2 7 提出了基于MCMC的NUTS采样方法,有效地提高了采样效率,该方法可以使用Python脚本语言中的stan包实现。2.2贝叶斯逻辑回归的基本流程2.2.1数据预处理方法原始数据由于单位、量纲、值域等存在显著差异,在贝叶斯推断中,截距和回归系数先验分布的选取会影响后验的结果。在推断时,一般情况下对所有回归系数和截距采用无信息先验,如N(0,10 5)。(5)然而,此操作方法过
20、于简便,如果假定有7 5%信息的某一个参数的回归系数落在(0.2,0.3)之间,那么该参数便拥有了一定的先验信息,然后再进行参数后验推断。先验分布通常可使用正态分布、对数正态分布、二项分布、伯努利分布、泊松分布、分布、分布等。依据回归系数(截距)的实际取值情况,笔者参照文献 2 8 选取了3种先验分布,分别为正态分布、柯西分布、自由度为7 的t分布。3种分布的密度函数如下:f(x/uN,ON)=f(xlue,o.)=f(x|ut,o,)=T(4)T(3.5)V7T0式中:v,为3个分布的超参数;F(x)为 gamma 函数。考虑到之前已经对原始数据进行预处理,离散度较大的数据已缩放至较小的区间
21、内,因此回归系数先验分布的均值也在某区间上,其取值范围见表2。而对于参数先验的标准差,笔者研究了5个不同的数量级即1、10、10 0、10 0 0、10 0 0 0 对参数后验的影响。1V2T0N1TO1+expL(x-u)20%(x-)2一丁4。1+70(11)(9)(10)市放技术176Journal of Municipal Technology表2 3种分布的超参数取值范围Tab.2 The range of hyperparameters for the threedistributions分布形式超参数MN正态分布柯西分布t分布在机器学习模型中,网格搜索方法是最常用的超参数优化方法
22、,即考虑每一种超参数组合进行交叉验证,然后选取精度最高的组合作为最终的超参数值。这种超参数优化方法考虑了参数的所有组合情况,但在多个超参数组合的情况下,优化速率较低。文献 2 9 提出了贝叶斯优化方法,该方法有效地缩短了参数优化所需的时间。这种调参方式适用于数量在2 0 个以内的参数优化,且对于小型的参数优化问题优势十分明显。2.2.3精度评价受试者工作特征曲线(receiveroperating charac-teristic curve,简称ROC曲线)是以真阳性率为纵轴、假阳性率为横轴绘制的曲线。该评价方法可以简单地、直观地分析二分类模型的优劣程度。AUC(areaunder curve
23、)被定义为ROC曲线下的面积。往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰地说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。在机器学习模型中,为了防止模型过拟合,一般需要把数据集划分为训练集和测试集,训练集用于训练模型参数,测试集用于验证模型的训练效果。笔者拟采用五折交叉验证,即将数据集均分为5份,选取其中4 份作为训练集,另外1份作为测试集。如此进行5次,取5组AUC值的平均值作为模型最终结果。AUC值越大,模型选取的超参数越优。除了ROC曲线和AUC值外,还可以使用准确率、精确率、召回率、F1值4 个指标更加直观地对二分类模型进行评价。这4
24、 个指标的定义如下:准确率:预测正确的结果占总样本的比例;精确率:正确预测为正占预测为正的比例;召回率:正确预测为正占实际为正的比例;F 1值:精确率和召回率的调和平均值。第4 1卷2.2.4基本流程基于以上考虑,确定贝叶斯逻辑回归的基本流程如图1所示。取值范围-10,1010,10,10,103,104-10,1010,10,10,103,104-10,1010,10,102,103,104数据集数据预处理标准化五折交叉验证训练集MCMC采样方法贝叶斯逻辑回归洗验芬布正态分布图1贝叶斯逻辑回归的基本流程Fig.1 Flow chart of Bayesian logistic regress
25、ion3楼模型预测结果与分析3.1变量分析为了给出研究变量的分布概况,考虑使用皮尔逊相关系数反映各变量之间的关系,其计算公式为:P=。(12)=11=1式中:xy为分析变量;n为分析变量的总数。利用式(12)得到各输入变量之间的相关性矩阵和分布情况,如图2 所示。图2 左下半部分展示了各变量之间的分布情况,而右上半部分反映了各变量之间的相关性矩阵。若2 个变量之间的皮尔逊相关系数满足lpl 0.8,则认为这2 个变量之间属于强相关性 30 。而图2 中所有变量之间的皮尔逊相关系数的绝对值均小于0.6,说明各输入变量之间的独立性较好。3.2马尔科夫链收敛性判断使用任意一种MCMC采样方法均需确定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 贝叶斯 逻辑 回归 模型 稳定性 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。