基于LightGBM算法的5G用户预测及5G网络规划.pdf
《基于LightGBM算法的5G用户预测及5G网络规划.pdf》由会员分享,可在线阅读,更多相关《基于LightGBM算法的5G用户预测及5G网络规划.pdf(6页珍藏版)》请在咨信网上搜索。
1、技术广角 69基于LightGBM算法的5G用户预测及5G网络规划摘要 随着5G业务和应用的发展,5G网络的建设规模逐步扩大。如何精准识别潜在5G终端用户、定位5G终端的分布,对5G网络的部署具有重要作用。文章基于B域、O域、终端、用户行为等数据筛选影响用户更换5G终端的重要因素,建立用户是否迁转5G终端的二分类模型,对用户迁转5G进行识别,获得潜在5G终端用户列表,并结合基站和微网格等业务数据,分析潜在5G终端用户的地理分布,为5G网络规划建设提供数据支持。关键词 机器学习;LightGBM算法;5G终端;用户预测;网络规划李海昕 张娇娇 王 雨 王 一中国联通研究院 北京 100176引言
2、运营商在进行网络规划及部署方面,终端分布是一个不可或缺的重要因素。随着5G的正式商用,5G终端的相关数据也得到一定的积累。深入挖掘终端数据背后的信息,利用大数据技术和手段指导规划工作是大势所趋,也是数字化转型时代的要求。大数据处理和分析为网络规划提供了新的维度,也为精准网络规划提供了新的可能。通过对终端相关的业务数据进行地理化分析,合理评估站点规划的优先级,对于有效触达亟待5G网络部署的区域,引导资源的准确投放有一定的指导意义。因此,在5G网络规划部署中,如何精准预测潜在5G终端用户、准确聚焦其分布的高流量、高语音区域具有重要意义。在此背景下,潜在5G终端用户的预测对存量用户经营以及端、网、业
3、协同规划发展具有重要的作用。本文使用用户侧B域、O域、终端更换以及用户行为等数据,筛选对5G终端迁转影响较大的特征,进行二分类建模,确定最优模型。将现网待预测用户输入至最优模型中,获取潜在5G终端用户列表,作为目标5G终端用户,根据潜在5G用户的详单数据统计在不同微网格、基站等地理维度的业务分布以及人口密度情况,为5G网络的规划建设提供数据支撑。1 现有的潜在5G终端用户预测方法5G商用初期,5G终端用户样本较少,不足以支撑模型构建,文献1利用趋势外推的方法对5G用户及业务量进行预测。文献2开始考虑5G用户特征,但只能基于专家经验下的数据分析得到。随着用户渗透率的增加,5G终端用户的业务特征有
4、所变化,同时考虑到千元机上市等因素,在文献2的基础上,将潜在5G用户的判定门限进行如下调整:1)用户ARPU70元;2)用户终端价格2 000元;3)用户到达换机周期。本文采用中国联通某地市2019年12月的部分4G、5G终端用户数据,对半年后即2020年6月5G终端用户进行预测,在此期间共新增15.2万5G终端用户。为了技术广角 70便于与后文中模型法相比较,本文采用二分类模型评价指标Recall(预测效果)和Precision(预测效率)。在表1中,Recall代表真实正例样本中,预测为真的样本比例,即1.9/15.2=12.5%;Precision为精确率,指的是从预测的角度看有多少样本
5、是预测准确的,即为1.9/24.8=7.6%。若采用当前结果做网络规划,12.5%的准确率偏低,地理分布的偏差较大,无法精准地引导投资。随着后期样本量的增加,5G终端的数据可以支撑LightGBM算法建模的方法,本文提出基于LightGBM算法的模型搭建,对潜在5G终端用户预测进行研究。2 基于LightGBM算法的4G、5G终端用户二分类模型本文对用户是否迁转5G终端进行研究,属于监督学习中典型的二分类问题。本章节就分类算法、建模过程以及建模结果进行介绍。2.1 相关分类算法介绍在当前流行的分类算法中,LightGBM算法是预测准确率较高且训练速度较快的算法。其他分类算法有Bagging算法
6、中的随机森林(RandomForest)、Boosting算法中的梯度提升树(GradientBoostingDecisionTree,GBDT)、XGBoost算法等。这些算法都是以决策树模型为基础。GBDT算法是被公认的泛化能力较强的算法,核心就在于每一轮的迭代都是在上一轮迭代产生的残差基础上进行。在GBDT算法的基础上,对损失函数进行改进就有了XGBoost算法,它可以支持并行运算,用于加速和减小内存消耗。在XGBoost之后,微软公司又提出了LightGBM算法。它使用了带有深度限制的按叶子生长算法,可以加速训练过程,减少计算量。此外,LightGBM算法支持高效率专家经验法预测值/万
7、合计/万5G终端4G终端实际值5G终端1.9(12.5%)13.3(87.5%)15.2(100%)4G终端22.9(7%)305.8(93%)328.7(100%)合计24.8319.1343.9表1 专家经验预测混淆矩阵结果的并行运算,支持分布式海量数据处理,能够降低内存消耗,拥有更高的准确率。因此,这里选择基于LightGBM的机器学习算法预测用户半年后是否迁转5G终端,图1是LightGBM部分算法过程示意。关于分类算法更为详细的介绍可见文献3-6。2.2 建模过程本文整个建模的流程框架如图2所示,整个算法主要分为三个模块:数据处理模块、模型构建模块?0?0.001?19?0.025?
8、8?0.008?11?0.0003=?3?0.019?22?0.002?9?0.007=?10?0.023?15?0.003?图1 LightGBM部分算法过程示意?图2 潜在5G用户预测建模流程技术广角 71以及预测应用模块。数据处理模块主要分为基本数据源、对基本数据进行数据清洗和特征工程两个内容。基于专家经验法同样的数据,筛选2019年12月存量4G、5G终端用户作为模型的Y结果,选定这些用户在2019年4月、5月、6月的数据,作为模型的因变量X,预测用户在半年之后是否会迁转5G终端。自变量的数据主要包括:1)账单数据,含有用户流量、语音、消费等业务使用数据;2)地理数据,含有用户常住地等
9、地理分布相关数据;3)终端数据,含用户使用终端及更换情况的数据;4)OTT数据,指用户使用各类APP业务情况数据,这些数据是建模的基本数据。在基本数据的基础上,进行数据预处理。对单一值数据的特征剔除,删除缺失值超过70%的特征,针对缺失值较少的数据用常数或者聚合值进行填充等。为了充分挖掘数据的信息,使用特征工程将原始数据转化为能更好地表达问题本质的特征。针对数值型特征进行统计计算。对分类特征进行独热编码转换,最后对数据进行特征筛选等处理。数据处理完成之后,为了进行模型训练以及模型泛化能力的评估,需要对数据进行拆分。随机选取80%的数据作为训练集,用于模型训练,10%数据作为验证集,用于模型的超
10、参调优和迭代,剩下10%的数据作为测试集,用于验证模型的泛化能力。模型构建模块其实是一个根据训练集和验证集反复进行超参调优、不断迭代构建最优模型的过程。选择训练集数据,设置初始参数,模型根据自变量X和因变量Y学习,得到训练模型,剔除低贡献度变量,再次训练,得到训练后的模型。利用验证集数据和网格搜索的方法反复修正参数,不断迭代,找到一套对输入数据高度识别的最优配置参数和具有一定泛化能力的最优模型。在模型预测中,会输出这个样本成为正例即成为潜在5G终端用户的可能性。在实际操作中大多为不平衡的样本,需要设定一个确定的阈值,来判断用户是否会迁转5G终端。在模型评价指标中,Recall表征真实5G用户中
11、被正确找到的比例,值越大说明预测效果越好。Precision值可以表征所有区域或者站点中覆盖到的真实用户的比例,同等建设规模的情况下,值越大说明建设区域覆盖到真实的5G用户越多,预测效率越高。这两个值均越大越好,但实际应用中二者关系是遵循P-R曲线的。根据阈值可以找到某一点平衡,该点的Precision和Recall值即为网络规划方案预计将达到的预测效率和预测效果。2.3 模型结果图2中的模型应用模块,主要是利用在模型构建模块建立好的最优模型,输入待预测的数据和目标用户规模,获得在一定时间段内可能迁转为5G终端用户的列表。2.3.1 建模法结果基于专家经验法同样的数据,对比2020年6月真实5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 LightGBM 算法 用户 预测 网络 规划
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。