基于机器学习的地铁站区域共享单车需求预测.pdf
《基于机器学习的地铁站区域共享单车需求预测.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的地铁站区域共享单车需求预测.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷第期石家庄铁道大学学报(自然科学版)V o l N o 年月J o u r n a lo fS h i j i a z h u a n gT i e d a oU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n)S e p 基于机器学习的地铁站区域共享单车需求预测杨鑫宇,靳群,(石家庄铁道大学 交通运输学院,河北 石家庄 ;石家庄铁道大学 河北省交通安全与控制重点实验室,河北 石家庄 )摘要:为了准确掌握地铁站周边区域共享单车投放量,提出一种以岭回归思想为基础的预测方法.首先,通过随机森林模型和A d a B o o s
2、 t模型筛选出符合条件的共享单车影响因素;其次,将单车变化量和影响因素分别作为岭回归函数的因变量和自变量,建立共享单车需求投放模型;最后,以济南地铁益康路站、济泺路站和北园站为例,综合站位置特征将其周边小区划分成A、B、C、F类,并对工作日及节假日间的单车投放量进行预测.数据显示,站工作日和节假日单车投放量集合分别为 ,、,.根据预测结果得出结论,站单车投放量均呈现出节假日大于工作日的趋势,且济泺路站最高,与其实际出行特征基本吻合,较好地验证了岭回归模型的实用性和普适性,具有一定的实际参考价值.关键词:岭回归;共享单车;随机森林;A d a B o o s t中图分类号:U 文献标志码:A文章
3、编号:()收稿日期:责任编辑:车轩玉D O I:/j c n k i s j z t d d x x b z r b 作者简介:杨鑫宇(),男,硕士研究生,研究方向为交通运输组织与运营管理.E m a i l:y x y c o m杨鑫宇,靳群基于机器学习的地铁站区域共享单车需求预测J石家庄铁道大学学报(自然科学版),():,共享单车作为近几年新兴的交通工具,其便捷、高效等优点深受众多出行者青睐,其位置分布多集中于地铁站附近,并常以接驳的方式衔接地上与地面交通,与此同时,供需不平衡及堆积问题日渐凸显.为了科学准确地了解地铁站周边区域的单车投放量,国内外学者将更多的目光聚焦于单车的实时需求预测,
4、例如Z HOUe t a l利用马尔可夫模型对中山市共享单车的需求量进行了预测;王鹏涛构建出一种基于随机森林 R B F神经网络分位数回归的共享单车需求量预测模型;XUe t a l通过长短期记忆网络模型对不同时段的共享单车出行量进行了预测;YANGe ta l针对传统预测方法过拟合风险问题,提出一种基于机器学习的共享单车短时预测模型,并采用C i t yB i k e公开数据对其进行验证;宋鹏等构建了基于支持向量机和主成分分析方法的共享单车预测模型;L Ue t a l利用R NN网络模型预测未来一天的共享单车租赁情况,并用Y o uB i k e数据进行测试验证;王凌苏利用G C N L
5、S TM组合模型预测未来 h的共享单车交通量;CHE Ne t a l建立了一种以递归神经网络为基础的预测模型,并将其运用到了纽约花旗银行区域的共享单车使用量预测中;孙启鹏等构建出一种非负矩阵分解算法的B P神经网络预测模型,并利用北京市摩拜单车工作日骑行数据对其进行了辅助验证,结果显示该模型的预测效果优于传统B P模型.通过总结发现,已有研究考虑因素不全,以天气、时间、历史数据居多,在预测方法上以传统的神经网络模型为主,此类模型极易出现过拟合现象,导致预测结果误差较大,而岭回归模型中损失函数的惩罚项可以很好地解决上述问题,其主要应用于电力、金融、计算机等领域,在城市公共交通领域应用较少.基于
6、上述原因,将研究重点侧重于地铁站周边的共享单车投放量预测中,并借助相关计算机软件建立出一种以岭回归法为导向的地铁站区域共享单车投放量预测模型,为类似站点的单车量化预测提供借鉴.第期杨鑫宇等:基于机器学习的地铁站区域共享单车需求预测 共享单车影响因素的筛选 影响因素初选共享单车的使用受多种因素影响,包括人口社会经济、自然环境、建成环境、天气、时间和出行者属性等.结合地铁站周边居民出行特征,本次主要考虑社会经济、城市建设用地类型、建成环境、交通设施和天气等因素,初步建立起机器学习算法中特征矩阵,具体如表所示.表共享单车影响因素初选特征矩阵特征变量单位特征重要性/特征变量单位特征重要性/产业功能区密
7、度个/k m 地铁进站客流人 商业功能区密度个/k m 居住功能区密度个/k m 交通设施用地面积占比k m/k m 公共服务区密度个/k m 居住用地面积占比k m/k m 公交站数量个 非机动车停车区面积占比k m/k m 人口密度人/k m 商业用地面积占比k m/k m 非机动车道长度k m 地铁出站客流人 风速k m/h 温度 交叉口个数个 路网长度k m 交运功能区密度个/k m 空气质量指数 旅游休闲区密度个/k m 影响因素复选 基于随机森林的影响因素复选随机森林模型 的特征选择指对初始特征变量的优良性和重要性进行评价,结合表,设定每轮剔除特征变量比例为,停止迭代条件为m.过程
8、如表所示.表随机森林特征选择过程迭代次数剔除特征剩余特征数袋外评分/交运功能区密度、旅游休闲区密度 风速、交叉口个数 人口密度、非机动车道长度 公交站数量 表数据显示,第次迭代的袋外评分达到最高,即表示模型的袋外数据最好,因此,剔除交运功能区密度、旅游休闲区密度、风速、交叉口个数、人口密度、非机动车道长度个特征变量.基于A d a B o o s t的影响因素复选A d a B o o s t算法 的特征选择过程与随机森林类似,具体过程如表所示.表A d a B o o s t特征选择过程迭代次数剔除特征剩余特征数误差率/交运功能区密度、旅游休闲区密度 交叉口个数、非机动车道长度 人口密度、公
9、交站数量 风速 从表可看出,依旧第次迭代时误差率达到最高,即此时模型误差最小,故剔除交运功能区密度、旅游休闲区密度、交叉口个数、非机动车道长度、人口密度、公交站数量个特征变量.石家庄铁道大学学报(自然科学版)第 卷结合表、表,剔除其相同因素,保留剩余 个特征,即产业功能区密度、商业功能区密度、地铁出站客流、温度、居住用地面积占比、交通设施用地面积占比、空气质量指数、地铁进站客流、路网长度、非机动车停车区面积占比、居住功能区密度、商业用地面积占比、公共服务区密度、公交站数量、风速.共享单车投放量预测模型构建 岭回归模型 计算原理岭回归 是一种用于线性回归分析的统计方法,其通过向用于优化模型的损失
10、函数添加惩罚项来降低模型中系数的大小,防止过度拟合,强度可以通过a l p h a参数控制,值越高模型越简单且系数更少;反之模型越复杂且系数较多.在O L S方法中,Y与X的关系式如下(XTX)XTY()其中,损失函数的正则化公式为a r g m i n()XY()将k I代入式(),化简得1234543210-1-2-3-4-51(k)2(k)(k)K图岭迹图(k)(XTXk I)XTY()式中,I为单位矩阵;k取值范围为,).岭参数K选择岭回归模型中K值的大小直接决定预测结果的误差变化程度,其选择又依赖于参数和,结合此特点,决定选用岭迹图法进行K值选择,如图所示.图中,横轴为岭参数K的取值
11、,纵轴为标准化回归系数,其中岭估计协方差公式如下c o v(k)(XTXk I)XTX(XTXk I)(ci j(k)()式中,ci j(k)为方差扩大因子,与参数K呈负相关.基于岭回归的共享单车投放量预测模型在P y t h o n中,调用第三方库s c i k i t l e a r n模块中自带的岭回归函数,分别设置工作日和节假日的因变量为s h b_和s h b_,自变量为终选后的 个影响因素,岭参数为 ,步长为 ,绘制的岭迹图如图、图所示.00.010.020.030.040.050.060.070.080.090.100.110.120.130.140.150.160.170.18
12、0.190.200.210.220.230.240.250.260.270.280.290.30Sub_1Res_aNov_aSub_2Bus_aBus_sRes_1Pub_aAir_iBus_1Ind_aTem_aTra_1Roa_1Win_sK1.51.00.50-0.5-1.0-1.5标准化回归系数图工作日共享单车岭迹图第期杨鑫宇等:基于机器学习的地铁站区域共享单车需求预测 00.010.020.030.040.050.060.070.080.090.100.110.120.130.140.150.160.170.180.190.200.210.220.230.240.250.260.2
13、70.280.290.30Sub_1Res_aNov_aSub_2Ind_aBus_sRes_1Pub_aAir_iBus_1Bus_aTem_aTra_1Roa_1Win_sK2.01.51.00.50-0.5-1.0-1.5标准化回归系数图节假日共享单车岭迹图根据式()确定此时工作日模型岭参数K ,节假日岭参数K ,模型处于最优,测算公式分别为s h b_ R e s_ B u s_ T r a_ R e s_a B u s_a P u b_a I n d_a S u b_ S u b_ R o a_l N o v_a B u s_s A i r_i T e m_a W i n_s()s
14、h b_ R e s_ B u s_ T r a_ R e s_a B u s_a P u b_a I n d_a S u b_ S u b_ R o a_l N o v_a A i r_i B u s_s T e m_a W i n_s()实例应用 站点概况益康路站、济泺路站和北园站分别为济南地铁二号线西起的第、站点,如图图所示,所属线路整体呈东西走向,西起王府庄站,东至彭家庄站,年月 日正式运营,线路途经西客站片区、腊山片区、老城区、东部新区和唐冶新区,全长 k m.图济南市地铁线路图 石家庄铁道大学学报(自然科学版)第 卷图益康路站地理位置图图济泺路站地理位置图图北园站地理位置图经过对个
15、站实际调查,发现其邻近区域均有公交站、商场、酒店、住宅区等,共享单车需求量较大,有必要对此范围内的单车投放量进行预测.数据来源本次所获取的数据主要为 年月 日至月 日期间的行政区划数据、共享单车的时段变化量、轨道交通客流进出站数据、轨道交通站点数据、城市道路网数据和各类P O I数据,具体如表所示.表数据文件划分数据类型数据格式数据来源济南市市行政区划数据s h p文件相关政府机构共享单车时段变化量c s v文件实际调查轨道交通客流数据c s v文件实际调查轨道交通站点数据s h p文件O p e nS t r e e tM a p网站城市道路网数据s h p文件O p e nS t r e
16、e tM a p网站P O I数据c s v文件高德地图爬取居民出行调查数据采集地铁站选取共享单车使用分布调查数据准备数据处理AdaBoost模型筛选共享单车影响因素筛选随机森林模型筛选确定影响因素共享单车数据工作日需求预测共享单车需求预测模型公式(5)公式(6)共享单车投放量测算节假日需求预测图共享单车投放量预测流程 单车投放量预测流程结合前节梳理的共享单车影响因素及需求预测模型,给出地铁站共享单车投放量预测整体流程,具体如图所示.投放量一般会结合共享单车的高峰小时借车 系 数 和 周 转 率 指 标 进 行 测 算,公 式如下Ns h bs h b T()NNs h b()式中,T为单车高
17、峰小时借车系数;为单车高峰小时周转率;s h b为单车需求量.单车投放量预测结果()小区划 分.根据益康 路站、济泺 路站及北园 站 位 置 特 点 和 相 关 划 分 原 则,将其周边 小 区 统 一 划 分 为类,具 体 如 表所示.第期杨鑫宇等:基于机器学习的地铁站区域共享单车需求预测 表交通小区划分类型及特点交通小区小区类型小区特点A综合型小区居住就业商业类型占比均匀B居住型小区以居住小区为主C商业型小区以大型商城为主F工业型小区以工业为主()工作日各站点小区单车投放量预测结果.结合表数据库文件、节单车需求预测模型及式()、式(),得到各车站类小区工作日和节假日期间的单车投放量,如表、
18、表所示.表工作日各站点小区单车投放量站点计算指标ABCF单车需求量 益康路站高峰小时借车系数 高峰小时周转率 单车投放量 单车需求量 济泺路站高峰小时借车系数 高峰小时周转率 单车投放量 单车需求量 北园站高峰小时借车系数 高峰小时周转率 单车投放量 表节假日各站点小区单车投放量站点计算指标ABCF单车需求量 益康路站高峰小时借车系数 高峰小时周转率 单车投放量 单车需求量 济泺路站高峰小时借车系数 高峰小时周转率 单车投放量 单车需求量 北园站高峰小时借车系数 高峰小时周转率 单车投放量 结合表、表中数据可看出,个车站的单车投放量自上而下依次为济泺路站北园站益康路站,且站节假日整体投放量之和
19、高于工作日,与需求量相差不大.石家庄铁道大学学报(自然科学版)第 卷 结论以地铁站点区域内的共享单车为研究对象,提出一种基于岭回归的预测模型,并将其运用到了益康路站、济泺路站及北园站的单车投放量预测中,结论如下:()借助随机森林模型与A d a B o o s t模型对造成单车数量变化的影响因素进行筛选,通过袋外评分及误差率对特征进行判别,二者均在第次迭代满足模型最优,故最终剔除交运功能区密度、旅游休闲区密度、交叉口个数、非机动车道长度、人口密度等项指标,选取剩余 项指标作为后期岭回归模型预测的自变量.()将岭回归模型导入至P y t h o n软件中,得出站周边类小区未来工作日期间单车投放量
20、共计 辆,节假日期间共计 辆,与济南市共享单车实际使用量特征大致相同.通过此类讨论,间接突出了岭回归模型在共享单车预测领域方向上具有实用性高、适用范围广等优点,为相关人员进行后续深入研究打下基础.参考文献Z HOUY,WAN GL,Z HONGR,e ta l A M a r k o vc h a i nb a s e dd e m a n dp r e d i c t i o nm o d e l f o rs t a t i o n si nb i k es h a r i n gs y s t e m sJM a t h e m a t i c a lP r o b l e m s i
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 地铁 区域 共享 单车 需求预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。