基于电动出租车数据的充电桩选址聚类方法比较.pdf
《基于电动出租车数据的充电桩选址聚类方法比较.pdf》由会员分享,可在线阅读,更多相关《基于电动出租车数据的充电桩选址聚类方法比较.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 13 卷第 4 期2023 年 7 月汽车工程学报Chinese Journal of Automotive EngineeringVol.13No.4July 2023基于电动出租车数据的充电桩选址聚类方法比较甄西媛1,高 超1,李向华1,冀 杰2(1.西北工业大学,西安 710072;2.西南大学,重庆 400715)摘要:为有效降低出租车运营企业及经营者的经济成本,通过分析出租车的卫星轨迹数据,比较和选取用于电动出租车充电桩选址规划的聚类方法。以上海市电动出租车充电站的选址规划为研究对象,分别基于孤立森林和聚类算法设计异常值检测方法,对相关时段的出租车卫星数据进行清理以及数据可视化处
2、理;比较层次聚类(Agglomerative Clustering)、高斯混合模型(Gaussian Mixture Model,GMM)、K-means 聚类、Mean-Shift 聚类以及谱聚类(Spectral Clustering)5种算法的聚类效果,并选取K-means算法作为充电桩选址规划参考算法。从城市区域划分及企业运营角度确定充电桩选址方案,为未来上海市区电动出租车充电桩的数量和容量配置提供设计依据。关键词:电动出租车;充电桩选址;异常值检测;聚类方法;可视化中图分类号:U491.8文献标志码:ADOI:10.3969/j.issn.20951469.2023.04.13Com
3、parison of Clustering Methods for Charging Station Site Selection Based on Electrical Taxi DataZHEN Xiyuan1,GAO Chao1,LI Xianghua1,JI Jie2(1.Northwestern Polytechnical University,Xi an 710072,China;2.Southwest University,Chongqing 400715,China)Abstract:In order to effectively reduce the economic exp
4、enses for taxi companies and users,the analysis of satellite trajectory data for electrical taxis is used to compare and select suitable clustering methods for charging pile location planning.Focusing on the location planning of electrical taxi charging stations in Shanghai,the paper designed the ou
5、tlier detection method based on isolated forest and clustering algorithms to clean up the taxi satellite data within the relevant time period,followed by data visualization processing.The clustering effects of five algorithms,including Agglomerative hierarchical clustering,GMM Gaussian mixed cluster
6、ing,K-means clustering,Mean-shift clustering and Spectrum clustering were evaluated and compared.And the K-means algorithm was selected as the reference algorithm for charging pile location planning.From the perspectives of urban zoning and business operations,a site selection strategy is determined
7、,which provides a foundation for the design and planning of the quantity and capacity allocation of electric taxi charging piles in Shanghai for the future.Keywords:electrical taxi;charging pile site selection;outlier detection;clustering methods;visualization收稿日期:20220616改稿日期:20220913基金项目:国家科技部重点研发
8、计划项目(2022YFE0112300):突发公共卫生事件下的医疗资源供给与配置模式研究参考文献引用格式:甄西媛,高超,李向华,等.基于电动出租车数据的充电桩选址聚类方法比较 J.汽车工程学报,2023,13(4):564-573.ZHEN Xiyuan,GAO Chao,LI Xianghua,et al.Comparison of Clustering Methods for Charging Station Site Selection Based on Electrical Taxi Data J.Chinese Journal of Automotive Engineering,20
9、23,13(4):564-573.(in Chinese)第 4 期甄西媛 等:基于电动出租车数据的充电桩选址聚类方法比较当前,国家正在大力促进绿色交通的发展,提出要有序加快充电桩等绿色交通基础设施的建设1-2。计划到2035年,交通基础设施的绿色化建设比例要达到 95%3;到“十四五”规划末期,汽车充电站数量能涵盖超过2 000万辆电动汽车的充电需求。在国家政策的支持和推动下,截至2022年 6 月,中国新能源汽车保有量已达 1 001 万辆,占汽车总量的3.23%,全国新能源汽车充电基础设施数量有358.1万台。然而,与新能源汽车市场的快速发展相比,充电设施建设还存在一定的不足和滞后4。以
10、新能源汽车产业较为成熟的上海市为例,目前,上海市累计销售新能源汽车42.6万辆,建成各类充电桩 37.7万个5,并计划新建 10万个充电设施6。但由于部分公共充电设施未充分考虑电动汽车的实际使用要求,选址缺乏理论研究,造成部分地区的充电站难以满足电动出租车的实际用电需求。因此,亟需对现有充电桩站点选址方案进行改进和优化。各国研究者采用不同方法解决电动汽车充电桩站点的规划布局研究问题。其中,聚类算法被认为是 求 解 该 类 问 题 较 有 效 的 研 究 方 法。例 如,KALAKANTI等7 ,CHEN Chongyu等8分别利用不同的聚类方法对印度班加罗尔、中国成都等城市的电动汽车充电站进行
11、了优化规划。而ZHANG Yajun等9利用仿射传播聚类方法为贵阳市的电动公交车提供了充电基础设施的规划方案。此外,对大量的出行数据进行合理分析是实现充电桩站点选址的重要前提,因此,基于数据分析的方法也得到越来越广泛的应用。例如,葛尧等10基于 POI 数据,从规划学和建筑学两个学科角度对武汉市的充电桩站点提出合理的改造建议。BAI Xue等11基于出行车辆的GPS数据优化了中国深圳的电动汽车充电站网络。罗思杰等12以福州市4 416辆出租车的轨迹数据为试验样本得出了16个充电站的选址方案。此外,在数据分析及聚类方法的基础上,近年来遗传算法也得到了越来越多的应用13-15。然而,将上述方法应用
12、于某个具体城市的充电桩选址时,需要根据该城市的城区规划及车辆出行数据,比较和选取有针对性的选址方法。本研究选取能体现市场需求的实际交通数据作为关键依据,利用异常值处理算法去除原始数据中的离散点,并利用不同聚类算法对得到的有效数据进行处理,最终获得不同充电桩数量要求的合理站点规划方案,从而优化配置资源,避免选址过程中重复和不足的问题。1数据处理选取原始数据条目中的相关字段建立分析模型,为聚类及选址方法提供数据支撑。此外,对所有数据进行热力图呈现,观察上海全市及城区的行驶轨迹和交通流量情况。1.1数据描述选取的交通数据集记录了 2015年 4月 13日全天 13 656 辆上海出租车 1 048
13、575 条的卫星数据,数据范围位于东经 121.0122.0、北纬 30.631.6之间。本研究采用的数据样例,如图1所示。每一行字段的数据信息从左到右依次为:车辆 ID号码,记录时刻,经度和纬度。1.2单辆出租车轨迹显示对随机抽取数据中某单辆出租车的全天行驶轨迹进行分析,确定其行驶范围。将轨迹数据中的经纬度映射到二维图中,得到单辆出租车的行驶轨迹。由图2所示的轨迹结果可知,出租车运营范围主要集中在东经 121.32121.44、北纬 31.0831.20 之间,大多在某一地区的固定范围进行活动。图1上海出租车运营数据样例565汽车工程学报第 13 卷1.3数据轨迹特点加入上海全市以及城区的地
14、图信息后,出租车轨迹点分布如图3所示。对比图3a和b可知,出租车的运动轨迹点主要集中在上海城区范围。以横贯上海的黄浦江作为分界线,黄浦江两岸的出租车轨迹点最多且向两边辐射,其中,黄浦江北岸区域的出租车轨迹点比南岸区域的出租车轨迹点更多、更密集且范围更大。图3b展示了上海城区道路尺度上的出租车轨迹点热力图,可以直观地看到该区域内的道路信息以及道路上的车辆流量信息,同时,说明上海城区以内打车相对城区以外更加频繁,且大多数的出行客户都要途经市区以内的道路。2异常值处理出租车卫星数据中存在的离散点会影响聚类处理的结果,并导致电动汽车充电桩的布局规划产生一定的偏差。因此,本节选用基于孤立森林算法和聚类算
15、法的异常值检测算法对离散点进行数据处理。2.1基于孤立森林算法的异常值处理分析孤立森林算法适用于连续数据的异常值检测,即检测分布稀疏且离密集度高的群体较远的点16。出租车的运营轨迹卫星数据在二维图上有疏密之分,在出租车较少到达或者运营密度不高的区域,其数据相对稀疏和离散。因此,这些区域里的数据点对于充电桩选址的参考价值较小。对于找出的异常数据,可以通过直接清除或者局部分析的方式处理异常数据。鉴于本研究的主要目标,将对异常数据直接进行清除,从而保证出租车卫星数据的有效性及充电桩选址的合理性。孤立森林算法属于非参数化和无监督的方法,即不需要定义数学模型也无需对其进行标记训练17。为了有效消除交通数
16、据集中的异常数据,利用随机的超平面对数据空间进行循环切割,划分出越来越细的交通数据子空间,直到单个数据只在一个子空间里面位置。在本研究中,运营密度高的数据簇被切分很多次才会停止切割,而运营密度低的数据簇会很容易较早地停到一个子空间里。孤立森林算法受到随机森林决策树思想的启发,构建了大量的二叉树模型。而孤立森林算法中的孤立树和决策树不同,其构建过程比决策树简单,并且是一个完全随机的过程,不需要进行数据的归一化和标准化。因此,通过设置异常点的比例参数,利用孤立森林法就能方便得到不同的异常值检测结果,如图4所示。由图4可知,异常值检测结果基本符合预期效果,较好地检测出了相对异常的出租车运营数据点。当
17、异常值比例为0.01时,大部分明显异常值点图2单辆出租车的行驶轨迹(a)上海全市轨迹点数据(b)上海城区轨迹点数据图3上海全市和城区的出租车轨迹点热力图566第 4 期甄西媛 等:基于电动出租车数据的充电桩选址聚类方法比较会被检测出来,但部分明显异常值点未被检测出来,如左侧两个绿点;当异常值检测比例为 0.02时,明显异常值点基本上都会被检测出来;而当异常值检测比例为0.03时,部分非明显异常值点被清除,说明异常值比例为0.03时设置的异常值比例不合适。综上所述,基于孤立森林算法的异常值检测算法比例选取0.02较为合适。2.2基于聚类算法的异常值处理分析由图4可知,虽然孤立森林算法能基本清除异
18、常数据,但蓝色圈中的绿色异常值难以被有效检测和清除。因此,本研究进一步采用K-means聚类算法对上海出租车路线数据进行异常点检测,提升异常数据清除效果。K-means聚类算法采用欧式距离作为数据对象之间的相似性度量标准,数据间的距离越小、相似度越高,这些数据越有可能在同一个类簇。算法步骤如图5所示。基于K-Means聚类算法的出租车数据异常值检测流程如下:1)选择 K-means聚类算法,将交通数据样本集聚K个类别并找到各类别的中心;2)计算所有对象到最近中心点的距离;3)步骤2)中计算的距离与该类别中所有对象到中心点的距离中位数之比,即为所有对象到最近中心点的相对距离;4)与设定的离散点阈
19、值进行比较,得到数据异常值的检测结果。在上述聚类过程中,不同的聚类簇个数和离散点阈值对聚类结果影响较大。例如,离散点的阈值越大,检测到的异常数据越少,异常值检测越宽松;反之则异常值检测越收紧。通过对不同参数进行对比,本案例选取聚类个数为4个类别簇、离散点阈值为5时,异常值检测结果较理想。基于K-means聚类算法的异常值检测结果可以看出,该异常值检测方法能较好地将离散点检测出来,如图6所示。此外,利用聚类算法得到的检测结果相比孤立森林算法更加集中紧凑,且异常值检测消除更加彻底。因此,选取该结果作为电动出租车充电桩站点布局规划选址的数据支撑。(a)异常值比例为0.01(b)异常值比例为0.02(
20、c)异常值比例为0.03图4不同比例参数的异常值检测结果图5K-Means聚类流程图567汽车工程学报第 13 卷3不同聚类方法的应用与对比对出租车运营数据集的离散异常值进行检测和消除之后,进一步比较5种常用算法的聚类效果,并选取适用于电动出租车充电桩选址的聚类方法。3.1数据归一化和标准化使用不同方法进行数据聚类分析时,由于部分数据存在量纲不一致的情况,导致量纲较大的特征属性对分析结果的影响较大。通常采用无量纲算法将不同分布、不同规格的数据转换为某一特定范围内的规格数据,从而有效提高模型的精度,并防止特别大的特征影响距离计算。无量纲算法主要包括数据归一化和数据标准化。数据归一化:将出租车运营
21、数据(x)按照最小值居中,然后按照运营范围(最大值-最小值)进行缩放,最终将数据的移动最小单位收敛到0,1 区间,归一化数据服从正态分布,如式(1)所示。x*=x-min()xmax()x-min()x。(1)数据标准化:将交通数据集中的每个数据(x)按平均值()居中,然后根据标准差()进行缩放,数据将服从平均值为0和标准差为1的正态分布。可以表示为:x*=x-。(2)标准化不改变数据本身的分布,也不会将数据本身变成正态分布,只是将数据的值改变为正态分布,通过标准化使数据值更适合模型使用。在进行出租车数据建模之前,要对出租车路线数据进行以上前处理和特征提取操作,从而得到可以用于模型分析的数据。
22、3.2典型聚类方法应用3.2.1层次聚类算法层次聚类算法通常用树状图来表示结果18。例如,图7中蓝色柱状块代表7个不同的原始数据点,按照数据点间的相似度,组合为聚类树的第2层,如图中的(A,B)(C,D)(E,F)数据对,以此类推,生成完整的层次聚类树状结果图。这种聚类算法适合处理未知聚类个数且含有多指标的样本聚类问题,如果对出租车运营样本聚类,根据交通数据集中的指标数据,选出满足电动出租车使用要求的区域聚类个数。3.2.2高斯混合模型高斯混合模型的每一个聚类都用高斯分布表示19。高斯混合聚类算法对样本的概率密度分布进行估计,且每个高斯模型代表一个类簇。由于高斯混合模型常用于对用户行为数据进行
23、聚类分析,所以高斯混合聚类常被用于解决地域性比较强的领(a)相对距离的异常检测结果(b)坐标空间中的异常检测结果图6基于K-means聚类的异常值检测结果图7层次聚类算法树状结果568第 4 期甄西媛 等:基于电动出租车数据的充电桩选址聚类方法比较域。例如,电动汽车充电桩选址,从用户数据聚类出此类信息,实现精准规划。3.2.3谱聚类算法谱聚类算法是从图论中演化出来的算法,其主旨是把所有的数据当作空间中可相互链接的点,对构建的图像不断进行切割,从而达到聚类的目的,在处理高维数据聚类方面有一定优势。谱聚类算法能对具有相似模式的地理区域进行聚类,只需要数据之间的相似度矩阵,就能自动确定城市地区的土地
24、用途,这对电动出租车充电桩选址具有一定的帮助20。3.2.4Mean-Shift聚类算法均值偏移聚类算法是基于核密度估计的爬山算法,是一种功能强大的非参数聚类分析方法21,可用于聚类、跟踪图像分割等,特别是在流量交通数据分析中,具有较好的聚类效果22。3.3不同聚类算法效果比较3.3.1基于SSE和手肘法确定聚类K值类别数K值对应簇内的点到中心点的距离误差平方和表示为 SSE(Sum of Squared Error)。理论上,SSE值越小,说明聚类效果越好。聚类样本划分会随着类别数量K值的不断增大而变得更加精细,每个簇的聚合程度也会更高,最终SSE值会逐渐趋向于一个最小值。类别数量K值与真实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 电动 出租车 数据 充电 选址 方法 比较
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。