基于CatBoost算法的短期光伏功率预测方法_陈海宏.pdf
《基于CatBoost算法的短期光伏功率预测方法_陈海宏.pdf》由会员分享,可在线阅读,更多相关《基于CatBoost算法的短期光伏功率预测方法_陈海宏.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 42 卷 第 2 期2023 年2 月Zhejiang Electric PowerVol.42,No.02Feb.25.2023基于CatBoost算法的短期光伏功率预测方法陈海宏1,易永利1,黄珅2,韩静怡2(1.国网浙江省电力有限公司温州供电公司,浙江 温州 325000;2.亿可能源科技(上海)有限公司,上海 200090)摘要:光伏电站发电功率的间歇性与波动性对电网安全、稳定、经济运行的影响日益明显,因此需要不断提高光伏发电功率预测准确率,为电网灵活调度与规划提供准确信息。首先,介绍了短期光伏发电功率的预测算法、特征方程、预测流程以及评价指标。接着,通过SHAP方法对训练集所构造
2、特征进行分析筛选,使用CatBoost算法进行训练。最后,通过与使用相同特征的其他机器学习算法模型预测精度的对比,表明所提方法有效提高了预测性能,证实了基于CatBoost算法、融合多维特征的模型在光伏功率预测中的优势。关键词:光伏发电;功率预测;CatBoost;SHAPDOI:10.19585/j.zjdl.202302009 开放科学(资源服务)标识码(OSID):Research on a short-term photovoltaic power prediction method based on CatBoostCHEN Haihong1,YI Yongli1,HUANG She
3、n2,HAN Jingyi2(1.State Grid Wenzhou Power Supply Company,Wenzhou,Zhejiang 32500,China;2.EQuota Energy Technology(Shanghai)Co.,Ltd.,Shanghai 200090,China)Abstract:The intermittent and fluctuating generation power of PV power plants has an increasingly prominent impact on the safe,stable,and economica
4、l operation of power grids.Therefore,it is required to continuously improve the accuracy of PV power prediction to provide accurate information for flexible grid dispatching and planning.First,the prediction algorithm,characteristic equation,prediction process,and evaluation index of short-term PV g
5、eneration power are introduced.Afterward,the features constructed in the training set are analyzed and filtered using the SHAP,and the training is performed using the CatBoost.Finally,by comparing the prediction accuracy with other machine learning algorithm models using the same features,the paper
6、indicates that the proposed method can improve the prediction performance and confirms the advantages of the CatBoost that incorporates multidimensional feature models in PV power prediction.Keywords:PV power generation;power prediction;CatBoost;SHAP0引言目前,在“双碳”背景下1,我国正在全力推进光伏发电的大规模开发与高质量发展,光伏发电呈现出良好
7、的发展前景2-3。随着集中式光伏发电开发的有序推进,我国在大力推广光伏产业的同时,也在开展光伏发电功率预测相关工作4。在电网调度过程中,如果在获得精确的光伏发电功率预测结果的基础上制定生产计划,则能够保障电力系统连续、可靠供电,有效降低发电成本。但光伏发电功率数据的准确性问题加大了光伏发电功率预测的难度,增加了光伏发电功率预测的不确定性,当光伏电站并网运行时,电力系统的稳定性与经济性会受到影响5。可靠的预测算法模型和精细的气象预报数据是准确预测光伏发电功率的决定性因素,而多变的微气象环境使功率预测变得更加复杂,传统的预测方法在建模难度与预测精准度上受到诸多限制。因此,全面了解和掌握先进的光伏发
8、电功率预测方法、利用人工智能算法实现更加精确的光伏发电功率预测,是提升电力系统可靠性与经济性的有效解决方案6。近年来,国内外学者通过不同算法建立模型,提出了多种光伏发电预测方法。刘家庆等7借助ARIMA(自回归差分平均)方法和SVR(支持向量机)算法,通过考虑功率修正建立模型从而预测光基金项目:国网浙江省电力有限公司科技项目(B311WZ220002)第 42 卷伏发电功率。李秉晨等8基于Kmeans和CEEMD(完备总体经验模态分解)、PE(排列熵),与LSTM(长短期记忆)神经网络结合建立了用于光伏发电功率预测的模型。刘国海等9提出了一种结 合 注 意 力 机 制 与 GRU(门 控 循
9、环 单 元)的Attention-GRU短期光伏发电功率预测模型。A.I.Salamanis等10提出了一个综合的基准框架,用于多步骤短期光伏发电预测的分析型、数据型和混合型模型。A.A.H.Lateko等11提出了一种基于堆叠集成模型的提前一天到三天的光伏功率预测方法。C.C.Liu等12根据预测过程、需求、时间和空间尺度对预测方法进行分类,罗列出了合适的评价指标。以上算法中,ARIMA等方法对于非线性时序的预测效果较差,而LSTM、GRU算法在模型训练过程中有较多超参数需要考虑,都不能对文字标签进行处理。本文提出了一种基于CatBoost算法的短期输出功率预测模型,该方法对于类别型特征有较
10、好的识别能力,且降低了对超参数的要求。结合时间特征、历史光伏功率特征和气象因素特征对未来的光伏发电功率进行预测,同时采用 SHAP(SHaplay加法解释)方法对所构造的特征进行筛选,进一步提高了光伏发电功率预测精度。最后通过实例验证了所提模型在光伏发电短期预测中的优越性和可靠性。1光伏发电功率短期预测研究常用的短期预测方法大致可分为线性预测法、非线性预测法和综合预测法13。1)线性预测法通过结合历史气象数据与历史输出功率数据来预测光伏发电功率。目前大多采用ARMA(自回归移动平均)、ARIMA、ARIMAX(扩展的自回归移动平均)3种方法。2)受气象因素的影响,光伏发电功率不稳定,为提升预测
11、的精度,可以采用非线性预测法。首先通过对外界影响因素与光伏发电功率的分析,建立非线性模型,进而进行光伏发电功率预测14。3)综合预测法是将非线性预测法与线性预测法相结合产生的预测方法。与单一预测方法相比更为复杂,但预测精度也随之提升。1.1预测算法目前,为实现短期光伏发电的精确预测,提出了时间序列法、回归分析法、SVR、模糊预测法、人工神经网络等。诸多预测方法具有很好的预测精度,但因有过多的超参数调优,并且数据预处理过程中类别变量处理方式较为复杂,容易降低训练速度,影响预测效果。另外,考虑到气象因素与突发事件对光伏功率预测精度的影响,本文在前期有针对性地收集了光伏电站附近的数值气象预报数据、天
12、气实况数据、光伏电站机组特性数据、检修计划数据、光伏电站出力数据等多种类型数据,训练AI(人工智能)预测模型,预测未来光伏发电出力2。由于光伏发电功率具有不平稳、非线性特征,且外围数据中存在较多类别变量(如天气类型等数据),因此本文尝试采用 CatBoost 算法建立光电预测模型15。1.1.1CatBoost算法CatBoost 和 XGBoost、LightGBM 是 GBDT(梯度提升树)的主要算法。相比于传统的GBDT,XGBoost算法得到的模型更加简单,LightGBM算法的训练速度更快,而 CatBoost 算法的准确率更高。CatBoost算法的机器学习参数少,支持类别变量且精
13、度高,在处理类别数据方面具有显著优势,与其他算法相比,准确性更好并提高了泛化能力16。在光伏发电功率的预测过程中,可能会出现梯度偏差及预测偏移,从而导致过拟合问题,而 CatBoost 恰好能够有效解决该问题。此外,CatBoost算法减少了对广泛的超参数调整的需求,具有很高的鲁棒性。与 XGBoost、LightGBM 相比,CatBoost具有以下特点:1)插入了能够自动将类别型特征处理为数值型特征的新算法。2)通过组合类别特征处理不同特征的联系,丰富了特征维度。3)采用排序提升处理数据集的噪声点,解决了预测偏移的问题。4)采用完全对称树作为基模型,避免了过拟合问题,增加了可靠性,加快了预
14、测进程。1.1.2CatBoost特征处理GBDT中存在离散的特征(类别型特征),此类特征在算法输入时需要经过处理。最简单的处理方法是Greedy TS,但Greedy TS采用类别特征68 第 2 期陈海宏,等:基于CatBoost算法的短期光伏功率预测方法对应标签的平均值来替换离散特征,当训练数据集与测试数据集的数据结构、数据分布不一致时,标签所替代的离散特征丢失了信息,会导致条件偏移。由此提出采用CatBoost算法对Greedy TS进行改进17。通过添加先验分布项,使得数据分布免受噪声 和 低 频 的 影 响,即 打 乱 数 据 集D=(xi.yi)i=1,n顺 序,打 乱 后 的
15、序 列 是=(1,n),遍历1到n,用遍历到的前p个记录计算类别型特征的数值,具体公式如下:p,k=jp-1 xj,k=xi,kYj+apjp-1 xj,k=xi,kYj+a(1)式中:p为添加的先验项;a为权重系数。1.1.3参数优化在参数优化方面有多种选择,最常用的是Grid Search和它的一些改进方法。1)Grid SearchGSA(网格搜索算法)是一种穷举搜索,它对输入到搜索空间的每个超参数进行组合。将各个参数的可能取值进行排列组合,列出所有可能的组合“网格”。通过循环遍历,尝试每一种组合,最后选择表现最好的参数组合为每个组合创建一个模型并进行比较。网格搜索是目前比较常见的超参数
16、优化算法,其缺点也很明显:确定最优超参数是一个NP-Hard问题,因为需要处理的是超参数的组合,所以效率低下。2)Optuna超参数优化算法由于Grid Search没有包含任何结构化的方法来搜索最优超参数集,因此考虑采用新算法对其进行优化,以提高效率。Optuna超参数调优算法是基于贝叶斯优化算法中的树形帕曾优化器(Parzen)对模型参数进行优化的方法。Optuna可以通过不断试错的方法找到最好表现的最优超参数值,具有以下主要特征:可实现分布式并行优化;可修剪无希望调优的试验;通用于多个机器学习框架。Optuna主要基于运行的历史数据来确定接下来需要测试的超参数各值的组合。基于已有数据,选
17、择一些超参数组合区域并在该区域中进行超参数搜索尝试。随着不断获取新的结果,它也将更新这一区域并继续搜索。在不断重复搜索、评价更新的过程中获取表现更好的超参数。Optuna可以在很复杂的空间中实现超参数优化;可以通过预测终止可能性较小的参数区间,把更多的算力用于可能性更高的区域以提高搜索效率。整体而言,这是一种基于改进贝叶斯的试错算法,当向某一区域尝试得到的效果变差即损失不再减小时停止该区域的搜索,尝试到错误即淘汰,最后选出最优的区域18。1.2特征工程通常来说,短期光伏预测需要考虑多种因素,根据这些因素提取相应的特征作为模型的输入,从而提高模型的预测精度。但如果模型考虑了过多不必要的特征,反而
18、容易陷入过拟合,降低模型的准确性;并且过多的特征也会导致模型变得更加复杂,在训练和预测时增加计算耗时。因此,本文提出利用SHAP方法对模型进行解释,进而得到各个特征重要性,以便在进行特征选择时剔除特征变量中不重要的特征。1.2.1SHAPSHAP以博弈论思想为基础,用于解释复杂算法中某一个样本各个特征对预测结果产生的影响。SHAP通过特征的归因值来解释其对模型预测的重要性。归因值为正,代表该特征对模型预测体现正向作用;反之则为负向作用。模型的预测值由模型预测的平均值和特征的归因值相加得到19。如图1所示,根据不同特征对光伏预测影响程度的重要性自上而下排序,红色代表归因值的正向作用,蓝色代表归因
19、值的负向作用。分析可知,历史同时刻负荷、气象数据中的动量通量、长波辐射通量、短波辐射通量、感热通量、云量、空气密度、2 m相对湿度、温度的部分统计量是影响光伏预测性能比较重要的变量。1.2.2时间特征选择合适的时间特征可提高预测的精度。由前文分析可知,光伏发电功率数据具有日、月、季节的周期特性。因此,本文创建了如表1所示的时间特征20。1.2.3功率特征短期光伏预测具有明显的周期性规律,具体69第 42 卷体现在:不同日相同采样点间的相似性;不同日之间整体变化规律的相似性;不同周、月、季节的相似性。同时,受温度等气象因素的影响,光伏具有明显的时滞特性。因此,本文构建了如表2所示的光伏历史数据相
20、关特征。1.2.4气象因素特征利用气象因素,采用更合理的数学模型与算法,可进一步提高光伏预测精度,减小误差。因此,选择的气象数据特征见表3。1.3预测流程开展光伏发电功率预测,首先要通过对现有的光伏历史数据进行数据预处理和相关分析,寻找其在时序上的结构性与规律性;同时分析外围因素(如温度、光照等天气因素)对光伏发电功率预测的影响,利用特征工程建立相应模型。预测流程如图2所示,具体步骤如下:1)数据预处理:数据预处理是建立光伏发电功率预测模型的首要步骤。针对光伏以及相关的外围数据,本文考虑采用基于回归的缺失值处理、异常检测、鲁棒统计方法等多种方法对历史数据进行预处理,建立较为完整的预测训练数据集
21、,用于预测模型的训练。2)功率曲线聚类:功率曲线统计的是多个光伏电站发电功率的总和。通常的聚类方式是根据日期属性(如月、季节等)对数据集进行划分,即相似日方法。本文在实际数据预处理后,通过对数据特性的分析,结合额外因素进行更有针对性的聚类,并在此基础上构造合适的统计特征。3)历史数据分析:历史数据分析是建立光伏发电功率预测模型的必要条件。本文考虑采用时间序列分析、相关性分析等方法对光伏历史数据及其外围数据进行分析。4)特征工程:特征工程包括特征选择、特征转化、特征提取等。本文结合分析结果,针对光伏发电功率以及相关数据,利用SHAP分析方法进行特征筛选。考虑在获得数据后进行详细的探索性分析,进而
22、建立针对本文的功率预测特征集。图1 基于SHAP方法的特征重要性排序Fig.1 SHAP-based ranking of features by the dominance表1时间特征Table 1Time characteristics特征类型时间特征参数该时刻点位于该日的位置(1-96)月份(1-12)月中日(1-31)季节(春、夏、秋、冬)年中日(1-366)日期类型表2历史发电功率特征Table 2Historical generation power characteristics特征类型相似特性滞后特性统计特性参数当前采样点历史时刻光伏发电功率前1 h当前采样点历史时刻光伏历史发
23、电功率每月光伏发电功率的日均值每季度光伏发电功率的日均值70 第 2 期陈海宏,等:基于CatBoost算法的短期光伏功率预测方法特征集考虑的数据包括预测区域光伏历史数据和天气预报等数据。5)模型训练:首先将数据分为训练数据、测试数据,其次训练数据细分为训练集和验证集,测试数据作为测试集。将所选择的特征作为输入,当日光伏发电功率作为输出,利用训练集训练模型,同时利用Optuna方法优化调整模型参数,构建最佳模型。6)应用:根据选择的多维特征和训练好的模型对未来光伏发电功率进行预测。1.4评价指标为衡量预测模型的性能优劣,本文采用多种评判方式对模型预测精度进行评估,主要评价指标如式(2)(5)所
24、示15,21-22。SMAE=1ni=1n|yi-y?i(2)SMSE=1ni=1n(yi-y?i)2(3)SRMSE=1ni=1n(yi-y?i)2(4)SR2=1-i=1n(y?i-yi)2i=1n(y i-yi)2(5)式中:yi为第i时刻的实际采集数据;y?i为第i时刻的预测数据;n为预测值个数;SMAE、SMSE、SRMSE、SR2分别表示光伏样本数据的 MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、决定系数。2算例分析2.1实验数据本文采用某光伏电站2019-01-01 T 00:00至2020-12-31 T 23:45的光伏发电功率数据进行分析。该电站额定
25、容量为2.41 MW,系统采样频率为每15 min一次,即一天96个点。选择前80%数据为训练数据,剩余20%数据为测试数据。首先根据该光伏电站额定容量、扩容信息、限电信息对其历史发电数据进行缺失值、异常值的数据预处理,依据该电站的额定容量、检修信息、扩容信息进行标幺化处理,标幺化基值为可用功率,得到该电站的标幺值(即历史光伏发电功率与可用功率之比),这样可有效避免因训练集时间跨度长而变电站部分检修或扩容导致历史光伏发电功率骤减、骤升,进而影响预测精度。选取处理后的部分光伏数据示于图3。可以看出,光伏发电功率具有很明显的日周期特性23。2.2功率曲线太阳辐照度是影响光伏电站发电功率的主要因素,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CatBoost 算法 短期 功率 预测 方法 陈海宏
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。