基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf
《基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf》由会员分享,可在线阅读,更多相关《基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf(15页珍藏版)》请在咨信网上搜索。
1、第 47 卷 第 4 期 电 网 技 术 Vol.47 No.4 2023 年 4 月 Power System Technology Apr.2023 文章编号:1000-3673(2023)04-1601-11 中图分类号:TM 721 文献标志码:A 学科代码:47040 基于优势柔性策略 评价算法和迁移学习的区域综合能源系统优化调度罗文健1,张靖1,何宇1,古庭赟2,聂祥论1,范璐钦1,袁旭峰1,李博文2(1贵州大学电气工程学院,贵州省 贵阳市 550025;2贵州电网有限责任公司电力科学研究院,贵州省 贵阳市 550002)Optimal Scheduling of Regional
2、 Integrated Energy System Based on Advantage Learning Soft Actor-critic Algorithm and Transfer Learning LUO Wenjian1,ZHANG Jing1,HE Yu1,GU Tingyun2,NIE Xianglun1,FAN Luqin1,YUAN Xufeng1,LI Bowen2(1.College of Electrical Engineering,Guizhou University,Guiyang 550025,Guizhou Province,China;2.Electric
3、Power Research Institute of Guizhou Power Grid Co.,Ltd.,Guiyang 550002,Guizhou Province,China)1ABSTRACT:In order to improve the consumption rate of clean energy and reduce the pollution of carbon emissions to the environment,and to achieve a more generalized,robust and efficient regional integrated
4、energy system optimal scheduling,this paper proposes an optimal scheduling of regional integrated energy system based on advantage learning soft actor-critic(ALSAC)algorithm and transfer learning.Using environmental information to communicate and interact with agents,the regional comprehensive energ
5、y system is dispatched and optimized for the purpose of low carbon and economy.In this paper,the maximum entropy mechanism for improving the robustness of soft actor-critic(SAC)is analyzed,and the performance is compared with various deep reinforcement learning algorithms and heuristic algorithms ba
6、sed on policy gradients.The idea of advantage learning is introduced into the update of the Q value function of SAC,which solves the problem of overestimating the Q value of the algorithm and improves the performance of the algorithm.In order to improve the learning efficiency of the agent and the g
7、eneralization ability to deal with new scenarios,the parameter transfer of transfer learning is added.Calculation examples show that the optimal scheduling strategy based on ALSAC algorithm and transfer learning has good robustness,generalization ability and efficient learning efficiency,and realize
8、s flexible and efficient scheduling of regional integrated energy systems.KEY WORDS:regional integrated energy system;deep reinforcement learning;soft actor-critic;transfer learning;advantage learning 基金项目:国家自然科学基金项目(51867005);黔科合支撑2022一般 013;黔科合平台人才-GCC2022016-1。Project Supported by the National Na
9、tural Science Foundation of China(51867005);Science and Technology Support Program of Guizhou Province 2022 General 013;Science and Technology Support Program for the Talents by Guizhou Province-GCC 2022016-1.摘要:为提高清洁能源消纳率及减少碳排放对环境的污染,实现更具泛化能力、鲁棒性和高效性的区域综合能源系统优化调度,该文提出了基于优势柔性策略评价(advantage learning
10、soft actor-critic,ALSAC)算法和迁移学习的区域综合能源系统优化调度方法。利用环境信息与智能体进行通信交互,以低碳、经济为目标实现区域综合能源系统的优化调度。在文中分析了提升柔性策略评价(soft actor-critic,SAC)鲁棒性的最大熵机制,并与基于策略梯度的多种深度强化学习算法和启发式算法进行了性能对比,随后将优势学习的思想引入 SAC 的 Q 值函数更新中,解决了算法对 Q 值的过估计问题,提升了算法的性能。为提高智能体的学习效率和应对新场景的泛化能力,加入了迁移学习的参数迁移。算例表明,基于 ALSAC 算法和迁移学习的优化调度策略具有较好的鲁棒性、泛化能力
11、和高效的学习效率,实现区域综合能源系统的灵活高效调度。关键词:区域综合能源系统;深度强化学习;柔性策略评价;迁移学习;优势学习 DOI:10.13335/j.1000-3673.pst.2022.1241 0 引言 区域综合能源系统(regional integrated energy system,RIES)作为新兴的能源管理模式,旨在利用先进的通信和控制技术实现多种能源的高效应用,有利于提高能源利用效率、提升可再生能源消费比重1。在区域综合能源系统中,可再生能源的不稳定性和多种能源的耦合使得能源系统的物理模型过于复杂,同时智能化的信息设备接入,使得系统中包含大量的高维数据2。在无明确模型和
12、包含庞大数据量的情况下,针对区域综合能源系统的优化调度,常用的经典优化方法3、基于规划的方法4-5、启发式算法6-7等,计算成本增大,求解速率过慢,1602 罗文健等:基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 Vol.47 No.4 将难以适用8。近年来,深度强化学习(deep reinforce-ment learning,DRL)作为处理序列决策问题的有效手段而被研究者们广泛应用并发展。在复杂的区域综合能源系统优化调度问题中,它可以通过直接与环境进行交互实现端到端的学习,学习后的智能体能够直接根据该时段的环境信息立即做出调度决策,对数据和复杂模型的问题有着高效的解决能力
13、9。区域综合能源系统调度问题可以看作是时序决策问题,此类问题完全符合 DRL 的理论框架10,目前已有很多DRL应用于该领域,如深度双Q网络11-12(deep reinforcement learning with double q-learning,DDQN)、近端策略优化算法13(proximal policy optimization,PPO)、确定性策略梯度算法14(deterministic policy gradient,DPG)等。DRL 可分为 2 类:一类为基于值函数,可作用于离散动作空间;另一类为基于策略梯度,可作用于连续动作空间。本文系统中的动作皆为连续动作,因此采用基
14、于策略梯度的 DRL 进行优化调度。但在区域综合能源系统的优化调度中,基于策略梯度的 DRL 优化调度存在 2 个困难15:1)过估计问题,算法的贪婪思想会将一些非最优动作对应的 Q 值估计过高,扰乱调度策略生成,导致在新环境中进行了错误的判断,泛化能力降低。文献16提出了双 DQN,通过延迟策略更新 2 个 Q 网络来解决过估计问题;但在基于策略的 DRL 中,本身模型参数更新波动不大,2 个 Q 网络的参数会很接近,无法使用此方法。文献17提出了使用 2 个独立的 Q 网络,每次运行取最小的 Q 值,但这样会出现欠估计。文献18将优势学习的思想加入基于策略的 DRL 中,保持了最优动作的值
15、,减少非最优动作的过估计,增强了泛化能力。2)算法训练时收敛速度较慢。智能体需要获得更多新场景中的数据样本来完善它的调度策略,但每次改善策略时都需要重新采集样本,因此样本利用效率低,降低了智能体的学习效率,且随着新的训练样本的加入,DRL 的收敛速度会更慢。文献19提出优先级经验回放,将新场景数据与之前的数据混合,通过求和树将价值高的数据优先训练,加快算法收敛速度,但随着数据量增大,求和树的每次应用会耗费更多时间。文献20利用 DRL 结合迁移学习的方法研究微电网优化调度,实现调度知识的积累和复用,提高了样本利用效率,在原有调度知识的基础上对新场景再学习,学习速率提升明显。针对上述 2 个问题
16、,本文利用优势学习值函数理论框架结合柔性策略评价(soft actor-critic,SAC)算法,并加以改进,同时引入迁移学习的参数迁移,提出了基于优势柔性策略评价(advantage learning soft actor-critic,ALSAC)算法和迁移学习的区域综合能源系统优化调度策略,以低碳和经济为目标实现区域综合能源系统的优化调度。该方法中 SAC的最大熵机制让区域综合能源系统的优化调度更具鲁棒性,结合优势学习的思想后,减少 Q 网络对非最优动作价值的过估计,降低智能体对非最优动作的误选,提高泛化能力;同时在算法中加入了神经网络稳定性判断来决定是否启动优势学习,防止优势学习干扰
17、前期的神经网络参数迭代。引入迁移学习的参数迁移,利用 K-Means 的相关性判断场景是否为新场景。若为新场景,则将历史调度知识迁移至新场景的目标任务中,通过 ALSAC 算法再对深度神经网络参数进行微调,进而获得最佳调度策略。测试结果表明,与其他的 DRL 策略、启发式算法粒子群算法(particle swarm optimization,PSO)以及混合整数规划相比,基于 ALSAC 的优化调度策略在不同场景下的优化具有较强的鲁棒性、收敛速度快。同时,在引入迁移学习的参数迁移后,提高了智能体的学习效率和应对新场景的泛化能力,为区域综合能源系统调度提供了更加灵活高效的调度方式。1 区域气电热
18、综合能源系统的组成及其 设备模型 本文构建的区域综合能源系统调度模型采用并网运行,所给出的结构如图 1 所示。电能大电网清洁能源风电光伏电负荷电储能燃气轮机电锅炉电解水气能储氢罐气网热能余热回收燃气锅炉气需求热负荷 图 1 区域综合能源系统 Fig.1 Regional integrated energy system 1.1 氢储能模型 产氢模型采用质子交换膜水制氢设备,利用固体聚合物水电解制氢。其产氢量以及储氢罐的储氢量如下:HESHESHES()()VtPt(1)HSOCHSOCHEStHOUTHOUT()(1)()()VtVtVtVt(2)第 47 卷 第 4 期 电 网 技 术 16
19、03 式中:HES()Vt为 t 时段内电解产生的氢气体积;HES()Pt为 t 时段消耗的电功率;HES、t、HOUT为电解效率、储氢罐储氢效率和输出效率;HSOC()Vt为t 时段储氢罐的储氢量;HOUT()Vt为储氢罐 t 时段输出氢的体积。电解池氢产出量约束条件为 HES,minHESHES,max()VVtV(3)式中HES,maxV,HES,minV分别为电解池 t 时段产氢量的上下限。利用氢储能当前储存量与最大储存量之比表示氢储罐储能状态:HSOChh,max()()VttV(4)式中:()ht为氢储罐储能状态;,maxhV为氢储能最大储存量。氢储能罐约束条件:h,minhh,m
20、ax()t(5)HOUT,minHOUTHOUT,max()VVtV(6)式中:h,max、h,min为氢储能状态上下限;HOUT,maxV、HOUT,minV为 t 时段氢储能输出上下限。氢储罐 t 时段输出的氢气体积HOUT()Vt,其用途为日常工业氢需求和天然气管道混氢输送:HOUTHDEH,in()=()()VtVtVt(7)式中:HDE()Vt为 t 时段内工业氢需求体积;H,in()Vt为 t 时段内天然气管道混氢输送体积。1.2 电储能模型 本文的电储能模型由蓄电池组成。蓄电池的电荷状态公式如下:soc,insoc,outeeesoc()()()(1)PtPttttW(8)式中:
21、()et表示蓄电池t时刻的电荷状态;soc,in()Pt、soc,out()Pt表示 t 时段蓄电池的充、放电功率;socW为蓄电池的最大容量;e为充放电效率;t为时间间隔。为延长蓄电池的寿命,规定其约束条件为 e,minee,max()t(9)soc,insoc,inmax0()PtP(10)soc,outsoc,outmax0()PtP(11)式中:e,max、e,min为储能电荷状态上下限;soc,inmaxP、soc,outmaxP为储能充放电功率最大值。1.3 热电联产模型 热电联产单位包括燃气轮机和余热回收锅炉。燃气轮机通过天然气的消耗产生电能,同时也会产生拥有热能的烟气,输出热功
22、率。燃气轮机的发电功率:GTGTNGGT()=()PtVt q(12)式中:GT()Pt为 t 时段燃气轮机的发电功率;GT()Vt为t时段热电联产单位时间内天然气的消耗量;NGq为天然气低热值;GT为燃气轮机的发电效率。燃气轮机的发电功率满足约束条件:GT,minGTGT,max()PPtP(13)式中GT,maxP、GT,minP为燃气轮机 t 时段发电功率的上下限。燃气轮机产生的热功率数学表达式:GTGTNGGT()()(1)QtVt q(14)式中GT()Qt为 t 时段余热回收锅炉输出热功率。燃气轮机的热功率约束为 GT,minGTGT,max()QQtQ(15)式中GT,maxQ、
23、GT,minQ分别为燃气轮机 t 时段输出热功率的上下限。余热回收锅炉会将燃气轮机排放的烟气中的热量收集,供给热网。其输出的热功率为 HRSGGTHRSG()()QtQt(16)式中:HRSG()Qt为 t 时段余热回收锅炉的输出热功率;GT()Qt为 t 时段燃气轮机输出的热功率;HRSG为余热锅炉的换热效率。余热回收锅炉的热输出功率上下限为 HRSG,minHRSGHRSG,max()QQtQ(17)式中HRSG,maxQ,HRSG,minQ分别为余热回收锅炉 t 时段输出功率的上下限。1.4 电热锅炉模型 电热锅炉可将清洁能源转化的电能变为热能,无需天然气燃烧,极大地减少了碳排放,提高了
24、清洁能源的消纳。热排放的数学表达式为 EBEBEB()()QtPt(18)式中:EB()Pt和EB()Qt分别为 t 时段电锅炉用电和制热功率;EB为电锅炉电热转换效率。电热锅炉热功率满足约束条件:EB,minEBEB,max()QQtQ(19)式中EB,maxQ,EB,minQ分别为 t 时段电热锅炉输出功率的上下限。1.5 燃气锅炉模型 燃气锅炉是区域综合能源系统中利用天然气产生热能的设备,其热功率输出为 SBSBNGSB()()QtVt q(20)式中:SB()Qt为 t 时段燃气锅炉输出的热动率;SB()Vt为 t 时段燃气锅炉的天然气消耗量;SB为燃气锅炉的效率。SB()Qt满足约束
25、条件:SB,minSBSB,max()QQtQ(21)式中SB,maxQ,SB,minQ分别为 t 时段燃气锅炉输出功率的上下限。1.6 换热装置模型 换热装置可将余热回收锅炉、电锅炉和燃气锅1604 罗文健等:基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 Vol.47 No.4 炉输送的热能进行转化,供给热负荷需求,其输出热功率的公式为 HEHE,inHE()()QtQt(22)式中:HE()Qt为 t 时段换热装置输出热功率;HE,in()Qt为 t 时段热网热功率输入量;HE为热能转化效率。换热装置输出热功率约束条件为 HE,minHEHE,max()QQtQ(23)式中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 优势 柔性 策略 评价 算法 区域 综合 能源 系统 优化 调度 罗文健
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。