分销赏收藏举报申诉 / 15

立即下载开通VIP

当前位置：首页 > 行业资料 > 能源/动力工程 > 基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf

基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf

上传人：自信****多点

文档编号：368530

上传时间：2023-09-06

格式：PDF

页数：15

大小：1.56MB

《基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf》由会员分享，可在线阅读，更多相关《基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf（15页珍藏版）》请在咨信网上搜索。

1、第 47 卷第 4 期电网技术 Vol.47 No.4 2023 年 4 月 Power System Technology Apr.2023 文章编号：1000-3673（2023）04-1601-11 中图分类号：TM 721 文献标志码：A 学科代码：47040 基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度罗文健1，张靖1，何宇1，古庭赟2，聂祥论1，范璐钦1，袁旭峰1，李博文2（1贵州大学电气工程学院，贵州省贵阳市 550025；2贵州电网有限责任公司电力科学研究院，贵州省贵阳市 550002）Optimal Scheduling of Regional

2、 Integrated Energy System Based on Advantage Learning Soft Actor-critic Algorithm and Transfer Learning LUO Wenjian1,ZHANG Jing1,HE Yu1,GU Tingyun2,NIE Xianglun1,FAN Luqin1,YUAN Xufeng1,LI Bowen2(1.College of Electrical Engineering,Guizhou University,Guiyang 550025,Guizhou Province,China;2.Electric

3、Power Research Institute of Guizhou Power Grid Co.,Ltd.,Guiyang 550002,Guizhou Province,China)1ABSTRACT:In order to improve the consumption rate of clean energy and reduce the pollution of carbon emissions to the environment,and to achieve a more generalized,robust and efficient regional integrated

4、energy system optimal scheduling,this paper proposes an optimal scheduling of regional integrated energy system based on advantage learning soft actor-critic(ALSAC)algorithm and transfer learning.Using environmental information to communicate and interact with agents,the regional comprehensive energ

5、y system is dispatched and optimized for the purpose of low carbon and economy.In this paper,the maximum entropy mechanism for improving the robustness of soft actor-critic(SAC)is analyzed,and the performance is compared with various deep reinforcement learning algorithms and heuristic algorithms ba

6、sed on policy gradients.The idea of advantage learning is introduced into the update of the Q value function of SAC,which solves the problem of overestimating the Q value of the algorithm and improves the performance of the algorithm.In order to improve the learning efficiency of the agent and the g

7、eneralization ability to deal with new scenarios,the parameter transfer of transfer learning is added.Calculation examples show that the optimal scheduling strategy based on ALSAC algorithm and transfer learning has good robustness,generalization ability and efficient learning efficiency,and realize

8、s flexible and efficient scheduling of regional integrated energy systems.KEY WORDS:regional integrated energy system;deep reinforcement learning;soft actor-critic;transfer learning;advantage learning 基金项目：国家自然科学基金项目(51867005)；黔科合支撑2022一般 013；黔科合平台人才-GCC2022016-1。Project Supported by the National Na

9、tural Science Foundation of China(51867005);Science and Technology Support Program of Guizhou Province 2022 General 013;Science and Technology Support Program for the Talents by Guizhou Province-GCC 2022016-1.摘要：为提高清洁能源消纳率及减少碳排放对环境的污染，实现更具泛化能力、鲁棒性和高效性的区域综合能源系统优化调度，该文提出了基于优势柔性策略评价(advantage learning

10、soft actor-critic，ALSAC)算法和迁移学习的区域综合能源系统优化调度方法。利用环境信息与智能体进行通信交互，以低碳、经济为目标实现区域综合能源系统的优化调度。在文中分析了提升柔性策略评价(soft actor-critic，SAC)鲁棒性的最大熵机制，并与基于策略梯度的多种深度强化学习算法和启发式算法进行了性能对比，随后将优势学习的思想引入 SAC 的 Q 值函数更新中，解决了算法对 Q 值的过估计问题，提升了算法的性能。为提高智能体的学习效率和应对新场景的泛化能力，加入了迁移学习的参数迁移。算例表明，基于 ALSAC 算法和迁移学习的优化调度策略具有较好的鲁棒性、泛化能力

11、和高效的学习效率，实现区域综合能源系统的灵活高效调度。关键词：区域综合能源系统；深度强化学习；柔性策略评价；迁移学习；优势学习 DOI：10.13335/j.1000-3673.pst.2022.1241 0 引言区域综合能源系统(regional integrated energy system，RIES)作为新兴的能源管理模式，旨在利用先进的通信和控制技术实现多种能源的高效应用，有利于提高能源利用效率、提升可再生能源消费比重1。在区域综合能源系统中，可再生能源的不稳定性和多种能源的耦合使得能源系统的物理模型过于复杂，同时智能化的信息设备接入，使得系统中包含大量的高维数据2。在无明确模型和

12、包含庞大数据量的情况下，针对区域综合能源系统的优化调度，常用的经典优化方法3、基于规划的方法4-5、启发式算法6-7等，计算成本增大，求解速率过慢，1602 罗文健等：基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 Vol.47 No.4 将难以适用8。近年来，深度强化学习(deep reinforce-ment learning，DRL)作为处理序列决策问题的有效手段而被研究者们广泛应用并发展。在复杂的区域综合能源系统优化调度问题中，它可以通过直接与环境进行交互实现端到端的学习，学习后的智能体能够直接根据该时段的环境信息立即做出调度决策，对数据和复杂模型的问题有着高效的解决能力

13、9。区域综合能源系统调度问题可以看作是时序决策问题，此类问题完全符合 DRL 的理论框架10，目前已有很多DRL应用于该领域，如深度双Q网络11-12(deep reinforcement learning with double q-learning，DDQN)、近端策略优化算法13(proximal policy optimization，PPO)、确定性策略梯度算法14(deterministic policy gradient，DPG)等。DRL 可分为 2 类：一类为基于值函数，可作用于离散动作空间；另一类为基于策略梯度，可作用于连续动作空间。本文系统中的动作皆为连续动作，因此采用基

14、于策略梯度的 DRL 进行优化调度。但在区域综合能源系统的优化调度中，基于策略梯度的 DRL 优化调度存在 2 个困难15：1）过估计问题，算法的贪婪思想会将一些非最优动作对应的 Q 值估计过高，扰乱调度策略生成，导致在新环境中进行了错误的判断，泛化能力降低。文献16提出了双 DQN，通过延迟策略更新 2 个 Q 网络来解决过估计问题；但在基于策略的 DRL 中，本身模型参数更新波动不大，2 个 Q 网络的参数会很接近，无法使用此方法。文献17提出了使用 2 个独立的 Q 网络，每次运行取最小的 Q 值，但这样会出现欠估计。文献18将优势学习的思想加入基于策略的 DRL 中，保持了最优动作的值

15、，减少非最优动作的过估计，增强了泛化能力。2）算法训练时收敛速度较慢。智能体需要获得更多新场景中的数据样本来完善它的调度策略，但每次改善策略时都需要重新采集样本，因此样本利用效率低，降低了智能体的学习效率，且随着新的训练样本的加入，DRL 的收敛速度会更慢。文献19提出优先级经验回放，将新场景数据与之前的数据混合，通过求和树将价值高的数据优先训练，加快算法收敛速度，但随着数据量增大，求和树的每次应用会耗费更多时间。文献20利用 DRL 结合迁移学习的方法研究微电网优化调度，实现调度知识的积累和复用，提高了样本利用效率，在原有调度知识的基础上对新场景再学习，学习速率提升明显。针对上述 2 个问题

16、，本文利用优势学习值函数理论框架结合柔性策略评价(soft actor-critic，SAC)算法，并加以改进，同时引入迁移学习的参数迁移，提出了基于优势柔性策略评价(advantage learning soft actor-critic，ALSAC)算法和迁移学习的区域综合能源系统优化调度策略，以低碳和经济为目标实现区域综合能源系统的优化调度。该方法中 SAC的最大熵机制让区域综合能源系统的优化调度更具鲁棒性，结合优势学习的思想后，减少 Q 网络对非最优动作价值的过估计，降低智能体对非最优动作的误选，提高泛化能力；同时在算法中加入了神经网络稳定性判断来决定是否启动优势学习，防止优势学习干扰

17、前期的神经网络参数迭代。引入迁移学习的参数迁移，利用 K-Means 的相关性判断场景是否为新场景。若为新场景，则将历史调度知识迁移至新场景的目标任务中，通过 ALSAC 算法再对深度神经网络参数进行微调，进而获得最佳调度策略。测试结果表明，与其他的 DRL 策略、启发式算法粒子群算法(particle swarm optimization，PSO)以及混合整数规划相比，基于 ALSAC 的优化调度策略在不同场景下的优化具有较强的鲁棒性、收敛速度快。同时，在引入迁移学习的参数迁移后，提高了智能体的学习效率和应对新场景的泛化能力，为区域综合能源系统调度提供了更加灵活高效的调度方式。1 区域气电热

18、综合能源系统的组成及其设备模型本文构建的区域综合能源系统调度模型采用并网运行，所给出的结构如图 1 所示。电能大电网清洁能源风电光伏电负荷电储能燃气轮机电锅炉电解水气能储氢罐气网热能余热回收燃气锅炉气需求热负荷图 1 区域综合能源系统 Fig.1 Regional integrated energy system 1.1 氢储能模型产氢模型采用质子交换膜水制氢设备，利用固体聚合物水电解制氢。其产氢量以及储氢罐的储氢量如下：HESHESHES()()VtPt(1)HSOCHSOCHEStHOUTHOUT()(1)()()VtVtVtVt(2)第 47 卷第 4 期电网技术 16

19、03 式中：HES()Vt为 t 时段内电解产生的氢气体积；HES()Pt为 t 时段消耗的电功率；HES、t、HOUT为电解效率、储氢罐储氢效率和输出效率；HSOC()Vt为t 时段储氢罐的储氢量；HOUT()Vt为储氢罐 t 时段输出氢的体积。电解池氢产出量约束条件为 HES,minHESHES,max()VVtV(3)式中HES,maxV，HES,minV分别为电解池 t 时段产氢量的上下限。利用氢储能当前储存量与最大储存量之比表示氢储罐储能状态：HSOChh,max()()VttV(4)式中：()ht为氢储罐储能状态；,maxhV为氢储能最大储存量。氢储能罐约束条件：h,minhh,m

20、ax()t(5)HOUT,minHOUTHOUT,max()VVtV(6)式中：h,max、h,min为氢储能状态上下限；HOUT,maxV、HOUT,minV为 t 时段氢储能输出上下限。氢储罐 t 时段输出的氢气体积HOUT()Vt，其用途为日常工业氢需求和天然气管道混氢输送：HOUTHDEH,in()=()()VtVtVt(7)式中：HDE()Vt为 t 时段内工业氢需求体积；H,in()Vt为 t 时段内天然气管道混氢输送体积。1.2 电储能模型本文的电储能模型由蓄电池组成。蓄电池的电荷状态公式如下：soc,insoc,outeeesoc()()()(1)PtPttttW(8)式中：

21、()et表示蓄电池t时刻的电荷状态；soc,in()Pt、soc,out()Pt表示 t 时段蓄电池的充、放电功率；socW为蓄电池的最大容量；e为充放电效率；t为时间间隔。为延长蓄电池的寿命，规定其约束条件为 e,minee,max()t(9)soc,insoc,inmax0()PtP(10)soc,outsoc,outmax0()PtP(11)式中：e,max、e,min为储能电荷状态上下限；soc,inmaxP、soc,outmaxP为储能充放电功率最大值。1.3 热电联产模型热电联产单位包括燃气轮机和余热回收锅炉。燃气轮机通过天然气的消耗产生电能，同时也会产生拥有热能的烟气，输出热功

22、率。燃气轮机的发电功率：GTGTNGGT()=()PtVt q(12)式中：GT()Pt为 t 时段燃气轮机的发电功率；GT()Vt为t时段热电联产单位时间内天然气的消耗量；NGq为天然气低热值；GT为燃气轮机的发电效率。燃气轮机的发电功率满足约束条件：GT,minGTGT,max()PPtP(13)式中GT,maxP、GT,minP为燃气轮机 t 时段发电功率的上下限。燃气轮机产生的热功率数学表达式：GTGTNGGT()()(1)QtVt q(14)式中GT()Qt为 t 时段余热回收锅炉输出热功率。燃气轮机的热功率约束为 GT,minGTGT,max()QQtQ(15)式中GT,maxQ、

23、GT,minQ分别为燃气轮机 t 时段输出热功率的上下限。余热回收锅炉会将燃气轮机排放的烟气中的热量收集，供给热网。其输出的热功率为 HRSGGTHRSG()()QtQt(16)式中：HRSG()Qt为 t 时段余热回收锅炉的输出热功率；GT()Qt为 t 时段燃气轮机输出的热功率；HRSG为余热锅炉的换热效率。余热回收锅炉的热输出功率上下限为 HRSG,minHRSGHRSG,max()QQtQ(17)式中HRSG,maxQ，HRSG,minQ分别为余热回收锅炉 t 时段输出功率的上下限。1.4 电热锅炉模型电热锅炉可将清洁能源转化的电能变为热能，无需天然气燃烧，极大地减少了碳排放，提高了

24、清洁能源的消纳。热排放的数学表达式为 EBEBEB()()QtPt(18)式中：EB()Pt和EB()Qt分别为 t 时段电锅炉用电和制热功率；EB为电锅炉电热转换效率。电热锅炉热功率满足约束条件：EB,minEBEB,max()QQtQ(19)式中EB,maxQ，EB,minQ分别为 t 时段电热锅炉输出功率的上下限。1.5 燃气锅炉模型燃气锅炉是区域综合能源系统中利用天然气产生热能的设备，其热功率输出为 SBSBNGSB()()QtVt q(20)式中：SB()Qt为 t 时段燃气锅炉输出的热动率；SB()Vt为 t 时段燃气锅炉的天然气消耗量；SB为燃气锅炉的效率。SB()Qt满足约束

25、条件：SB,minSBSB,max()QQtQ(21)式中SB,maxQ，SB,minQ分别为 t 时段燃气锅炉输出功率的上下限。1.6 换热装置模型换热装置可将余热回收锅炉、电锅炉和燃气锅1604 罗文健等：基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 Vol.47 No.4 炉输送的热能进行转化，供给热负荷需求，其输出热功率的公式为 HEHE,inHE()()QtQt(22)式中：HE()Qt为 t 时段换热装置输出热功率；HE,in()Qt为 t 时段热网热功率输入量；HE为热能转化效率。换热装置输出热功率约束条件为 HE,minHEHE,max()QQtQ(23)式中

26、HE,maxQ，HE,minQ分别为 t 时段换热装置输出功率的上下限。1.7 约束条件根据区域综合能源系统的能量结构组成，约束平衡如下：1）电网平衡方程。EHESsoc,inEBGTsoc,outGsolarwind()()()()()()()()()LtPtPtPtPtPtP tPtPt(24)式中：G()Pt、solar()Pt、wind()Pt分别为电网流入区域综合能源系统电功率(当区域综合能源系统产生的功率流入电网时G()Pt为负值)、光伏发电功率、风机发电功率；E()Lt为电负荷功率。2）热网平衡方程。HRSGEBSBQHE()()()()/QtQtQtLt(25)式中Q()Lt

27、为热负荷。3）气网平衡方程。HOUTGTSBRESH()()()+()()VtVtVtVtVt(26)式中：RES()Vt为 t 时段居民用气量；H()Vt为 t 时段天然气输出量。为满足用气单位能满载运行，天然气管道 t 时段H()Vt输出限制为 HH,max0()VtV(27)式中H,maxV为天然气管 t 时段内输出气体的上限。据国际现有项目展开经验21-22，氢气混入天然气的体积分数最高可达 20%。在考虑燃气热效率的条件下，以 12T-0 作为掺混基准基底气，选取 5%掺氢比例，其混合后的燃气华白数和发热量都优于其他比例，燃气质量符合国家标准 GB178202012中一类天然气高位发

28、热量不小于 36.0MJ/m3的技术指标23。本文对于氢储罐向天然气管道 t 时段输送氢气总量的约束条件为 H,inH,max0()5.26%VtV(28)2 SAC 算法原理 2.1 强化学习强化学习基于马尔科夫决策过程(Markov decision process，MDP)，即智能体基于当前环境信息下做出下个环境的动作并获得奖励，通过不断的“试错”使智能体获得最大奖励的过程。如图 2 所示，智能体代指基于某种控制算法的控制器。马尔科夫决策过程的模型一般表示为一个元组(S,A,P,R)，其中：S 为状态空间，A 为动作空间，P 为状态转移概率，R 为奖惩函数。智能体环境奖励状态动作()t

29、s()tr(1)tr(1)ts()ta 图 2 马尔科夫决策过程 Fig.2 Markov decision process 2.2 SAC 算法当要解决的问题模型未知且环境信息种类繁多，导致状态空间维度过高，强化学习将无法适用。为了能让强化学习处理高维事件，为此引进了深度学习(deep learning，DL)，二者结合成为 DRL。SAC算法是由Harrnoja等人提出的强化学习算法24，其引入的动作最大熵鼓励机制相比于其他基于策略梯度的 DRL 算法 PPO、actor-critic 多线程探索(actor-critic algorithm，A3C)和DDPG(deep determi

30、nistic policy gradient)来说，提高了算法的鲁棒性，在复杂的电力环境中能够探索到更好的调度策略。2.2.1 SAC 最大熵熵定义为信息量的期望，是一种描述随机变量的不确定性的度量，当事件不确定性越大时，熵越大。()ln()x PH PP x (29)式中为期望函数。式(29)表示随机变量x在服从概率分布P时熵H的计算公式。优秀的 DRL 能够尽可能地去探索环境获得最优的策略，而不是贪婪某个奖励最大的动作，陷入局部最优。当一个动作反复被选用时熵就会变小，利用最大熵机制，智能体就会选择其他动作，增加了探索范围，在一个环境状态下可以探索更多的调度策略以及伴随的概率，增加了系统

31、的鲁棒性。在 SAC 中，目标函数中加入了奖励值和策略熵，要求策略不仅能提高最终奖励值，还要最大化熵。据此，构建目标函数()J如下所示：(,)0()(,)(|)ttTs attttJr s aHs(30)式中：为策略；tS和ta为 t 时刻区域综合能源系统状态和动作；(,)ttr s a为 t 时刻奖励函数；(,)tts aP为策略状态动作轨迹；为熵温度项，决定熵对于奖励的影响程度。(|)tHs 为策略(|)ts下在状态ts时的动作熵，其熵值的计算公第 47 卷第 4 期电网技术 1605 式为 ()()ln()tastttHsas (31)式(31)表示了策略()ts 对应概率分

32、布的随机程度，策略越随机，熵越大。2.2.2 SAC 迭代方式值函数(,)ttQ s a的更新如式(32)所示，用于SAC 的策略价值评估；策略更新用贝尔曼算子如式(33)所示。1+1(,)()(,)tttsptttQ s aV sr s a(32)1+1(,)(,)()tttttsptT Q s ar s aV s(33)式中：T为策略下的贝尔曼算子；为奖励的折扣因子；+1()tV s为状态1ts的值函数，计算方法：+1()(,)ln(|)ttattttV sQ s aas(34)同时结合贝尔曼算子，有 +1=kkQT Q(35)式中kQ为第 k 次计算时的值函数。柔性策略评估可以通过公

33、式(35)进行迭代，最终 Q 会收敛到固定策略下的软 Q 值函数。2.2.3 SAC 策略分布更新将策略输出为高斯分布，通过最小化 KL 散度去最小化 2 个分布的差距。oldold,newKL1exp()=argmin(|)|()tttQsDsZs (36)式中：KLD是 KL 散度(K-L divergence)；为策略集合；old,()tQs为旧策略old下的值函数；old()tZs为旧策略下的分配函数，为对 Q 值进行归一化分布。2.2.4 SAC 的参数更新 SAC 算法是一种 Actor-Critic 类算法，Actor 对策略建模，Critic 对 Q 值函数建模。分别利用

34、2 个神经网络来拟合 Q 值函数和策略函数，Q 值函数的神经网络参数更新策略如式(37)所示，策略函数参数更新策略如式(38)所示。Q2(,)+1()1 (,)(,)()2tts aDtttttJQ s ar s aV s(37)KL1exp()()(|)|()ttsDttQ sJDsZs(38)式中：、为 Q 值网络和策略网络参数；V和Q为更新后的函数，()tZs为分配函数，用于归一化。在策略网络中也会输出动作熵，其中温度参数的更新对于熵至关重要，其更新如式(39)所示：,0()ln(|)tttasDttJasH(39)式中0H为动作矩阵维数，即0dim()Ha。本文 SAC 的神经元激活函

35、数选择线性修正函数(rectified linear unit，ReLU)()max(0,)f xx(40)输出层选择 tanh 函数，范围在1,1。为了方便调度，将动作ta数值归于0,1。3 基于 SAC 的多能源系统优化调度方案 3.1 状态空间在本文的多能源系统环境中，环境给智能体的信息一般包括：风能、光能、主网分时电价、微网分时电价、电负荷、热负荷、电储能情况、氢储能情况、时间。则状态空间为 EQsolarwindPGDGhe(),(),(),(),(),()()(),LtLtPtPttttt tS，(41)式中：PG()t为 t 时段电网分时电价；DG()t为 t时段区域综合能源系

36、统分时电价。3.2 动作空间在智能体从环境中获得状态信息后，根据自己的策略会在动作空间选择一个动作。区域综合能源系统中电力设备模型较为复杂，储能和能量转换设备种类较多。为简化动作空间，此处将 2 个储能设备的动作转化为CT1A、CT2A2 个动作。由式(12)和式(14)可知，热电联产的电量和热量存在耦合关系，燃气锅炉的输出功率可根据热网平衡方程(25)得出，由此，能量转换设备的动作选用电锅炉和热电联产的功率输出。动作空间如下：GTEBCT1CT2(),(),PtPtAAA (42)式中CT1A、CT2A为可再生能源过多和不足的 2 个动作，当可再生能源过多时优先满足电储能充能，电解水释放

37、氢气。当可再生能源不足时，对比电价，查看是否启动储能放电。3.3 奖励函数奖励函数是对目标任务的量化，它能够引导智能体朝着目标进行优化。本文的区域能源综合系统的奖励函数主要来源于运行成本、能量出售收入、碳排放以及策略奖惩常数。运行成本来源为区域综合能源系统购电成本、燃气购买成本和维护成本；能量出售获得的收入来自于区域综合能源系统的电能、热能和氢能出售。考虑到区域综合能源系统规模较小，热电气网络网损费用以及设备启停成本可以忽略不计。t 时段内的运行成本1()C t为 1efME()()()()C tCtCtCt(43)式中：e()C t为 t 时段电网购电成本；f()Ct为 t 时段燃气成本；

38、ME()Ct为 t 时段维护成本。其中 t 时1606 罗文健等：基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 Vol.47 No.4 段购电成本e()C t定义为 GePGGG0()0()()()()0P tC tt P ttP t，(44)式中：G()Pt为 t 时段内的购电功率；t为时间间隔。购买天然气的成本为 ffGTSB()()()Ctc VtVt(45)式中：fc为天然气价格；GT()Vt、SB()Vt为 t 时间段内热电联产和燃气锅炉消耗燃气量；其维护成本为 MEm,1()|()|NiiiCtCP t(46)式中：ME()Ct为 t 时段维护成本；m,iC是第

39、i 个单元的维护成本系数；()iP t为单位 i 在 t 时段输出功率。能源出售收入包括区域综合能源系统电能、热能及电储能和氢储能剩余能量出售收入：DGQQHOUTHEShesoc,inDGG2GEDGHOUTHEShQQesoc,inDGG()()()+()()+()()0()|()|()()()()()()+()()0ELttLtVttPtP tCttP tLttVttLttPtPtttt ，(47)式中：2()Ct为 t 时段区域综合能源系统的能量出售收入；E()Lt和Q()Lt为 t 时段区域综合能源系统电负荷、热负荷消耗功率量；Q()t、h()t为 t 时间段的热功率和氢气价格。按照

40、国家“双碳”建设目标，预计到 2060 年，我国风、光等新能源发电量占比将达 65%。本文1kWh 电量将排放 0.45kg CO2，31m天然气产生 1.9 kg 的 CO2。t 时段内碳排放量3()C t定义为 GTSBG3GTSBGG1.9()+(),()0()1.9()+()0.45()()0VtVtP tC tVtVtP ttP t，(48)式中GT()Vt和SB()Vt为 t 时段内热电联产和燃气锅炉所用天然气量。策略惩奖常数的出现减少了探索时超出限制范围动作的次数，增加策略正确动作的次数，加快算法收敛。对供应天然气超出气网管道限制范围、热和电力总线不平衡给出 t 时间段内的惩罚常

41、数1()D t、2()Dt，对减少碳排放和增加利润的动作给出了 t 时间段内的奖励常数3()Dt。t 时间段内惩奖常数4()Ct为 4123()()+()+()CtD tDtD t(49)本文的优化调度以经济和碳排放为目标，由以上分析可得到 t 时段的奖励函数为 2134()()()(1)()()R tCtC tCtCt(50)由于训练时强化学习会随机探索其他动作，造成 R t有较大的波动，此处将奖励值()R t按比例缩小，同时采用滑动平均让()R t的曲线变得平滑，有利于观测算法收敛情况。3.4 目标函数结合奖励函数，得到区域综合能源系统的目标函数C如下：213()()(1)()t TCC

42、 tC tC t(51)4 SAC 算法与优势学习的结合方法在 DRL 的智能体学习过程中，由 Q 值神经网络拟合出来的 Q 值不是真实值，只是对真实 Q 值的估计值，且 DRL 只会选择当前状态下的 Q 值最大的动作。由于非最优动作的 Q 值可能会估计的过高，导致 DRL 选择的并不是这个状态下最优的动作，从而影响到算法的最终结果。1999 年，Baird 提出了优势学习的思想25，这种思想在强化学习 Q 学习中，会将非最优动作的 Q值降低，从而拉开与最优动作 Q 值的差距，减少了非最优动作 Q 值的过估计，降低了智能体对动作误选的概率。优势学习的状态值函数定义为 ()max(,)aVsA

43、 s a(52)式中(,)A s a为状态 S 和动作 A 下的优势函数，其定义如下：(,)()()(,)A s aVsVsQs a(53)式中()(,)VsQs a为修正项。当(,)Qs a为最优动作的 Q 值时其值为零，当为非最优动作的 Q值时其值为负，拉开了最优和非最优动作的 Q 值之间的距离。为将优势学习加入使用深度神经网络的 DRL中，将修正函数做了改变。利用 SAC 算法能很快获得较好策略的特点，将当前的状态输入策略网络，其输出的动作视为最优动作。将动作代入 Q 值网络，输出的 Q 值视为当前最优状态值1(,;ttQ s a)，修正项为式(54)。1(,)(,;)(,;)ttttt

44、tF s aQ s aQ s a(54)但上述方法忽略了算法训练初期 Q 值网络对动作 Q 值估计不准确的缺陷，若非最优动作的 Q值大于最优动作的 Q 值，此时拉开 Q 值差距，将会干扰算法的迭代收敛。为解决上述问题，本文利用 Q 值神经网络损失函数 Loss的下降速率，来判断Q 值网络是否具备启动优势学习的能力，其下降速第 47 卷第 4 期电网技术 1607 率的判断如下式：ossossoss()(1)()LtLtkLt(55)式中：oss()Lt为 t 时刻的 2 个 Q 值网络损失函数值的平均值；k 为其下降速率。当下降速率达到规定的阈值，神经网络度过了前期参数不稳定更新时期

45、，启动优势学习。在值函数更新过程中，当(,)ttF s a0 时，(,)ttF s a的值不变；当(,)ttF s a0,the value of,ttF s ais constant;when,ttF s a0,the value of,ttF s ais 0;is the discount rate;,ttr s ais the reward function;+1tV sis the state value function.The schematic diagram is shown in Fig.1,where k is the neural network stability ju

46、dgment value.Meanwhile,in order to improve the learning efficiency of the intelligences and the generalization ability to cope with new scenes,the parameter migration of migration learning is added.The correlation of K-Means is used to determine whether the scene is a new scene,and if it is a new sc

47、ene,the historical scheduling knowledge is migrated to the target task of the new scene,and then the deep neural network parameters are fine-tuned by the ALSAC algorithm,and then the best scheduling strategy is quickly obtained.Compared with other DRL strategies,heuristic algorithms and traditional

48、planning-based methods,the optimization scheduling strategy based on ALSAC has strong robustness and fast convergence speed in different scenarios.Meanwhile,with the introduction of migration learning,the learning efficiency of the agent and the generalization ability to cope with new scenarios are

49、improved,providing a more flexible and efficient scheduling method for regional integrated energy system scheduling.1,ttts r sta1,tttts a r sk1,iiiiNs a r sis+1ia+1,iias1,;iiQ s a,iia s,;iiQ s a Fig.1 ALSAC algorithm flow char 附录 A：算例参数设置表 A1 天然气、氢气和热功率价格 Table A1 Natural gas,hydrogen and thermal p

50、ower prices 名称价格天然气 2.5 元/m3 氢气 2 元/m3 热网热功率 0.35 元/kW 表 A2 分时电价 Table A2 Time-of-use electricity price 价格(元/kW h)高峰平段低谷电网售出 0.54 0.42 0.2 区域综合能源系统售出 0.48 0.37 0.18 表 A3 各设备工作参数 Table A3 Working parameters of each device 设备名称参数数值受限参数范围维护成本/(元/kW)氢储能 HES 0.6 HES()Vt 0-40 m3 0.018 t 0.95 h()

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于优势柔性策略评价算法区域综合能源系统优化调度罗文健

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。