基于Q-learning算法的配电网储能装置控制策略研究.pdf

上传人：自信****多点

文档编号：2102648

上传时间：2024-05-16

格式：PDF

页数：6

大小：978.92KB

《基于Q-learning算法的配电网储能装置控制策略研究.pdf》由会员分享，可在线阅读，更多相关《基于Q-learning算法的配电网储能装置控制策略研究.pdf（6页珍藏版）》请在咨信网上搜索。

1、宁夏电力年第期基金项目:国网宁夏电力有限公司科技项目()基于算法的配电网储能装置控制策略研究王晓康俞智浩芦翔(.国网宁夏电力有限公司吴忠供电公司宁夏吴忠.国网宁夏电力有限公司电力科学研究院宁夏银川)摘要:通过在配电网末端接入用于系统调压等辅助服务的储能装置能有效解决可再生能源的高度间歇性和负荷需求波动导致的配变过载问题基于强化学习的算法针对储能电池运行情况进行建模仿真通过单时段优化内嵌的值得到各时段储能电池荷电状态的最优调度方案实例试验分析表明当迭代次数达到一定数量时利用算法能够达到理论上的最优解最后通过将算法与动态规划算法生成的标准最优调度方案进行对比证明了算法

2、能够与动态规划算法达成一致最优解关键词:强化学习储能装置算法动态规划算法中图分类号:文献标志码:文章编号:()有效访问地址:/././.(.):.:./.王晓康等:基于算法的配电网储能装置控制策略研究引言随着可再生能源技术的发展分布式发电技术不仅应用于变电而且在接入更方便的配电网中应用更为广泛但在大量分布式电源接入配电网后其固有的出力波动和高度间歇性会直接影响配电网的电压运行水平和功率平衡性进而导致电压越限和配变过载等问题解决上述问题的关键在于控制配电网有功功率的平衡性因此在配电网末端接入储能装置的辅助运行方式成为一种可行的技术方案储能技术的应用对于改善配电网系统的电压特性实现负荷

3、侧灵活削峰填谷有着重要的价值除此之外合理的储能控制可以有效提高能源的利用效率在储能装置的辅助下配电网对于功率波动的耐受性更强配电网区域内的电压波动减小有利于接纳更多的新能源接入从经济性和稳定性上对区域电网都有着重要的价值储能装置的控制目标通常为减小系统内节点电压波动根据负荷需求合理控制出力水平储能控制技术通常基于一定的模型以提升系统某项指标为目的通过对系统控制策略进行优化和创新来实现预期控制效果目前国内外常用算法有线性规划、混合整数规划、动态规划、模糊逻辑等其中动态规划算法作为目前应用较为成熟的一种算法形式在迭代计算后可以实现对状态空间内的控制效果优化得到局部最优解但随着状态数的增加动

4、态规划算法容易出现“维度灾”问题即迭代计算量出现指数型上升从而导致在线计算时间大大增加同时也会增加计算成本为了解决这个问题强化学习算法被提出并用来求解动态的决策任务强化学习是一种从历史经验中学习最佳策略的算法主要思想就是智能体通过不断和环境互动来学习系统的动态特性具体到每一个迭代过程就是智能体根据当前的状态做出一个动作然后得到一个奖励值和下一时刻的状态强化学习智能体和环境互动的次数越多经验越丰富所做的策略越准确强化学习的算法作为一种应用领域较为广泛的算法类型通过调整迭代条件可以避免过多状态量的出现从而解决维度灾难的问题在使用历史数据进行训练时具有优势且易于理解对计算资源需求较少算法

5、训练过程更为稳定更能适应配电网的实际情况因此本文将算法应用于以储能电池为模型的配电网储能装置电能出力控制中研究该算法在储能电池荷电状态管理策略下可行状态空间的优化特性并将该算法的优化结果与经典动态规划方法优化结果进行对比验证了在储能电池出力控制的应用背景下算法能够与动态规划算法达成一致最优解的结论蓄电池的储能特性以蓄电池为代表的电化学储能是一种目前应用较为广泛的储能技术不仅拥有较高的能量密度和功率密度同时低廉的成本也是其在能源应用领域的优势所在在配电网储能系统的应用背景下选取蓄电池储能装置研究蓄电池储能装置正常工作时剩余电量、固定时段内的充、放电量以及自放电等参数的相互关系储能充电过

6、程可以表示如下:()()()()/()对应的储能放电过程可表示为()()()/()()式中:()为蓄电池储能装置在时间段的荷电状态是蓄电池储能装置在时间段的充放电功率为储能介质的自放电率为蓄电池储能装置的充电损耗为蓄电池储能装置的放电损耗为计算周期时长为蓄电池储能装置的额定容量蓄电池储能装置在其正常工作内的充放电功率受到硬件限制的充放电特性和自身荷电状态状态的影响其荷电状态需要满足以下条件:()()式中:和分别为蓄电池储能装置荷电状态的最小值和最大值即约束了荷电状态的正宁夏电力年第期常范围储能装置优化调度模型.强化学习建模强化学习方法的原理是将优化问题建模为一个马尔科夫决

7、策过程来进行求解本文把配电网储能装置的策略优化问题描述为一个马尔科夫决策过程在马尔科夫决策过程中定义环境状态为时间段蓄电池储能装置的可行离散电量动作为时间段内蓄电池储能装置的平均放电量由当前时间段和对应下一时间段可行离散电量、时间段内平均充电量所确定同时定义时刻的奖励函数()为()()其中 ()()式中:为常数为时段内蓄电池储能装置对外发出的电能为时段内蓄电池储能装置的平均出力为时段内蓄电池储能装置的保证出力则作为惩罚项代表蓄电池储能装置在保证处理下产生的电能为出力系数为时段内蓄电池储能装置的平均发电功率为时段的时间长度值采用值迭代的算法求解储能装置调度的最

8、优方案定义()为动作值函数简称值即:()()()()()()转化为递推形式:()()()()将蓄电池储能装置优化调度模型以时段奖励函数()为基础以确保电能出力为目标在扣除惩罚值后将各时段内的发电量进行累加即可得到总发电量并以该数值为基础构建目标函数表达式如下:()()也可将表示为()().建立强化学习约束空间.强化学习状态转移约束蓄电池储能装置的供能关系约束条件即为强化学习状态转移约束条件功能平衡方程的计算公式如下:()()式中:、分别为时间段初、末时间段下的储能状态、分别为时间段内蓄电池储能装置的输入和输出平均功率储能装置输出功率约束:()式中:和分别为时

9、段内储能装置输出功率的最小值和最大值配电网需求侧功率约束:()式中:和分别为时段内配电网需求侧功率的最小值和最大值荷电状态约束同式().确定强化学习可行状态空间由于受到各项约束条件的限制在一个完整的储能装置功能供需周期内蓄电池储能装置处于正常荷电状态下的电量并不全部处于可行状态在配电网电能优化调度模型下以顺时间段进行蓄电池储能装置可行荷电状态的范围边界选取典型的日内潮流变化模型进行空间可行状态确立由于考虑到蓄电池储能装置储能下限的问题还需要逆时间段修正荷电状态的可行边界通过逆向递推将不可行的荷电状态从顺时间段所确立的可行状态中剔除从而得到完整的可行状态边界在图中为当前时间段蓄电池

10、储能装置的荷电状态、分别为上一时间段和下一时间段第个可行荷电状态、分别为上一时间段和下一时间段可行荷电状态的数量图中符号表示被剔除掉的不可行状态当确定荷电状态边界后可以将强化学习过程的要素定义为时间段的状态集合、动作集合以及式()中的奖励函数状态集合为时刻的王晓康等:基于算法的配电网储能装置控制策略研究可行荷电状态动作集合为蓄电池储能装置的输出功率数值可由功能平衡关系确定奖励函数集合由时刻当前蓄电池储能装置荷电状态及其对应的动作集合共同确定图蓄电池储能装置可行荷电状态边界求解.配电网储能装置优化调度模型是一种基于离轨策略的强化学习算法它根据时序差分控制的原理并以值为评价标

11、准通过不断的迭代来求解最优动作算法的目的是在一个迭代回合中使累计期望回报达到最大算法的迭代过程就是从历史经验轨迹(也即马尔科夫决策链)中学习最优动作的过程在单次的模拟流程中通过即时更新值为下一次模拟形成新的方案其算法流程如下:)随机初始化()()对于每一幕的每一步则根据选定策略及当前状态从值表中选取动作执行动作观测奖励值和下一个状态更新()()()()直到是终止状态)时刻下智能体应根据环境状态执行动作本文采用了策略作为智能体的动作策略()()()()()式中:为时刻的值为小数其含义为智能体在时刻有的概率随机选取动作为接近的小数一般

12、取.()为时刻根据状态采取的策略为小数一般取.图算法流程当算法迭代次数达到一定数量时即可终止最优策略的生成不再由策略决定而是依据各时刻相应状态下的最优值选取动作形成最优策略实例分析.配电网储能装置实例以某配电网储能装置为例其储能容量为最大输出功率为出力系数以台区日内负荷变化作为调度时段将储能装置典型高负荷日的输出功率作为模型的输入.试验结果分析为了证明算法在配电网储能装置优化调度问题上的有效性设置了算法与动态规划算法的对比实验:首先使用动态规划算法求出储能设备日内各时刻的最优荷电状态其次将离线训练好的算法在线部署使其在线生成储能设备日内各时刻的最优荷电状态最后对比两种

13、方法的性能动态规划的优化结果见图宁夏电力年第期图基于动态规划算法的日内最优荷电状态本论文定义算法的学习率为同时对该参数进行敏感性分析分别设置组实验每组实验值分别设置为.、.、.然后观察各组实验的迭代过程对于其他超参数设置初始值为.常数值为.值为.强化学习智能体和环境互动的次数越多经验越丰富所做的策略越准确在训练时让智能体和环境交互百万次其中包括个回合每回合包括个迭代步每回合记录依赖值生成的解对应的总奖励值最终优化结果见图图迭代过程曲线从图中可以看出:由于算法刚开始进行随机探索所做的动作是随机的因此获得较低的奖励随着探索的减小算法逐渐学习到正确的策略

14、奖励值不断增大随着迭代的进行算法不再探索随机动作而是采用学习到的最优动作因此奖励函数逐渐收敛智能体也进入稳定的最优状态参数越大收敛的越快表为算法不同值的对比结果图为动态规划与不同值变化的对比由表及图可知随着值的不断增大迭代收敛的速度会不断变快其训练所需的时间也会大大减小因此我们在训练时需要将值调整为.在算法训练的前期由于动作是随机探索的因此值存在较大的优化空间其奖励值和优化效果也会呈现较大的变化趋势随着迭代的进行算法的动作逐步稳定并趋于最优这时值对动作的评估和每回合的累计奖励也达到稳定迭代收敛迭代后期当算法所做的决策逼近最优解时优化趋于平稳状态算法能

15、够与动态规划算法达成一致最优解表算法不同值对比结果迭代回合数/次训练时间/执行时间/.().().和 .图动态规划与不同值荷电状态变化对比王晓康等:基于算法的配电网储能装置控制策略研究如.节中的算法流程所示在每个迭代步开始时智能体根据当前的状态从表中选取值最大的动作迭代步结束时根据式()来更新表训练迭代百万次的目的就是得到一个完美的表这个过程是离线进行的所消耗的时间是可以接受的训练完成后将训练好的智能体(具备完美的表)部署下去进行在线执行在线执行时智能体输入当前的状态根据表可以实时得到一个最佳的策略因此相比其他算法算法在执行过程中得到策

16、略的过程非常快是毫秒级别上述结果显示在整个可行的策略搜索空间中当训练回合数达到一定的数量时算法所构建的配电网储能装置可以执行最优的动作实现调度任务的最优化结论将强化学习的算法应用于配电网储能装置的控制策略中以蓄电池储能装置为例建立了优化调度模型并通过调节强化学习超参数实现迭代优化证明了当迭代次数达到一定数量时算法可达到理论上的最优解该方法在大大减少优化时间的同时获取了同动态规划一致的最优调度方案该算法能够有效引导蓄电池储能装置学习到满足预设目标且趋于最优的充放电策略根据用户在不同时段用电需求及用电特征储能装置在用电低谷期时充电在日间根据用户负荷的实时需求放电就地增大供电能力缓解配

17、电网季节性配电变压器重过载问题具有较高的应用价值但算法仍然存在一定的局限性例如在处理大规模问题时会出现计算效率低下和内存需求过大的问题以及在用于多智能体的环境时会面临其他智能体策略变化导致非平稳问题针对配电网的环境中的不确定性可以考虑将其他算法与相结合来提高算法的适应能力参考文献王珠珠刘扬马卓等.物联网智能电网的基于的轻量级隐私保护能源管理.物联网期刊():.魏庆来刘德荣石广.智能住宅环境中优化电池管理的新型双重迭代学习方法.工业电子学报.():.王蓓蓓朱红许洪华等.基于深度学习网络的配电网重构.():.()./():.曹迪胡维昊许晓等.基于双深度学习的配电网潮流优化方法/年亚洲能源与电气工程研讨会议论文集:.黄泽锋.基于深度强化学习的微电网能量管理策略研究.南宁广西大学.夏天李慕怡訾鹏等.电力系统中使用的电池储能系统(蓄电池储能系统)建模与仿真/年第五届电力公司放松管制和重组及电力技术国际会议论文集():./():.:():.收稿日期:修回日期:作者简介:王晓康()男副高级工程师主要从事高电压与绝缘技术研究及设备状态检测工作(:.)

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 learning 算法配电网装置控制策略研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。