您好, 访客   登录/注册

基于Q-Learning算法的电气故障检测模型

来源:用户上传      作者:杨薛钰

  摘要:针对电气故障检测过程中,时效性和准确性低的特点,提出了一种基于Q-Leaming算法的电气故障检测模型(QLEFDM)。该模型将Q-Learning算法运用到电气故障检测技术当中,可以对熔断器故障进行有效的检测。该模型可以有效地判断熔断器的故障,提高故障检测的时效性和准确性。经过实验证明了该模型的有效性。
  关键词:熔断器;故障诊断;强化学习;Q-Learning算法
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2020)05-0258-03
  开放科学(资源服务)标识码(OSID):
  1 概述
  随着经济的发展,城市化进程日益加快,电力负荷对供电的可靠性要求越来越高,这时候就必须保障供配电系统的安全可靠。熔断器是指一种当电流超过规定的值时,由其本身产生的热量使熔体熔断,从而断开电路的一种电流保护电器…。熔断器被广泛地应用于高低压配电系统,控制系统以及用电设备中,通常被作为短路和过电流的保护器[2]。在电力系统当中,熔断器可以保护电力设备的安全运行,但是由于电力网络中的各种故障,以及熔断器本身的缺陷,会造成熔断器的熔断故障,造成不可挽回的损失,因此熔断器故障检测技术的研究日益重要起来。
  随着电气设备使用数目的增多,熔断器故障发生越来越频繁,由于大部分熔断器故障无法及时预知,造成的损失越来越多,因此熔断器的故障检测技术研究尤为重要。当熔断器的端电压超过额定范围,电流超过额定范围,端电压差超过额定范围,这些都有可能引起熔断器的故障。而目前的熔断器故障检测技术主要是对熔断器进行巡视检查,检查熔断器的额定电流与实际是否相匹配。检查熔断器外观有无损伤,变形,开裂现象,绝缘部分有无损伤或闪络放电痕[3]。而当熔断器发生故障,端电压,电流超出额定范围的时候,熔断器可能暂时会处于正常运行状态,不会立即损坏,因此熔断器无法及时维修更换,故障检测准确性低。
  随着人工智能技术的兴起,越来越多的人工智能技术开始运用到实际领域当中,强化学习是目前机器学习领域一个重要的分支,它能够完成从环境到动作映射的自我学习的过程,实现与环境的交互,强化学习通过寻找智能体在环境中获得的最大累积奖赏值,从而获得最优策略[4]。而强化学习技术目前也被很好的运用到了现实生活当中,已经在优化调度,游戏博弈等领域得到了很好的应用[5]。针对现有的熔断器故障检测技术时效性和准确性低的缺点,该模型将强化学习中的经典算法Q-Learning[6]算法运用到熔断器故障检测当中,利用Q-Learn-ing算法的优势,收集熔断器运行过程中的实时数据,运用该模型对这些数据进行分析计算,以达到对熔断器故障的准确检测,降低熔斷器故障的发生率。
  2 相关工作
  在通过强化学习算法解决问题的时候,我们通常可以将问题建模成一个马尔可夫决策过程(MDP,Markov decision pro-cess)。一个马尔可夫决策过程可以用一个四元组来表示,在熔断器故障检测模型中,包含一个环境状态集合S;熔断器故障动作集合A;状态转移概率P(s,a,s'),表示在状态s下采取动作a转移到状态s’的概率;奖赏函数R(s,a,s’),表示Agent在状态s下采取动作a转移到状态s’所获得的瞬时奖赏值。而对Agent在给定一个状态或者一个状态动作对时,为了要对状态或者状态动作对的好坏程度做出评估的时候,在强化学习中,通常会引入值函数的定义,通过值函数对策略的好坏程度做出评价,而值函数有状态值函数Vπs)和动作值函数Qπ(s,a)两种,其中Qπ(s,a)表示在状态动作对fs,a)在采取策略π的情况下所得到的累积期望奖赏。Vπfs)表示在状态s下由策略π所得到的累积期望奖赏。他们的所对应的Bellman方程如公式(1)和公式(2)所示:
  3 检测模型
  该熔断器故障检测模型主要包括:数据采集单元,数据处理终端和故障处理终端。以上单元通过协同合作完成对熔断器故障的检测。
  3.1 模型的创建
  模型框架由三部分组成,其体系结构如图1所示。
  数据采集单元,主要用于采集熔断器的状态数据,所述状态数据包括端电压以及熔断器两端的电极温度,本次模型主要采集端电压数据。数据处理终端,所述数据处理终端与所述数据采集单元相连,所述数据处理终端用于获取所述数据采集单元的状态数据,所述数据处理单元包括数据存储库和o-学习算法模型,所述Q-学习算法模型用于利用获取的状态数据对熔断器的状态数据进行预测,然后通过这个模型输出预测的状态数据。
  从以往所收集的熔断器端电压历史数据可知,它的每个时刻测量的电压值在区间[0.1,0.3]之间,将连续的三个时刻的熔断器端电压数据作为一个状态集,将该状态集作为Q-Iearning算法的输入,在强化学习算法中动作A和状态S是对应的,当SE[O.1,0.3],通过,在该区间上选择最优的动作,达到预测下一时刻熔断器状态目的。
  假设下一状态的所预测到的端电压值为U'+l,实际的端电压值为vt+l,那么他们两者之间误差为E=|Ut+1-Vt+1|,那么设模型中的奖赏为一个负值的变量,相当于预测结果的惩罚值。如公式6所示:
  r=-E
  (6)
  当预测值与真实值越靠近的时候,获得的奖赏值越大,反之所获得的越小。
  故障处理终端,所述故障处理终端分别与数据采集单元和数据处理终端相连,所述故障处理终端用于获取数据采集单元的熔断器的真实状态数据,以及获取数据处理终端的熔断器的预测状态数据。所述故障处理终端包括比较单元、判断单元和报警单元,所述比较单元用于将熔断器的预测状态数据与对应的真实状态数据进行比较,所述判断单元用于判断比较单元输出的比较结果是否大于阈值,如果比较单元输出的比较结果大于阈值则启动报警单元。   在该熔断器故障检测模型中,将持续获得的熔断器的正常工作下的状态数据,Q一学习算法模型,通过该模型可输出熔断器的预测状态数据,预测状态数据为预测正常工作下的状态数据。然后,故障处理终端将真实状态数据与预测的状态数据比较,如果实测获得真实数据与预测的状态数据偏差比较大,说明熔断器发生故障,此时就需要报警。其逻辑框图如图2所示。
  3.2 模型分析
  该模型将Q-learning算法运用到熔断器的故障检测模型当中,直接利用熔断器的真实数据构造检测模型,利用Q-学习算法对熔断器的下一状态进行预测,所以具有很好的目的性,能够大大提高检测的准确度。同时模型具有很强的适应性。
  4 实验分析
  4.1 实验数据及设置
  为了验证该模型的有效性,将本文所提出的方法运用到熔断器的故障检测当中,数据采集来自实验室某一熔断器的真实数据,实验中的熔断器数据来自2019年1月1日下午1点到2019年1月1日下午2点。部分实验数据如表1所示:
  如图表中所示,数据集中包括电流值,端电压值,电极温度,电极温度差等信息。 在实验中,数据集可以分为两个部分,一部分用于该模型的训练,一部分数据用来测试该方法的性能。算法程序基于python编程,仿真环境为python3,模型中的学习速率α=0.4,折扣率因子γ=0.99。
  4.2 实验结果分析
  (1)预测结果
  图3中主要展示了运用Q-Iearning算法对熔断器的端电压预测值与实际值得对比图,横坐标表示时间步,纵坐标表示熔断器端电压,在本次实验中,算法被执行了25次,图中数据为25次实验的平均值,从图3中可以看出,该算法可以较为准确的预测熔断器的端电压数据。
  (2)误报率对比
  图4将该模型对熔断器的故障误报率与NINES模型做出对比,可以看出随着熔断器故障发生次数的增多,系统对故障的误报率都呈逐渐增加的趋势,但是整个测试过程中,该模型的误报率都要低于对比模型。
  5 结论
  本文提出了一种基于Q-Iearning算法的熔断器故障检测模型,吸收了Q-learning算法的优点,克服传统熔断器故障检测的缺点,能够及时准确的检测出熔断器的故障,具有很好的准确性。能够很好地降低熔断器的故障发生率。在该模型中我们运用强化学习的思想来解决问题,是一个很好的尝试,但是模型中的预设判断故障阀值是与检测结果密切相关的,以及该模型是基于单一的端电压基础之上,而熔断器的正常运行与端电流值和电极温度也有一定的相关性,因此该模型还需要继续改进,以提高对熔断器故障检测的准确性。
  参考文献:
  [1]吴江华.基于用电安全性的输配电工程建设[J].中国科技信息,2013(24):75-76.
  [2]吕俊霞.低压熔断器的运行维护与故障诊断技术[Jl.灯与照明,2012,36(1):55-57.
  [3]孙路阳.10KV跌落式熔断器故障分析及防范[J].中国新技术新产品,2010(4):156-157.
  [4] SUTTON R S,BARTO G A.Reinforcement learning: an intro-duction[M]. Cambridge: MIT PRESS,1998.
  [5]馬骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真,2018,40(6):68-72.
  [6]褚建华.Q-learning强化学习算法改进及其应用研究[D].北京化工大学,2009.
  【通联编辑:梁书】
  收稿日期:2019-11-24
  作者简介:杨薛钰(1995-),男,江苏南通如皋人,硕士研究生,主要研究方向为强化学习,深度学习。
转载注明来源:https://www.xzbu.com/8/view-15180579.htm