当前位置:舍宁秘书网 > 专题范文 > 公文范文 > 调度自动化系统主子站通道异常数据辨识

调度自动化系统主子站通道异常数据辨识

时间:2024-01-13 08:30:02 来源:网友投稿

王家武,赵佃云,晋 京,卢京祥,郑加丽

(国网山东省电力公司日照供电公司,山东 日照 276800)

调度自动化系统是电力数据传输、存储和利用的主要系统,对数据的正确性有严格的要求,从而保证电力系统安全高效运行[1-2]。应用高准确度的数据对电力系统的生产运营和管理具有不可替代的作用,是电力调度自动化系统精准决策的重要保障。然而,数据的准确性和完整性等受到调度自动化系统主子站通道数据传输的影响。其中,在调度自动化系统主子站中负荷、电压、电流等采集量因设备问题、突发事故或者用户不可预测的突变用电行为产生大量的异常数据和伪异常数据,不仅会对短期实时调度产生影响,还对日前调度和负荷预测的准确度造成影响[3]。在未来智能电网的发展中,电动汽车、移动储能等柔性设备加入智能电网中,须对这些灵活的柔性设备进行调度和管控,实现日前负荷的准确预测,并基于分时电价的需求响应,调节峰谷差,完成能量的准确高效利用[4-5]。此外,调度自动化系统由大量智能仪表组成,是数据采集的主要设备,因此对调度自动化系统中智能仪表应提出更高的要求,保证数据的完整传输[6-7]。因此,正确高质量的数据对电力调度自动化系统的长期运营和规划具有重要影响。

针对电力系统异常数据辨识问题,国内外学者做了大量的研究。文献[8]构建了一种矢量学习算法,能够实现从多组负荷数据中辨识异常数据,有效完成异常负荷辨识,但是将异常数据所在数据组进行整体删除是不合理的。文献[9]通过灰色关联分析挖掘数据周期性规律,对数据进行重组,分析数据因通信损失、仪表故障等问题致使数据不准确的问题。文献[10]针对信道错误、仪表故障、设备停运等因素导致的数据异常与数据缺失问题,采用基于灰色关联分析和参数估计辨识异常数据,通过优化算法解决参数估计带来的非线性优化问题以及收敛精度、全局最优解和局部最优解的权衡问题。文献[11]利用数据时间尺度对比原理对数据进行横向和纵向对比,针对传输数据的完整性和准确性进行辨识,确保传输数据的准确可靠。文献[12]根据数据时间尺度对比对电力系统传输数据进行分析。虽然通过数据时间尺度对比能够得到较准确的对比结果,但是大量传输数据横向和纵向的对比对服务器的计算和处理能力是一个严峻的考验。

相对于K-means 等其他数据划分类聚类算法,基于密度噪声空间聚类算法(Density-Based Spatial Clustering of Applications With Noise,DBSCAN)能够不依赖指定的聚类个数,自动生成相应聚类的簇个数。但是,DBSCAN 算法对于簇的搜索半径和包含点的个数较为敏感,同时这两个参数须事先指定。因此,人为制定的参数对于数据聚类的精度影响较大。针对上述问题,须构建参数自适应的算法,避免参数对聚类精度的影响,实现自动高效率的簇的划分。

此外,用户的动态用电行为可能表现出与异常数据相似的体征,主要表现在负荷需求和电能使用情况与之前用电习惯不同,而导致的数据发生了突变,并不是设备传输导致数据异常。这类数据在本文中定义为伪异常数据,是正常数据,不应该被修正或者排除[13]。因此,这类数据的存在对异常数据的辨识带来了很大的干扰和挑战。

针对调度自动化系统主子站通道的数据传输中异常数据和伪异常数据的辨识问题,基于参数自适应的密度噪声空间聚类算法(Parameter Adaptation-Density Based Spatial Clustering of Applications With Noise,PA-DBSCAN)算法和自相关性理论构建调度自动化系统主子站通道的异常数据辨识模型。通过PA-DBSCAN 算法对异常值进行辨识,并基于自相关性理论剔除伪异常数据,避免伪异常数据对数据辨识造成影响。

1.1 校验数据的完整性

数据的完整性是数据分析的必要条件,数据的缺失会影响数据的分析,造成漏判或者误判,影响数据的整体质量。因此,针对缺失的数据,通过拉格朗日内插法进行数据补充[14-15]。缺失数据的增补表达式为

式中:dq为在第q个样本点缺失的数据;
dq-k和dq+l分别为在q-k和q+l样本点的数据;
K和L分别表示缺失数据之前和之后的数据量。

1.2 基于PA-DBSCAN 算法数据辨识

基于PA-DBSCAN 聚类方法能够将不同密度的数据点划分为不同的簇,并将簇中包含的数据点大于阀值ξ样本的对象称为核心点。

通过计算参数(ε,ξ)描述样本分布的紧密程度,图1 和图2 分别展示了数据点的划分以及PADBSCAN结构和数据点的分布。

图1 数据点的划分

图2 PA-DBSCAN结构和数据点的分布

DBSCAN 算法的优势是不须预先指定簇的个数,能够自动根据样本的数据分布,实现自动的聚类数目的划分,完成样本的分类。DBSCAN 算法流程如图3所示,算法伪代码如表1所示。

图3 DBSCAN算法流程

表1 DBSCAN算法伪代码

1.3 PA-DBSCAN 算法

PA-DBSCAN 算法是一种优秀的算法,具有多种优良性质:1)不须像K-means 算法一样事前设定好聚类个数;
2)收敛速度快,不局限于簇的形状,能够聚合出多种类型的簇形状;
3)通过参数自动辨识簇的离群数据。

但是,DBSCAN算法也拥有缺点,即参数(ε,ξ)须根据专家知识库等相关经验对参数值进行手动设定。不同参数值的设定对于簇的形状、半径和聚类中心都具有较大的影响。因此,本文构建PA-DBSCAN 算法,通过高斯核密度估计方法,计算不同数据点的核概率密度值,通过概率密度值为不同的数据点自适应计算ε,弥补DBSCAN算法的参数选取的缺陷。

高斯核密度估计方法是可以不依赖于参数的估计方法,能够避开参数对随机事件描述的影响,是一种基于有限样本实现的非参数估计方法。高斯核密度函数K(x)可以表示为[16]

计算采样数据中的第i个采样值对应的概率密度函数f(x)为

式中:n为采集的样本点的数目;
xi为第i个采样值对应的数据值;
h为核函数带宽。

由式(3)可以看出,核函数的概率密度与样本的数据量和带宽h相关。在数据量一定的情况下,h的选择对于核函数的精度影响较大。h的取值高低,直接影响概率分布函数曲线的走向。依据文献[17]的试验结果,选用高斯径向基函数来设计h的选择,通过样本数据标准差σ,来近似估计核密度,实现非参数估计的快速完成,如式(4)所示。

通过式(4)可以计算出每个样本点的概率密度的大小。概率密度值越大的样本点,应该被匹配一个更大的搜索半径ε,而密度值越小的点应该匹配一个较小的搜索半径ε。根据上述理论,认为搜索半径和核密度值之间是呈正相关的。因此,构建搜索半径ε与概率密度函数的关系,其表达式为

式中:a为搜索半径ε与概率密度函数的相关性系数。

在聚类过程中,总的搜索半径为[18]

式中:m为样本点的数据维度。

因此,通过推导相关性系数a可以表示为

在n个样本点的数据聚类过程中,PA-DBSCAN算法的搜索半径ε表示为

在单一类型的数据聚类过程中,PA-DBSCAN 算法的搜索半径ε为

除了确定参数ξ表示在核心点的周围的数据不少于ξ个。通过数据经验判定,当ξ等于1时,核心点的周围就1 个数据点,也就是核心点,这对于数据的聚类没有意义。当ξ等于2 时,则簇中除了核心点,还有一个边界点,则边界点和核心点的定义矛盾,因此,ξ小于等于2 时,簇的结构不成立。因此,ξ必须大于等于3。根据聚类经验判断,ξ的数值并不是越大越好,会将噪声点也包含到簇中。因此,本文依据文献[19],ξ的表达式为

因为,本文提出的PA-DBSCAN 算法的步骤如下所示。

步骤1:提供样本数据D以及通过高斯核函数参数自适应确定相应的邻域参数(ε,ξ);

步骤2:将自适应的参数(ε,ξ)输入到PADBSCAN算法中,确定样本的ε-邻域子样本;

步骤3:不断更新确定簇的个数以及簇中包含的样本点,确定样本的噪声点;

步骤4:实现数据聚类,完成异常数据的数据辨识。

首先,构建数据正确性辨识的信息矩阵。假定一个样本点有n个类型的数据,数据的维度为t,则数据正确性辨识矩阵Dn×t表示为

式中:dn,t为第t个维度的第n个类型的数据。

然后,针对初步筛选后的异常数据中可能存在伪异常的数据的问题,即存在由于突发的工况和用电情况使调度自动化系统电力数据发生突变的正常数据。因此,针对这一类伪异常数据应该从异常数据中剔除,避免数据干扰异常造成数据误判。所以,采用自相关函数主动捕捉和剔除伪异常数据。数据辨识的信息矩阵的均值和方差Var(D)为

式中:E为方差的期望值;
Dj为数据正确性辨识矩阵中第j个维度的列数据。

在数据的平稳传输过程中,数据正确性辨识矩阵中第t个维度、第t+l个维度的列数据,Dt和Dt+l之间的协方差表示为

计算Dt和Dt+l之间的相关系数为

对于在一段时间上时间间隔为l的样本,辨识数据的自相关函数为

不同的时间间隔l对应不同的自相关系数值,通过不断迭代寻找最优的时间间隔,得到最大的自相关系数ρmax。

在迭代的最优周期中出现的突变数据为伪突变数据,因此这些数据不能认定为异常数据,从而剔除这些数据,应当保留辨识出的伪异常数据。伪异常数据辨识方法流程如图4所示。

图4 伪异常数据辨识方法流程

采用2020 年1 月1 日—2021 年6 月30 日期间567天的山东电网某市的区域日用电量负荷数据,负荷数据计量单位为天。为了验证本文调度自动化系统主子站异常数据辨识模型的有效性,通过人工设定进行人为修改正常数据变成异常数据,并进行标注。从该市35个区域中选取6个区域的数据作为样本数据。获取每个区域的567 个电力传输数据。此外,通过计算检测率IDR和误检率IFP两个评价指标对所提出的模型进行评估,用以验证提出的模型对真实异常数据和伪异常数据的检测和辨识情况。

式中:VF为检测异常数据个数;
VT为标记的异常数据总数;
VG为被检测为异常的正常数据个数;
VU为正常数据总数。

构建的调度自动化系统主子站通道异常数据辨识模型的整体计算流程如图5 所示。通过K-means和DBSCAN 与本文提出的PA-DBSCAN 算法在IDR和IFP指标上进行数据对比,对比结果如表2和表3所示。

表2 检测率对比 单位:%

表3 误检率对比 单位:%

图5 异常数据检测流程

由表2和表3可知,构建的模型在检测率这一性能方面要优于K-means 和DBSCAN 算法。这是由于模型对于检测非正态分布的异常数据具备优势,其并不受数据分布的影响。K-means 和DBSCAN 算法表现较差,是因为负荷数据分布的不确定性影响了邻近点的k-距离从而影响对聚类中心的计算,导致检测准确率较低。在误检率方面,本文模型误检率在1%~5% 之间,相比较K-means 算法具有明显优势,而DBSCAN 算法在误检率这一性能方面与本文方法的区别性相差不大。

因此,通过计算检测率和误检率结果可以看出,所提出模型在真实异常数据和伪异常数据的辨识方面都有比较理想的效果。对于不同的用电区域,都能够有效检测出异常数据,保证了对异常数据辨识的准确性,为调度系统的用电管理和调度决策等提供了更为准确的数据指导。

图6 和图7 比较了几种算法在不同数据规模下的数据检测率和误检率。根据图6 可知,随着数据量的不断增加,本文所提出的算法相比于K-means和DBSCAN 算法仍然具有较高的检测率。当数据量达到4 000 MB时,K-means算法的检测率为89.56%,DBSCAN 算法的检测率为87.68%,而本文提出的PA-DBSCAN 算法检测率高达为91.57%。因此,通过仿真验证可以得出本文所提方法的异常数据检测率较高,具有较好的异常数据检测能力。

图6 异常数据检测率

此外,图7 展示了K-means、DBSCAN 和PADBSCAN 3 种算法在异常数据误检率方面的对比。通过对比可以看出,随着数据规模的不断增加,3 种算法的误检率都在逐渐上升。当数据量为4 000 MB时,K-means和DBSCAN 算法的误检率分别为4.84%和3.46%,而本文提出的PA-DBSCAN 算法误检率为3.23%,低于其他两种算法。由上述讨论可以得出,本文所提出的PA-DBSCAN 算法对于调度自动化系统主子站通道异常数据辨识的误检率较低,具有比较稳定的检测能力。

图7 异常数据误检率

在此基础上,图8 展示了K-means、DBSCAN 和PA-DBSCAN 算法的平均运行时间仿真结果。图8表明PA-DBSCAN 算法除了表2 所示结果中展示的在辨识异常数据方面具有稳定正确的效果外,还证明了在保证辨识异常数据精度的同时,能够确保算法的计算速度,具有高效准确的优点。

图8 K-means、DBSCAN和PA-DBSCAN 算法的平均运行时间

提出一种基于PA-DBSCAN 算法和自相关理论的调度自动化系统主子站通道的异常数据辨识模型。采用PA-DBSCAN 算法对异常值进行辨识,同时采用自相关性理论分析对伪异常数据进行数据剔除。通过计算检测率和误检率两个异常数据辨识的相关指标,验证了所提出的模型在辨识真实异常数据和伪异常数据两个方面的有效性。实验结果表明,所提出的模型能够在保证异常数据辨识精度的基础上,保证异常数据辨识的高效计算,具有较高的稳定性和实时计算能力,能够有效避免异常数据筛选中的漏判和误判情况,保证调度自动化系统主子站通道数据的有效利用,具有较高的实际工程应用价值。

猜你喜欢聚类调度样本用样本估计总体复习点拨中学生数理化·高一版(2021年2期)2021-03-19《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版铁道通信信号(2020年10期)2020-02-07基于强化学习的时间触发通信调度方法北京航空航天大学学报(2019年9期)2019-10-26基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08一种基于负载均衡的Kubernetes调度改进算法成都信息工程大学学报(2019年3期)2019-09-25虚拟机实时迁移调度算法三门峡职业技术学院学报(2019年1期)2019-06-27推动医改的“直销样本”知识经济·中国直销(2018年8期)2018-08-23基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26随机微分方程的样本Lyapunov二次型估计数学学习与研究(2017年3期)2017-03-09村企共赢的样本中国老区建设(2016年1期)2016-02-28

推荐访问:主子 辨识 调度

猜你喜欢