用户侧分布式电源数据约简方法及装置与流程

文档序号：18083820发布日期：2019-07-06 10:19阅读：211来源：国知局

本发明涉及大数据属性约简
技术领域：
，特别涉及一种用户侧分布式电源数据约简方法及装置。
背景技术：
：分布式电源由于利用分散式资源、规模较小、就近使用等特点得到了电力行业的广泛关注。而可再生分布式电源如风电源、光伏电源由于其环保、无污染及使用的一次能源充分且成本低等特性已经成为一种具有广阔发展前景的发电和能源综合利用方式。而对分布式电源大数据的特征提取与处理，不仅能够有效提高同等规模光伏电站的发电量，同时还关系到分布式电源的并网而带来的电能损耗、电网可靠性、电网安全性等一系列问题。分布式电源数据具有不确定性、时序性、季节性、地域性等特点，要想得到有价值的数据需要对大量数据的分析和处理。随着技术的成熟及多年的研究，已经积累了大量的分布式电源数据。而数据量的急剧增长以及对数据在线处理能力的要求的不断提高，海量数据的处理问题越来越严峻。只有通过对海量数据的准确分析，才能做出相应的决策，从而使分布式电源接入配电网后安全、稳定、可靠的运行。传统的数据处理方法已经力不从心，需要更加先进、速度更快的数据处理技术。如何从众多海量数据中优选出准确的具有代表性的数据，除了要考虑分布式电源系统本身的结构、电气特性及其动态特性外，更加需要考虑不同分布式电源的一次性能源的分布及其建设改造资金、投资、电网运行安全性、实施难度等多因素限制。在实际的分布式电源分析决策中，对这些因素的数据约简往往既是对立又是统一的，因为保留的数据量过大会增加计算的难度，反之则会导致结果的不准确，这直接关系到电网的运行安全和分布式电源用户的经济利益。因此，怎样对这些数据进行约简是值得研究的问题。目前，对用户侧电力大数据的预处理技术较少。2016年7月华北电力大学控制与计算机工程学院李刚与浙江大学电气工程学院、文莱科技大学电机与电子工程系国网及河南省电力公司在《电力系统自动化》杂志上刊登的基于偏序约简的智能电网大数据预处理方法。该文对电力一次系统和电力信息系统的数据所具有的多维度、时空混杂等特征，建立了一种基于偏序约简的大数据属性约简预处理方法。该方法综合利用了mapreduce(是一种编程模型，用于大于1tb的大规模数据集的并行运算)的可并行化优点，着眼于并发事件间的独立性，可以满足电力大数据属性维度与约简方面的覆盖要求。最后，分别以某光伏发电系统监测数据、变压器故障诊断数据和智能变电站通信系统实时性与可靠性预测数据为例，对属性约简进行模拟计算，并通过hadoop平台进行测试。该方法着眼于非用户侧分布式电源的并发事件间的独立性，未能对用户侧分布式电源的误差数据(也可称为无效数据)等进行处理，也没有考虑分布式电源数据的时序特性、误差数据等等重要因素。技术实现要素：本发明实施例提供了一种用户侧分布式电源数据约简方法及装置，考虑了用户侧分布式电源的时序特性和误差数据，对误差数据进行了处理。该用户侧分布式电源数据约简方法包括：按照预设采样间隔获取预设历史时间段内的多个用户侧分布式电源数据；对所述多个用户侧分布式电源数据中的无效数据进行修正，获得多个用户侧分布式电源修正数据，其中，所述无效数据为多个用户侧分布式电源数据中偏离标准误差的其中一个或多个；构造第一决策表，所述第一决策表中包括多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性及属性值和一个决策属性及属性值；对第一决策表中的多个用户侧分布式电源修正数据进行聚类分析，获得第二决策表，所述第二决策表中包括多个用户侧分布式电源修正数据的所属类别，多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性及属性值和一个决策属性及属性值；对第二决策表中的多个用户侧分布式电源修正数据进行条件属性约简处理，获得约简结果。该用户侧分布式电源数据约简装置包括：数据获取模块，用于按照预设采样间隔获取预设历史时间段内的多个用户侧分布式电源数据；第一数据修正模块，用于对所述多个用户侧分布式电源数据中的无效数据进行修正，获得多个用户侧分布式电源修正数据，其中，所述无效数据为多个用户侧分布式电源数据中偏离标准误差的其中一个或多个；决策表构造模块，用于构造第一决策表，所述第一决策表中包括多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性及属性值和一个决策属性及属性值；聚类分析模块，用于对第一决策表中的多个用户侧分布式电源修正数据进行聚类分析，获得第二决策表，所述第二决策表中包括多个用户侧分布式电源修正数据的所属类别，多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性及属性值和一个决策属性及属性值；约简处理模块，用于对第二决策表中的多个用户侧分布式电源修正数据进行条件属性约简处理，获得约简结果。本发明实施例中还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法。本发明实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行如上所述方法的计算机程序。在本发明实施例中，按照预设采样间隔获取预设历史时间段内的多个用户侧分布式电源数据，考虑到了用户侧分布式电源的时序特性，对所述多个用户侧分布式电源数据中的无效数据进行修正，考虑到了用户侧分布式电源的误差数据，并对误差数据进行了处理，然后构造第一决策表，对第一决策表中的多个用户侧分布式电源修正数据进行聚类分析，获得第二决策表，对第二决策表中的多个用户侧分布式电源修正数据进行条件属性约简处理，获得约简结果。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种用户侧分布式电源数据约简方法流程图；图2是本发明实施例提供的一种基于拉依达准则对无效数据进行修正的方法流程图；图3是本发明实施例提供的一种基于系统距离聚类算法对用户侧分布式电源数据进行聚类分析的方法流程图；图4是本发明实施例提供的一种基于可辨识矩阵和逻辑运算对用户侧分布式电源数据进行约简的方法流程图；图5是本发明实施例提供的一种用户侧分布式电源数据约简装置结构框图一；图6是本发明实施例提供的一种用户侧分布式电源数据约简装置结构框图二。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在本发明实施例中，提供了一种用户侧分布式电源数据约简方法，如图1所示，该方法包括：步骤101：按照预设采样间隔获取预设历史时间段内的多个用户侧分布式电源数据；步骤102：对所述多个用户侧分布式电源数据中的无效数据进行修正，获得多个用户侧分布式电源修正数据，其中，所述无效数据为多个用户侧分布式电源数据中偏离标准误差的其中一个或多个；步骤103：构造第一决策表，所述第一决策表中包括多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性及属性值和一个决策属性及属性值；步骤104：对第一决策表中的多个用户侧分布式电源修正数据进行聚类分析，获得第二决策表，所述第二决策表中包括多个用户侧分布式电源修正数据的所属类别，多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性及属性值和一个决策属性及属性值；步骤105：对第二决策表中的多个用户侧分布式电源修正数据进行条件属性约简处理，获得约简结果。具体实施时，针对步骤102：考虑到影响用户侧分布式电源的因素很多，其中分布式电源数据对总体日发电曲线的影响最大，另外需求侧管理措施对其也有一定影响。而影响各类分布式电源数据日发电量的因素各不相同，如风力发电、太阳光发电主要受节变化、气温变化、光照、分时电价等因素影响。目前，由于设备、气象、地理环境等因素，收集的分布式电源数据存在无效数据，因此本发明针对历史数据基于依拉达准则来对无效数据进行修正。具体的，拉依达准则：是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。在整理试验数据时，往往会遇到这样的情况，即在一组试验数据里，发现少数几个偏差特别大的可疑数据，这类数据称为outlier或exceptionaldata，它们往往是由于过失误差引起。设对被测量数据进行等精度测量，独立得到x1，x2，…，xn，算出其算术平均值x及剩余误差vi＝xi-x(i＝1，2，...，n)，并按贝塞尔公式算出标准误差σ，若某个测量值xb的剩余误差vb(1<＝b<＝n)，满足下式|vb|＝|xb-x|＞3σ(1)则认为xb是含有粗大误差值的坏值，为无效数据，应予以修正。所述的修正方法是：取无效数据的前后采样值的平均值来代替无效数据。具体采用拉依达准则对无效数据进行修正的流程图如图2所示。具体实施时，针对步骤103：首先介绍一下决策系统。决策系统：假设一个组合s：(u，at∪d，v，f)，其中u＝{x1，x2，…，xn}是研究对象的有限集合，称为论域；at＝{a1，a2，…，am}为研究对象的全部条件属性所组成的有限集合；v＝∪a∈atva为属性集合at的值域，其中va为属性a上所有可能取值所构成的集合；函数f表示对每一个x∈u，a∈at，有f(x，a)∈va，表示样本x在属性a上的取值。特别地，当信息系统中属性集包含条件属性集合at和决策属性集合d，且有时，信息系统也被称为决策系统。基于此，本发明构造了第一决策表，所述第一决策表中包括多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性值和一个决策属性值。具体实施时，针对步骤104：聚类是指按照某种相似程度的度量把大量的d维数据样本(假设有n个)聚集成k个类(k<n)，使得同一类内样本的相似性最大，而不同类内样本的相似性最小。本发明采用一种系统距离聚类法。其基本思想是，先将n个信息样本各自划为一类，然后计算各类两两之间的距离，选择其中距离最小且小于阈值的两类合并成一个新类，这样n类样本即可聚合成(n-1)，再次计算新类与其他各类之间的距离，并合并其中距离最小且小于阈值的两类。按照上述方法循环，每次减少一类，直到所有类之间的距离都大于相似阈值。涉及到的相关术语：对象距离：假设研究对象距离函数为sxy，则有式中：x，y∈u，m为属性个数，xi，yi为研究对象x，y第i个属性的值，且1≤i≤m。本发明将修正后的数据按照前述定义构造第一决策表，然后通过聚类找到具有代表意义的数据信息。具体采用系统距离聚类法对第一决策表中的修正后的数据进行聚类处理，获得第二决策表的流程图如图3所示。具体实施时，经聚类处理后，第二决策表由第一决策表中的n条有效对象记录，聚合为q类。然而在同一类别中所包含的对象中仍具有很高的相似性，因此本发明还包括以下步骤：将聚类分析后归为一类的信息对象用一个新的对象代替，并设新的对象(第一对象数据)的属性值为原来一类对象相应属性值的平均值，从而获得第三决策表，所述第三决策表包括第一对象数据，第一对象数据对应的多个条件属性值和决策属性值。然后，还可以对第三决策表进行量化处理，获得量化处理后的第三决策表；具体的量化方法是：经过聚类处理后，每一类别内部的记录属性值在数值上是相近的，因此对同一类内所有记录的某一属性求平均值，这样每一类、每种属性都具备相应的平均值。针对某一属性，按照平均值从小到大排序并按照排序结果依次编码：1，2，3，……以此类推，将所有类的所有条件属性值用编码后的值来表示；对于决策属性，考虑到实际数据由条件属性得到且有上下限制值，因此单独编码，0不出力，1表示有出力。具体实施时，针对步骤105：基于可辨识矩阵和逻辑运算(析取范式和合取范式)对第二决策表中的多个用户侧分布式电源修正数据进行条件属性约简处理。约简就是为了将聚类分析后归为一类的信息中包含的多个条件进行约简。该方法将对条件属性组合情况的搜索演变成逻辑公式的化简，从而得到第二决策表的所有可能的条件属性约简结果。涉及到的相关术语：可辨识矩阵：可辨识矩阵也称为分明矩阵，cd(i，j)表示可辨识矩阵的第i行第j列的元素，则可辨识矩阵cd定义为：式中：k＝1，2，…，m；i，j＝1，2，…，n；d(x)表示对象x对应的决策属性值。析取范式(dnf)：在布尔逻辑中，析取范式是逻辑公式的标准化(或规范化)，它是合取子句的析取。作为规范形式，它在自动定理证明中有用。一个逻辑公式被认为是dnf的，当且仅当它是一个或多个文字的一个或多个合取的析取。(1)仅由有限个文字构成的析取式称为简单析取式。(2)仅由有限个文字构成的合取式称为简单合取式。(3)由有限个简单合取式构成的析取式称为析取范式。(4)由有限个简单析取式构成的合取式称为合取范式。例如，文字：p，┐q，r，q。简单析取式:p，q，p∨q，p∨┐p∨r，┐p∨q∨┐r。简单合取式:p，┐r，┐p∧r，┐p∧q∧r，p∧q∧┐q。析取范式：(┐p∧q)∨r，┐p∨q∨r，p∨┐q∨r。合取范式：(p∨q∨r)∧(┐q∨r)，┐p∧q∧r，p∧┐q∧r。图4给出了基于可辨识矩阵和逻辑运算的约简算法流程图。具体实施例以分布式电源某月实测数据为例，采样间隔为10分钟。本发明提出的用户侧分布式电源数据约简方法步骤如下：第一步：基于依拉达准则对分布式电源的无效数据进行修正(图2的算法过程)，结果如表1所示：表1约简结果显示时间偏离数据修正数据2008/10/0423：404.94.65002008/10/0423：503.64.65002008/10/0605：008.56.25002008/10/0605：208.89.15002008/10/0605：3011.49.97502008/10/0605：4010.87.83752008/10/1923：506.48.7000第二步：按照定义构造决策表。其中，条件属性ak(k＝1,2,...,6)为每小时内以10分钟为间隔进行采样，在采样时刻得到的数据；决策属性d为每小时分布式电源的输出电能(单位：kwh)；研究对象xi(i＝1,2,…,24)为第i个小时(一整天按24小时计算)的采样数据。例如：x5，x10，x11，x12。结果如表2所示。表2分布式电源工作状况监测数据决策表第三步：基于图3所示算法流程进行聚类选出具有代表性的数据。需要说明的是在处理过程中，会出现一个对象归为不同类而出现二义性的情况，该对象被视为可疑信息，需要对其删除。如表3所示。表3聚类处理后的决策表第四步：按照图4所示算法流程基于可辨识矩阵和逻辑运算进行约简，以实现不同条件的约简。对经过聚类处理后的决策表进行量化处理，得到表4，并对量化后的决策表进行条件属性约简。表4量化后的决策表根据可辨识矩阵的定义知道，矩阵的对角线元素均为0，且沿左对角线对称。因此只需要计算上对角阵元素即可，如下所示：从上面的可辨识矩阵可以得到4个析取范式：l1,2＝a1∨a2∨a3∨a5∨a6；l2，3＝a1∨a2∨a3∨a4∨a5∨a6；l2，4＝a1∨a2∨a3∨a4∨a5∨a6；l2，5＝a1∨a2∨a3∨a4∨a5∨a6；将这些表达式进行合取得到合取范式l：l＝l1,2∧l2，3∧l2，4∧l2，5＝(a1∨a2∨a3∨a5∨a6)∧(a1∨a2∨a3∨a4∨a5∨a6)∧(a1∨a2∨a3∨a4∨a5∨a6)∧(a1∨a2∨a3∨a4∨a5∨a6)＝(a1∨a2∨a3∨a5∨a6)∧(a1∨a2∨a3∨a4∨a5∨a6)对l进行变换，最终得到析取范式l’：l’＝a1∨a2∨a3∨a5∨a6因此，可以得到约简结果：{a1}，{a2}，{a3}，{a5}，{a6}。可见决策表由原来的6条属性可约掉1条属性。基于同一发明构思，本发明实施例中还提供了一种用户侧分布式电源数据约简装置，如下面的实施例所述。由于用户侧分布式电源数据约简装置解决问题的原理与用户侧分布式电源数据约简方法相似，因此用户侧分布式电源数据约简装置的实施可以参见用户侧分布式电源数据约简方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图5是本发明实施例的用户侧分布式电源数据约简装置的一种结构框图，如图3所示，包括：数据获取模块501，用于按照预设采样间隔获取预设历史时间段内的多个用户侧分布式电源数据；第一数据修正模块502，用于对所述多个用户侧分布式电源数据中的无效数据进行修正，获得多个用户侧分布式电源修正数据，其中，所述无效数据为多个用户侧分布式电源数据中偏离标准误差的其中一个或多个；决策表构造模块503，用于构造第一决策表，所述第一决策表中包括多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性值和一个决策属性值；聚类分析模块504，用于对第一决策表中的多个用户侧分布式电源修正数据进行聚类分析，获得第二决策表，所述第二决策表中包括多个用户侧分布式电源修正数据的所属类别，多个用户侧分布式电源修正数据，每个用户侧分布式电源修正数据的多个条件属性值和一个决策属性值；约简处理模块505，用于对第二决策表中的多个用户侧分布式电源修正数据进行条件属性约简处理，获得约简结果。具体实施时，所述第一数据修正模块502具体用于：基于拉依达准则，确定所述多个用户侧分布式电源数据中的无效数据；对无效数据进行修正。具体实施时，所述第一数据修正模块502具体用于：按照如下方式对无效数据进行修正：取与所述无效数据前后相邻的用户侧分布式电源数据的平均值；用所述平均值替换所述无效数据。具体实施时，所述聚类分析模块503具体用于：基于系统距离聚类算法，对第一决策表中的多个用户侧分布式电源修正数据进行聚类分析。具体实施时，所述聚类分析模块503还用于：当一个用户侧分布式电源修正数据属于不同类别时，将所述第二决策表中相应的用户侧分布式电源修正数据删除。具体实施时，如图6所示，还包括：第二数据修正模块506，用于：将第二决策表中属于同一类别的多个用户侧分布式电源修正数据设定为第一对象数据；获取属于同一类别的多个用户侧分布式电源修正数据所对应的相同条件属性的属性平均值；将所述属性平均值作为所述第一对象数据相对应条件属性的属性值；获取属于同一类别的多个用户侧分布式电源修正数据所对应的决策属性值的平均值；将所述平均值作为第一对象数据的决策属性值；获得第三决策表，所述第三决策表包括第一对象数据，第一对象数据对应的多个条件属性值和决策属性值。具体实施时，如图6所示，还包括：量化处理模块507，用于：对第三决策表进行量化处理，获得量化处理后的第三决策表；具体的量化方法是：经过聚类处理后，每一类别内部的记录属性值在数值上是相近的，因此对同一类内所有记录的某一属性求平均值，这样每一类、每种属性都具备相应的平均值。针对某一属性，按照平均值从小到大排序并按照排序结果依次编码：1，2，3，……以此类推，将所有类的所有条件属性值用编码后的值来表示；对于决策属性，考虑到实际数据由条件属性得到且有上下限制值，因此单独编码，0不出力，1表示有出力。具体实施时，所述约简处理模块505具体用于：基于第二决策表，构建多个用户侧分布式电源修正数据的可辨识矩阵；从所述多个用户侧分布式电源修正数据的可辨识矩阵中获取多个用户侧分布式电源修正数据的多个析取范式；将所述多个用户侧分布式电源修正数据的多个析取范式进行合取获得多个用户侧分布式电源修正数据的合取范式；将所述多个用户侧分布式电源修正数据的合取范式进行变换，获得多个用户侧分布式电源修正数据的第二析取范式；根据所述多个用户侧分布式电源修正数据的第二析取范式确定约简结果。基于同一发明构思，本发明实施例中还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法。基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行如上所述方法的计算机程序。综上所述，本发明提出的用户侧分布式电源数据约简方法及装置具有如下有益效果：(1)基于依拉达准则对无效数据进行修正的方法概念清晰，计算简单，便于编程实现；(2)基于系统距离聚类算法对数据进行约简选出具有代表性的数据，并可消除可疑信息数据。而基于可辨识矩阵和逻辑运算的约简实现了不同条件下的进一步约简，实现了从海量的数据中提炼出对规划、运行等有用的信息，从而达到信息的有效利用。(3)本方法对具有时序特性、数据海量的分布式电源数据能进行快速有效的处理。本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于海波;于伟;张超;石文娟;王红彦;左高;刘周斌;卢毓东;王彬彬;刘博文
技术所有人：北京南瑞电研华源电力技术有限公司;国网浙江省电力有限公司电力科学研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。