数据处理方法和装置与流程

文档序号:12887246阅读:267来源:国知局
数据处理方法和装置与流程

本发明涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。



背景技术:

随着经济的发展,国家用电量也稳步上升。根据国家能源局发布的数据中,2015年全国用电量为55500亿千瓦时,全国用电量极高。随之很多人因为利益的关系窃电,且窃电手段多样,科技性高,导致在窃电侦查非常困难。其手段有:电压窃电、电流窃电、移相窃电、扩差法窃电以及较为高技术的强磁窃电、无线遥控窃电、大功率无线干扰窃电和电能表编程器窃电等,这些手段的窃电导致我国供电企业每年经济损失达200亿左右,并有每年上升的倾向。而目前,我国供电企业在供电管理方面采用自动化的管理系统,监测手段落后于窃电手段,因此无法较好的遏制窃电行为。窃电行为给供电企业和社会发展造成了极大的经济危害,因此寻找一种较好的反窃电方法对供电企业和社会的发展有着非常重要的、深远的意义。

从供电企业开始采用全自动化管理开始,用户的用电数据就被一一的记录下来,自此,供电企业存留了海量用户用电数据。而在这个信息技术极为发达的时代,这海量的用户用电数据为之后制定反窃电行为有极其重要的作用。我们利用sas(statisticsanalysissystem)数据统计分析软件,将用户的用电数据导入到数据库中,进行统计分析,建立窃电行为模型。我们所建立的窃电行为模型库精确度达99.3871%,具有非常高的实用性和推广价值。建模方法单一、精准度较低,也因为其精准度较低而无法较好的推广到现实中。

针对相关技术中预计用户的窃电行为时不够准确的技术问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种数据处理方法和装置,以至少解决相关技术中预计用户的窃电行为时不够准确的技术问题。

根据本发明实施例的一个方面,提供了一种数据处理方法,该方法包括:获取用电数据库中的历史用电数据,其中,历史用电数据包括用电用户的属性参数及用电用户对应的用电行为参数;将用电数据库中的用电用户分为窃电用户和不窃电用户;根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到窃电用户的窃电行为模型和不窃电用户的窃电行为模型,其中,窃电行为模型用于表示变量为用电用户的属性参数和用电行为参数与因变量为用电用户的窃电期望值之间的关系。

进一步地,用电数据库中包括多张数据表,每张数据表包括用电用户的至少一种属性参数和至少一种用电行为参数,获取用电数据库中的历史用电数据包括:分别判断每张数据表中每个种类的属性参数或用电行为参数的表格值是缺失值或无效值的数量是否超过预设数量;如果判断结果为是,则将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除。

进一步地,在将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除之后,方法还包括:判断用电数据库中是否存在变量内容相同的属性参数或用电行为参数;如果判断结果为是,则将变量内容相同的属性参数或用电行为参数进行合并。

进一步地,根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模包括:采用多种模型对窃电用户的窃电行为和不窃电用户的窃电行为进行建模;根据测试样本集对每种模型的建模结果进行测试,以确定误差最小的模型种类。

根据本发明实施例的另一方面,还提供了一种数据处理装置,该装置包括:获取单元,用于获取用电数据库中的历史用电数据,其中,历史用电数据包括用电用户的属性参数及用电用户对应的用电行为参数;分类单元,用于将用电数据库中的用电用户分为窃电用户和不窃电用户;建模单元,用于根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到窃电用户的窃电行为模型和不窃电用户的窃电行为模型,其中,窃电行为模型用于表示变量为用电用户的属性参数和用电行为参数与因变量为用电用户的窃电期望值之间的关系。

进一步地,用电数据库中包括多张数据表,每张数据表包括用电用户的至少一种属性参数和至少一种用电行为参数,获取单元包括:判断模块,用于分别判断每张数据表中每个种类的属性参数或用电行为参数的表格值是缺失值或无效值的数量是否超过预设数量;删除模块,用于如果判断结果为是,则将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除。

进一步地,该装置还包括:判断单元,用于在将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除之后,判断用电数据库中是否存在变量内容相同的属性参数或用电行为参数;合并单元,用于如果判断结果为是,则将变量内容相同的属性参数或用电行为参数进行合并。

进一步地,建模单元包括:建模模块,用于采用多种模型对窃电用户的窃电行为和不窃电用户的窃电行为进行建模;测试模块,用于根据测试样本集对每种模型的建模结果进行测试,以确定误差最小的模型种类。

根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明的数据处理方法。

根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行本发明的数据处理方法。

在本发明实施例中,通过获取用电数据库中的历史用电数据,其中,历史用电数据包括用电用户的属性参数及用电用户对应的用电行为参数;将用电数据库中的用电用户分为窃电用户和不窃电用户;根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到窃电用户的窃电行为模型和不窃电用户的窃电行为模型,其中,窃电行为模型用于表示变量为用电用户的属性参数和用电行为参数与因变量为用电用户的窃电期望值之间的关系,解决了相关技术中预计用户的窃电行为时不够准确的技术问题,进而实现了更准确地预计用户的窃电行为的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的数据处理方法的流程图;

图2是根据本发明实施例的一种可选的数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供了一种数据处理方法的实施例。

图1是根据本发明实施例的一种可选的数据处理方法的流程图,如图1所示,该方法包括如下步骤:

步骤s101,获取用电数据库中的历史用电数据:

用电数据库中包括多个用电用户的历史用电数据,历史用电数据包括用电用户的属性参数及用电用户对应的用电行为参数,为了分析和预测用户的窃电行为,需要大量的历史用电数据,因此,首先需要从用电数据库中获取历史用电数据,可选的,在获取用电数据库中的历史用电数据时,可以对这些数据进行数据清洗,例如删除无效数据、合并同类数据等数据处理操作。

用电数据库中可以包括多张数据表,每张数据表包括用电用户的至少一种属性参数和至少一种用电行为参数,属性参数是用于表示用户信息的属性的参数,例如,用户标识(可以是id编号等)、用电行业类型、国家行业类型、城乡类型等,用电行为参数是用于表示用户用电行为的类型的参数,例如,检查周期、用电电压分类、应收电费等。

在这种应用场景中,获取用电数据库中的历史用电数据可以包括:分别判断每张数据表中每个种类的属性参数或用电行为参数的表格值是缺失值或无效值的数量是否超过预设数量;如果判断结果为是,则将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除。

进一步地,在将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除之后,该方法还可以包括:判断用电数据库中是否存在变量内容相同的属性参数或用电行为参数;如果判断结果为是,则将变量内容相同的属性参数或用电行为参数进行合并。

步骤s102,将用电数据库中的用电用户分为窃电用户和不窃电用户:

用电数据库中的用电用户可能存在过窃电行为,根据历史窃电行为可以将用电数据库中的用电用户分为窃电用户和不窃电用户,存在过窃电行为的窃电用户的预测模型与未存在过窃电行为的窃电用户的预测模型是不同的,通过将用电用户进行分类,可以提高预测用户窃电行为的准确性。

可选的,将用电数据库中的用电用户分为窃电用户和不窃电用户可以在获取用电数据库中的历史用电数据之前,也可以在获取用电数据库中的历史用电数据之后,根据具体情况而定。

步骤s103,根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到窃电用户的窃电行为模型和不窃电用户的窃电行为模型:

在获取历史用电数据之后,分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到用于预测用电用户的窃电行为的窃电行为模型,窃电行为模型用于表示变量为用电用户的属性参数和用电行为参数与因变量为用电用户的窃电期望值之间的关系,也即,窃电行为模型的表达式为窃电期望值=f(属性参数,用电行为参数)。

进一步地,根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模可以采用多种模型建模,并对通过多种模型进行建模后的建模结果进行测试,应用效果最好的模型,具体而言,根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模包括:采用多种模型对窃电用户的窃电行为和不窃电用户的窃电行为进行建模;根据测试样本集对每种模型的建模结果进行测试,以确定误差最小的模型种类。

该实施例通过获取用电数据库中的历史用电数据,其中,历史用电数据包括用电用户的属性参数及用电用户对应的用电行为参数;将用电数据库中的用电用户分为窃电用户和不窃电用户;根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到窃电用户的窃电行为模型和不窃电用户的窃电行为模型,其中,窃电行为模型用于表示变量为用电用户的属性参数和用电行为参数与因变量为用电用户的窃电期望值之间的关系,解决了相关技术中预计用户的窃电行为时不够准确的技术问题,进而实现了更准确地预计用户的窃电行为的技术效果。

作为上述实施例的一种可选实施方式,数据处理方法的步骤如下:

(1)对数据库中的历史用电数据进行清洗:

1)通过一个或多个数据平台向数据库导入多张数据表,检查导入数据库的多张表的dmp数据的一致性,并查询每个表的完整性约束、主键和外键;

2)每张数据表中包括一个或多个变量,确定每个变量下的值,如果多数是缺失值和无效值,则该变量对模型的参考价值较小,删除对应的变量,保留缺失值和无效值较少的变量;

3)检查不同表格间的同名变量的含义是否相同,如果含义相同,则通过相似id的主键连接,并检查格式内容是否一致,剔除不一致的数据;

4)在上述结果中,保留信息较完整详细的数据。

(2)模型中变量的筛选

1)根据电力行业的特点,从清洗过的数据中选择并保留符合建模需要的变量;

2)利用表的主键和外键进行合并,如果没有对应的主键和外键,依照建模需求挑选合适的变量合并,或者结合时间序列,参照两个变量进行合并,最终得到每个观测描述某个用户在某月内的行为的总表;

3)检查表中数据的一致性和完整性,并对不符合条件的变量进行补缺或者剔除部分再观测;

4)通过窃电用户表内的窃电天数、窃电时间点和用户编号加入目标变量“用户是否窃电”;

(3)对用电用户进行分类

1)根据国家用电分类标准和用电客户的用电类别分成八大类并去除全部居民的数据;

2)将八大类数据:大工业用电、中小学教育教学用电、农业生产用电、农业排灌用电、非居民照明用电、非工业用电、普通工业用电、普通工业用电和商业用电的用户观测分别提取出来;

(4)数据分区

1)把一次分区所需要的全部观测,按用户分成窃电用户的观测和不窃电用户的观测两个部分;

2)在数据库中的窃电用户和不窃电用户两个部分分别抽取一部分,组成建模集,数据库中剩下的组成评分集;

3)对建模集再按一定比例分成训练集、验证集和评分集;

(5)运行sas(statisticsanalysissystem)数据统计分析软件,建立模型

(6)通过多种模型进行建模,将多个建模结果的模型进行对比和评分

结果如表1至表3所示:

如表1所示,在决策树(卡方)、回归、神经网络、梯度boosting、数据挖掘神经网络、dmine回归合mbr模型中,决策树(卡方)的测试精准度是最高的,达99.3871%。将建立模型的变量进行重要性排序(如表2所示),结果显示为用电量排第一,第二为用电行业分类,第三为国家行业分类,因此将数据进行行业分类后再次进行模型构建(如表3所示)。从表3的结果中,八大类用电用户的精准度均高于97.8905%,最高为非工业的99.56492%,精准度超过99%的共6个,占75%。

表1模型间精准度表比较(单位%)

表2决策树变量重要性排序

表3各行业间决策树精准度分析(单位%)

该实施例提供的数据处理方法能够建立与实际情况符合程度较高的窃电行为模型,能够根据用户的属性和行为推测用户的窃电行为,具有非常高的实用性和推广价值,准确率较高。

需要说明的是,在附图的流程图虽然示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请还提供了一种存储介质的实施例,该实施例的存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的数据处理方法。

本申请还提供了一种处理器的实施例,该实施例的处理器用于运行程序,其中,程序运行时执行本发明实施例的数据处理方法。

本申请还提供了一种数据处理装置的实施例。需要说明的是,该实施例提供数据处理装置可以用于执行本发明实施例提供的数据处理方法。

图2是根据本发明实施例的一种可选的数据处理装置的示意图,如图2所示,该装置包括获取单元10,分类单元20和建模单元30,其中,获取单元,用于获取用电数据库中的历史用电数据,其中,历史用电数据包括用电用户的属性参数及用电用户对应的用电行为参数;分类单元,用于将用电数据库中的用电用户分为窃电用户和不窃电用户;建模单元,用于根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到窃电用户的窃电行为模型和不窃电用户的窃电行为模型,其中,窃电行为模型用于表示变量为用电用户的属性参数和用电行为参数与因变量为用电用户的窃电期望值之间的关系。

该实施例通过获取单元,用于获取用电数据库中的历史用电数据,其中,历史用电数据包括用电用户的属性参数及用电用户对应的用电行为参数;分类单元,用于将用电数据库中的用电用户分为窃电用户和不窃电用户;建模单元,用于根据历史用电数据分别对窃电用户的窃电行为和不窃电用户的窃电行为进行建模,得到窃电用户的窃电行为模型和不窃电用户的窃电行为模型,其中,窃电行为模型用于表示变量为用电用户的属性参数和用电行为参数与因变量为用电用户的窃电期望值之间的关系,解决了相关技术中预计用户的窃电行为时不够准确的技术问题,进而实现了更准确地预计用户的窃电行为的技术效果。

进一步地,用电数据库中包括多张数据表,每张数据表包括用电用户的至少一种属性参数和至少一种用电行为参数,获取单元包括:判断模块,用于分别判断每张数据表中每个种类的属性参数或用电行为参数的表格值是缺失值或无效值的数量是否超过预设数量;删除模块,用于如果判断结果为是,则将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除。

进一步地,该装置还包括:判断单元,用于在将对应种类的属性参数或用电行为参数从窃电行为模型的变量中删除之后,判断用电数据库中是否存在变量内容相同的属性参数或用电行为参数;合并单元,用于如果判断结果为是,则将变量内容相同的属性参数或用电行为参数进行合并。

进一步地,建模单元包括:建模模块,用于采用多种模型对窃电用户的窃电行为和不窃电用户的窃电行为进行建模;测试模块,用于根据测试样本集对每种模型的建模结果进行测试,以确定误差最小的模型种类。

上述的装置可以包括处理器和存储器,上述单元均可以作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

上述本申请实施例的顺序不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。

其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1