用电异常用户的识别方法及装置与流程

文档序号:20781068发布日期:2020-05-19 21:14阅读:289来源:国知局
用电异常用户的识别方法及装置与流程

本发明涉及电网控制技术领域,具体而言,涉及一种用电异常用户的识别方法及装置。



背景技术:

相关技术中,随着电力客户数量的快速增长,供电体系网络中窃电行为屡禁不止,窃电手段不断变化发展,窃电现象也日益严重,窃电不仅损害了供电公司的经济利益,同时也给用电安全带来了隐患,严重威胁着人们的生命安全。当前检查异常用电用户的方式,多是通过人工定期检查电表或者通过用户举报来确定用户异常用户,这种方式存在工作效率低,覆盖范围小,对业务人员的经验依赖性大等缺点,难以满足用电检查和反窃电工作的需求。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种用电异常用户的识别方法及装置,以至少解决相关技术中对于用电异常用户的检查存在检测效率低和覆盖范围小的技术问题。

根据本发明实施例的一个方面,提供了一种用电异常用户的识别方法,包括:获取用电量历史数据,并识别所述用电量历史数据中的异常值;过滤所述用电量历史数据中的异常值;查找所述用电量历史数据中的用户用电特征变量;利用预设建模算法构建用电异常用户识别模型,并利用所述用电异常用户识别模型识别出所述用电量历史数据中的异常用户,其中,所述用电异常用户识别模型的输入数据为所述用户用电特征变量对应的数据,输出数据为异常用户标识。

可选地,获取用电量历史数据,并识别所述用电量历史数据中的异常值的步骤,包括:提取用电信息采集数据库中的低压用户的用电量历史数据,其中,所述用电量历史数据至少包括:用户编号、用电类别、用电量;采用隔离森林算法检测用电量中的异常值。

可选地,在识别所述用电量历史数据中的异常值之后,所述识别方法还包括:采用电能表示值和多重插补法对用户用电量数据进行填补,得到完整的用电量历史数据。

可选地,查找所述用电量历史数据中的用户用电特征变量的步骤,包括:将多项用户用电特征和用电量样本数据随机分配至对应的决策树;基于随机森林算法筛选每颗所述决策树,得到异常用户判定准确率高于预设准确率的多个用户用电特征变量。

可选地,在获取用电量历史数据之后,所述识别方法还包括:将所述用电量历史数据的正常用户对应的用电量数据确定为正样本,并将所述用电量历史数据的异常用户对应的用电量数据确定为负样本;构建用电异常用户识别模型的步骤,包括:利用所述正样本训练所述用电异常用户识别模型;在构建用电异常用户识别模型之后,所述识别方法还包括:利用所述负样本测试所述用电异常用户识别模型是否合格。

可选地,所述预设建模算法为xgboost算法。

根据本发明实施例的另一方面,还提供了一种用电异常用户的识别装置,包括:获取单元,用于获取用电量历史数据,并识别所述用电量历史数据中的异常值;过滤单元,用于过滤所述用电量历史数据中的异常值;查找单元,用于查找所述用电量历史数据中的用户用电特征变量;识别单元,用于利用预设建模算法构建用电异常用户识别模型,并利用所述用电异常用户识别模型识别出所述用电量历史数据中的异常用户,其中,所述用电异常用户识别模型的输入数据为所述用户用电特征变量对应的数据,输出数据为异常用户标识。

可选地,获取单元包括:第一提取模块,用于提取用电信息采集数据库中的低压用户的用电量历史数据,其中,所述用电量历史数据至少包括:用户编号、用电类别、用电量;第一检测模块,用于采用隔离森林算法检测用电量中的异常值。

可选地,所述用电异常用户的识别装置还包括:填补单元,用于在识别所述用电量历史数据中的异常值之后,采用电能表示值和多重插补法对用户用电量数据进行填补,得到完整的用电量历史数据。

可选地,所述查找单元包括:分配模块,用于将多项用户用电特征和用电量样本数据随机分配至对应的决策树;筛选模块,用于基于随机森林算法筛选每颗所述决策树,得到异常用户判定准确率高于预设准确率的多个用户用电特征变量。

可选地,所述用电异常用户的识别装置还包括:确定单元,用于在获取用电量历史数据之后,将所述用电量历史数据的正常用户对应的用电量数据确定为正样本,并将所述用电量历史数据的异常用户对应的用电量数据确定为负样本;识别单元包括:训练模块,用于利用所述正样本训练所述用电异常用户识别模型;所述用电异常用户的识别装置还包括:测试单元,用于在构建用电异常用户识别模型之后,利用所述负样本测试所述用电异常用户识别模型是否合格。

可选地,所述预设建模算法为xgboost算法。

根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质用于存储程序,其中,所述程序在被处理器执行时控制所述存储介质所在设备执行上述任意一项所述的用电异常用户的识别方法。

根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的用电异常用户的识别方法。

在本发明实施例中,采用获取用电量历史数据,并识别用电量历史数据中的异常值,过滤用电量历史数据中的异常值,查找用电量历史数据中的用户用电特征变量,最后利用预设建模算法构建用电异常用户识别模型,并利用用电异常用户识别模型识别出用电量历史数据中的异常用户,其中,用电异常用户识别模型的输入数据为用户用电特征变量对应的数据,输出数据为异常用户标识。在该实施例中,能够有效实现用电行为异常的精准识别,选择出用电潜力较大,窃电动力较强的用户数据。提高用户用电异常行为识别的精准度,缩小了排查范围,从而保证排查能够得到有效执行,提高用电异常用户的识别效率,从而解决相关技术中对于用电异常用户的检查存在检测效率低和覆盖范围小的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的用电异常用户的识别方法的流程图;

图2是根据本发明实施例的另一种可选的用电异常用户的识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例可以应用于电网异常用电用户的识别,识别出电网中可能会发生窃电行为的异常用电用户,可选的,使用xgboost算法能够有效实现用电行为异常的精准识别。

根据本发明实施例,提供了一种用电异常用户的识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的用电异常用户的识别方法的流程图,如图1所示,该方法包括如下步骤:

步骤s102,获取用电量历史数据,并识别用电量历史数据中的异常值;

步骤s104,过滤用电量历史数据中的异常值;

步骤s106,查找用电量历史数据中的用户用电特征变量;

步骤s108,利用预设建模算法构建用电异常用户识别模型,并利用用电异常用户识别模型识别出用电量历史数据中的异常用户,其中,用电异常用户识别模型的输入数据为用户用电特征变量对应的数据,输出数据为异常用户标识。

通过上述步骤,可以采用获取用电量历史数据,并识别用电量历史数据中的异常值,过滤用电量历史数据中的异常值,查找用电量历史数据中的用户用电特征变量,最后利用预设建模算法构建用电异常用户识别模型,并利用用电异常用户识别模型识别出用电量历史数据中的异常用户,其中,用电异常用户识别模型的输入数据为用户用电特征变量对应的数据,输出数据为异常用户标识。在该实施例中,能够有效实现用电行为异常的精准识别,选择出用电潜力较大,窃电动力较强的用户数据。提高用户用电异常行为识别的精准度,缩小了排查范围,从而保证排查能够得到有效执行,提高用电异常用户的识别效率,从而解决相关技术中对于用电异常用户的检查存在检测效率低和覆盖范围小的技术问题。

本发明实施例能够满足具有大规模数据的电网行业的异常用电用户识别,选择出用电潜力较大,窃电动力较强的用户数据,提高用户用电异常行为识别的精准度,缩小了排查范围,从而保证排查能够得到有效执行,最终提升公司用户管理水平,达到降损增效的目的。

下面结合各步骤来说明本发明。

本发明主要针对群体数量庞大、窃电手段复杂多样、窃电动力较强的用户数据。

步骤s102,获取用电量历史数据,并识别用电量历史数据中的异常值。

可选的,获取用电量历史数据,并识别用电量历史数据中的异常值的步骤,包括:提取用电信息采集数据库中的低压用户的用电量历史数据,其中,用电量历史数据至少包括:用户编号、用电类别、用电量;采用隔离森林算法检测用电量中的异常值。

本发明实施例可提取用电信息采集系统的低压用户的用户编号、用电类别、用电量等字段作为基础数据进行建模分析。其中,用电量数据提取周期可提前设定(例如,10个月),形成用户档案consumer、用户日用电量ydl等多张数据宽表。为有效筛查异常用电用户,需根据异常用电用户记录建立正样本、负样本两类进行样本选择。其中,正样本为正常用户,负样本为已查实用电异常用电用户。将用电客户正负样本分为训练集(例如,占70%)和测试集(例如,占30%)两类,训练集用于特征选取、模型构建的训练,测试集用于模型质量的测试。

用电量历史数据中会存在一些异常高或异常低的数据点,直接用于建模会影响模型的泛化能力,造成预测精度下降,采用隔离森林算法识别出异常值后,可采用中位数进行替代。

在本发明实施例中,可先进行数据预处理,该数据预处理包括:构建用电潜力指数,用以筛选有窃电动力的用户,然后对用户电量数据利用箱线图方法进行了异常值检验,并且采用中位数进行了补齐操作,最后为了降低不同数据量纲对模型的影响,对用电量数据进行归一化操作。

另一种可选的,在识别用电量历史数据中的异常值之后,识别方法还包括:采用电能表示值和多重插补法对用户用电量数据进行填补,得到完整的用电量历史数据。

本发明采用隔离森林算法对用户用电量中的异常值进行检测,并通过电能表示值以及多重插补法对用户用电量数据进行填补,同时,本发明实施例中还可以采用基于随机森林算法对已形成的数百项用户用电特征进行特征分析与选择,对备选特征进行“分组海选、确定核心”。

步骤s104,过滤用电量历史数据中的异常值。

步骤s106,查找用电量历史数据中的用户用电特征变量。

在本发明实施例中,查找用电量历史数据中的用户用电特征变量的步骤,包括:将多项用户用电特征和用电量样本数据随机分配至对应的决策树;基于随机森林算法筛选每颗决策树,得到异常用户判定准确率高于预设准确率的多个用户用电特征变量。

为了更加快速准确识别异常用户,避免变量过多造成的复杂度影响,必须准确找到用户用电核心特征变量,可选的,本发明实施例利用随机森林算法筛选重要的特征变量。

基于随机森林算法对已形成的数百项用户用电特征进行特征分析与选择,对备选特征进行分组海选、确定核心。

步骤s108,利用预设建模算法构建用电异常用户识别模型,并利用用电异常用户识别模型识别出用电量历史数据中的异常用户,其中,用电异常用户识别模型的输入数据为用户用电特征变量对应的数据,输出数据为异常用户标识。

将备选特征与样本数据随机分配至若干棵决策树,并进行投票结果分析,根据多次判定准确率的变化情况,对比决策树相应特征,选择核心特征。将经过数据预处理后的用电客户的档案信息及用电数据作为模型的输入,通过基于梯度提升树的用电异常用户识别模型计算,输出疑似异常用户。

在本发明实施例中,在获取用电量历史数据之后,识别方法还包括:将用电量历史数据的正常用户对应的用电量数据确定为正样本,并将用电量历史数据的异常用户对应的用电量数据确定为负样本;构建用电异常用户识别模型的步骤,包括:利用正样本训练用电异常用户识别模型;在构建用电异常用户识别模型之后,识别方法还包括:利用负样本测试用电异常用户识别模型是否合格。

可选的,预设建模算法为xgboost算法。

本发明将经过数据预处理后的用电客户的档案信息及用电数据作为模型的输入,通过基于梯度提升树的用电异常用户识别模型计算,输出疑似用电异常用户。总体而言,基于机器学习的用电异常用户识别模型提高用户用电异常行为识别的精准度,缩小了排查范围,从而保证排查能够得到有效执行,达到降损增效的目的。

本发明采用的基于xgboost算法模型经过多次的实验测试,能够有效识别出用电异常用户,有效防止电力企业的经济效益损失。

图2是根据本发明实施例的另一种可选的用电异常用户的识别装置的示意图,如图2所示,该识别装置可以包括:获取单元21、过滤单元23、查找单元25、识别单元27,其中,

获取单元21,用于获取用电量历史数据,并识别用电量历史数据中的异常值;

过滤单元23,用于过滤用电量历史数据中的异常值;

查找单元25,用于查找用电量历史数据中的用户用电特征变量;

识别单元27,用于利用预设建模算法构建用电异常用户识别模型,并利用用电异常用户识别模型识别出用电量历史数据中的异常用户,其中,用电异常用户识别模型的输入数据为用户用电特征变量对应的数据,输出数据为异常用户标识。

上述用电异常用户的识别装置,可以通过获取单元21获取用电量历史数据,并识别用电量历史数据中的异常值,通过过滤单元23过滤用电量历史数据中的异常值,通过查找单元25查找用电量历史数据中的用户用电特征变量,最后通过识别单元27利用预设建模算法构建用电异常用户识别模型,并利用用电异常用户识别模型识别出用电量历史数据中的异常用户,其中,用电异常用户识别模型的输入数据为用户用电特征变量对应的数据,输出数据为异常用户标识。在该实施例中,能够有效实现用电行为异常的精准识别,选择出用电潜力较大,窃电动力较强的用户数据。提高用户用电异常行为识别的精准度,缩小了排查范围,从而保证排查能够得到有效执行,提高用电异常用户的识别效率,从而解决相关技术中对于用电异常用户的检查存在检测效率低和覆盖范围小的技术问题。

可选的,获取单元包括:第一提取模块,用于提取用电信息采集数据库中的低压用户的用电量历史数据,其中,用电量历史数据至少包括:用户编号、用电类别、用电量;第一检测模块,用于采用隔离森林算法检测用电量中的异常值。

另一种可选的,用电异常用户的识别装置还包括:填补单元,用于在识别用电量历史数据中的异常值之后,采用电能表示值和多重插补法对用户用电量数据进行填补,得到完整的用电量历史数据。

在本发明实施例中,查找单元包括:分配模块,用于将多项用户用电特征和用电量样本数据随机分配至对应的决策树;筛选模块,用于基于随机森林算法筛选每颗决策树,得到异常用户判定准确率高于预设准确率的多个用户用电特征变量。

可选的,用电异常用户的识别装置还包括:确定单元,用于在获取用电量历史数据之后,将用电量历史数据的正常用户对应的用电量数据确定为正样本,并将用电量历史数据的异常用户对应的用电量数据确定为负样本;识别单元包括:训练模块,用于利用正样本训练用电异常用户识别模型;用电异常用户的识别装置还包括:测试单元,用于在构建用电异常用户识别模型之后,利用负样本测试用电异常用户识别模型是否合格。

可选的,预设建模算法为xgboost算法。

上述的用电异常用户的识别装置还可以包括处理器和存储器,上述获取单元21、过滤单元23、查找单元25、识别单元27等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来识别出用电量历史数据中的异常用户。

上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

根据本发明实施例的另一方面,还提供了一种存储介质,存储介质用于存储程序,其中,程序在被处理器执行时控制存储介质所在设备执行上述任意一项的用电异常用户的识别方法。

根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的用电异常用户的识别方法。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取用电量历史数据,并识别用电量历史数据中的异常值;过滤用电量历史数据中的异常值;查找用电量历史数据中的用户用电特征变量;利用预设建模算法构建用电异常用户识别模型,并利用用电异常用户识别模型识别出用电量历史数据中的异常用户,其中,用电异常用户识别模型的输入数据为用户用电特征变量对应的数据,输出数据为异常用户标识。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1