一种甄别异常数据的方法及系统的制作方法

文档序号:6625829阅读:252来源:国知局
一种甄别异常数据的方法及系统的制作方法
【专利摘要】本发明实施例公开了一种甄别异常数据的方法,其在有多个样本数据集合上实现,该方法包括:获取第一样本数据集合以及对应的多个业务类型;在对应的每一业务类型中均设置筛选规贝IJ,并根据设置的筛选规则,得到每一业务类型的筛选数据;判断每一业务类型的筛选数据是否均存在于除第一样本数据集合之外的多个样本数据集合筛选的对比数据集合中;如果是,则确定筛选数据均为异常数据。本发明实施例,可以矫正采样过程中存在偏差,分析结果就会出现较大误差的问题,且可用于多个子类别采样,降低了采样结果的错误率;同时,可在复杂的大数据(数据总体,而不仅是样本集)中,迅速精准锁定所有的异常数据。
【专利说明】一种甄别异常数据的方法及系统

【技术领域】
[0001] 本发明涉及电力系统营销稽查【技术领域】,尤其涉及一种甄别异常数据的方法及系 统。

【背景技术】
[0002] 电力系统营销稽查是依据有关政策、法规和规章制度,对营销制度建设与执行、营 销行为规范和营销工作质量等进行内部专业稽查监督。
[0003] 现有的常态化的营销稽查工作体系,基于统计学原理的科学抽样和评价模型,先 将业务数据导入到统计软件,再通过通用统计软件的抽样模块进行抽样,最后将调查结果 数据导入到统计软件进行统计推断,因此在不可收集或分析全部数据的情况下,通过收集 随机样本,用较少的花费做出高精准度的推断,其缺点在于:一旦采样过程中存在任何偏 差,分析结果就会出现较大误差,同时随机采样在用于多个子类别的采样时,随机采样结果 的错误率会大大增加。
[0004] 同时,当业务数据大量增加后,通过抽样调查的方法来找出异常数据的方法存在 无法查找全部异常数据且查找效率低的问题,即无法在复杂的大数据中,迅速锁定异常数 据。
[0005] 在面对数据丰富、复杂的"大数据"时,与随机抽样分析、以最少的数据获得最多的 信息的"小数据"时代不同,我们需收集、利用所有数据(至少是尽可能多的数据),即"样本 =总体",对全数据进行深度分析、挖掘,带来更高的精确性。


【发明内容】

[0006] 本发明实施例的目的在于提供一种甄别异常数据的方法及系统,可以矫正采样过 程中存在偏差,分析结果就会出现较大误差的问题,且可用于多个子类别采样,降低了采样 结果的错误率,并可在复杂的大数据中,迅速锁定所有的异常数据。
[0007] 为了解决上述技术问题,本发明实施例提供了一种甄别异常数据的方法,其在有 多个样本数据集合上实现,所述方法包括: 获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型; 在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述 设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据; 判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述 第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中; 如果是,则确定在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述 多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。
[0008] 其中,所述在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规 贝1J,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据 的具体步骤包括: 在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应的每一业务类 型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性; 根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选属性,得到所述 第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述第一样本数据 集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。
[0009] 其中,所述判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均 存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据中的具体 步骤包括: 获取所述第一样本数据集合中每一业务类型对应设置的筛选规则; 将所述获取的每一业务类型对应设置的筛选规则,分别设置在除所述第一样本数据集 合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集合; 判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否包含于相同业 务类型对应的对比数据集合内。
[0010] 其中,所述业务类型包括业扩报装、用电变更、抄核收、计量、用电检查、客户服务、 线损管理。
[0011] 本发明实施例还提供了一种甄别异常数据的系统,所述系统包括:获取单元、筛选 单元、判断单元以及确定单元;其中, 所述获取单元,用于获取第一样本数据集合以及所述第一样本数据集合中对应的多个 业务类型; 所述筛选单元,用于在所述获取的第一样本数据集合对应的每一业务类型中均设置筛 选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选 数据; 所述判断单元,用于判断所述得到的第一样本数据集合中每一业务类型的筛选数据是 否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合 中; 所述确定单元,用于在相同业务类型情况下,存在于除所述第一样本数据集合之外的 所述多个样本数据集合筛选的对比数据集合中的筛选数据均为异常数据。
[0012] 其中,所述筛选单元包括: 设置模块,用于在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应 的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性; 筛选模块,用于根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选 属性,得到所述第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述 第一样本数据集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。
[0013] 其中,所述判断单元包括: 第一获取模块,用于获取所述第一样本数据集合中每一业务类型对应设置的筛选规 则; 第二获取模块,用于将所述获取的每一业务类型对应设置的筛选规则,分别设置在除 所述第一样本数据集合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集 合; 判断模块,用于判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否 包含于相同业务类型对应的对比数据集合内。
[0014] 其中,所述业务类型包括业扩报装、用电变更、抄核收、计量、用电检查、客户服务、 线损管理。
[0015] 实施本发明实施例,具有如下有益效果: 在本发明实施例中,由于在一样本数据集合中每一个业务类型均设置筛选规则,从而 实现同时用于多个子类别采样,降低了采样结果的错误率,并且将每一个业务类型对应得 到的筛选数据与除该样本数据集合之外的其它数据集合进行对比,从而迅速锁定异常数 据,矫正了采样过程中存在偏差,分析结果就会出现较大误差的问题。同时,在面对数据丰 富、复杂的"大数据"时,能够对业务总体的全部数据(即"样本=总体"),按照设置的筛选规 则进行异常数据筛查,迅速、精准锁定所有的异常数据,实现对全数据的深度分析、挖掘,带 来更高的精确性。

【专利附图】

【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据 这些附图获得其他的附图仍属于本发明的范畴。
[0017] 图1为本发明实施例提供的甄别异常数据的方法的流程图; 图2为本发明实施例提供的甄别异常数据的系统的结构示意图。

【具体实施方式】
[0018] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0019] 如图1所示,本发明实施例中,提出一种甄别异常数据的方法,其在有多个样本数 据集合上实现,所述方法包括: 步骤S101、获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类 型;其中,业务类型包括但不限于业扩报装、用电变更、抄核收、计量、用电检查、客户服务、 线损管理。
[0020] 步骤S102、在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选 规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数 据; 具体过程为,在第一样本数据集合中,根据第一样本数据集合对应的每一业务类型,设 置每一业务类型对应的筛选规则所含的一个或多个筛选属性; 根据设置的每一业务类型对应的筛选规则所含的一个或多个筛选属性,得到第一样本 数据集合中每一业务类型的筛选数据;其中,筛选数据为第一样本数据集合中每一业务类 型通过对应的一个或多个筛选属性筛选而成的数据集合。
[0021] 步骤S103、判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否 均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据中;如果 是,则执行下一步骤S104 ;如果否,则结束。
[0022] 具体过程为,获取第一样本数据集合中每一业务类型对应设置的筛选规则; 将获取的每一业务类型对应设置的筛选规则,分别设置在除第一样本数据集合之外的 所述多个样本数据集合中,得到每一业务类型的对比数据集合; 判断在第一样本数据集合中得到的每一业务类型的筛选数据是否包含于相同业务类 型对应的对比数据集合内。
[0023] 步骤S104、确定在相同业务类型情况下,存在于除所述第一样本数据集合之外的 所述多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。
[0024] 作为一个例子,第一样本数据集合为营业及配电一体化系统的数据集合,其它样 本数据集合包括但不限于营销管理系统的数据集合、计量自动化管理系统的数据集合、营 销决策支持系统的数据集合、客服信息系统的数据集合,前述多个数据集合构成数据交互 仓库,并在第一样本数据集合中划分多个业务类型,业务类型包括:业扩报装、用电变更、抄 核收、计量、用电检查、客户服务、线损管理等。
[0025] 在第一样本数据集合中,根据第一样本数据集合对应的每一种业务类型,设置每 一种业务类型对应的筛选规则所含的一个或多个筛选属性,从而得到所有业务类型集合的 筛选数据清单。
[0026] 假设业务数据集合包括E1至En等多个数据集合,其中,第一样本数据集合为E1, 在第一样本数据集合E1中构建筛选规则(条件)R,在筛选规则R条件下,将第一样本数据集 合E1中的数据进行分类、筛选,得出所需的异常业务数据集合C。
[0027] 函数表达式:y=f (X),其中,f为筛选规则R,x为属性A1、A2……An,y为异常业务 数据集合C。R规则包括的属性Al、A2……An,规则R可以是属性Al、A2……An的集合,即 Re {A1、A2……An}。构建R的过程,也是不断寻找其属性Al、A2……An,得出A1、A2…… An条件下的所有集合。
[0028] 具体为在第一样本数据集合E1业务类型为业扩报装的数据集合中,设置筛选 规则R1为:供电方案答复超时。此时,筛选规则R1可以是几个属性Al、A2的集合,即 Rie {A1、A2……}。在"供电方案答复超时"这个条件下:只要满足两条属性,便能查找出 供电方案超时的异常数据。这两个属性分别是:A1=自受理客户用电申请之日起,单电源客 户超过15个工作日,A2=自受理客户用电申请之日起,双电源客户超过30个工作日,因此 筛查出业扩报装类数据中供电方案超时的异常数据。
[0029] 以此类推,随着筛选规则R2 :客户受电工程设计资料审核超时;规则R3 :完成装表 接电超时等筛选规则的设置,便能在业扩报装的数据集合中确定业扩报装类筛选数据集合 C1。
[0030] 同时,将筛选规则Rl、R2和R3分别设置在除第一样本数据集合E1之外的其它业 务数据集合(如E2至En)中,得到其它业务数据集合(如E2至En)中业务类型为业扩报装 的对比数据集合Cm,其中,对比数据集合由其它业务数据集合(如E2至En )分别根据筛选规 则Rl、R2和R3后组成的大数据集合Cm。
[0031] 当第一样本数据集合El中的业扩报装类筛选数据集合Cl包含于其它业务数据集 合(如E2至En)中的业扩报装类大数据集合Cm,即Cl C Cm,从而确定第一样本数据集合E1 中的业扩报装类筛选数据集合Cl为业扩报装类异常数据集合。
[0032] 实施本发明实施例,具有如下有益效果: 在本发明实施例中,由于在一样本数据集合中每一个业务类型均设置筛选规则,从而 实现同时用于多个子类别采样,降低了采样结果的错误率,并且将每一个业务类型对应得 到的筛选数据与除该样本数据集合之外的其它数据集合进行对比,从而迅速锁定异常数 据,矫正了采样过程中存在偏差,分析结果就会出现较大误差的问题。同时,在面对数据丰 富、复杂的"大数据"时,能够对业务总体的全部数据(即"样本=总体"),按照设置的筛选规 则进行异常数据筛查,迅速、精准锁定所有的异常数据,实现对全数据的深度分析、挖掘,带 来更高的精确性。
[0033] 如图2所述,本发明实施例中,还提出一种甄别异常数据的系统,所述系统包括: 获取单元210、筛选单元220、判断单元230以及确定单元240 ;其中, 所述获取单元210,用于获取第一样本数据集合以及所述第一样本数据集合中对应的 多个业务类型; 所述筛选单元220,用于在所述获取的第一样本数据集合对应的每一业务类型中均设 置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的 筛选数据; 所述判断单元230,用于判断所述得到的第一样本数据集合中每一业务类型的筛选数 据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据 集合中; 所述确定单元240,用于确定在相同业务类型情况下,存在于除所述第一样本数据集合 之外的所述多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。
[0034] 其中,筛选单元220包括: 设置模块2201,用于在所述获取的第一样本数据集合中,根据所述第一样本数据集合 对应的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性; 筛选模块2202,用于根据所述设置的每一业务类型对应的筛选规则所含的一个或多个 筛选属性,得到所述第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为 所述第一样本数据集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据 集合。
[0035] 其中,判断单元230包括: 第一获取模块2301,用于获取所述第一样本数据集合中每一业务类型对应设置的筛选 规则; 第二获取模块2302,用于将所述获取的每一业务类型对应设置的筛选规则,分别设置 在除所述第一样本数据集合之外的所述多个样本数据集合中,得到每一业务类型的对比数 据集合; 判断模块2303,用于判断在所述第一样本数据集合中得到的每一业务类型的筛选数据 是否包含于相同业务类型对应的对比数据集合内。
[0036] 其中,业务类型包括业扩报装、用电变更、抄核收、计量、用电检查、客户服务、线损 管理。
[0037] 在本发明实施例中,甄别异常数据的系统首先通过获取单元210获取第一样本数 据集合以及第一样本数据集合中对应的多个业务类型,并通过筛选单元220中在第一样本 数据集合对应的每一业务类型中均设置筛选规则,并根据设置的筛选规则,得到第一样本 数据集合中每一业务类型的筛选数据,在判断单元230中判断第一样本数据集合中每一业 务类型的筛选数据是否均存在于除第一样本数据集合之外的多个样本数据集合筛选的对 比数据集合中,如果是,则通过确定单元240确定在相同业务类型情况下,存在于除第一样 本数据集合之外的多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。
[0038] 值得注意的是,上述系统实施例中,所包括的各个系统单元只是按照功能逻辑进 行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的 具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0039] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以 通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中, 所述的存储介质,如R0M/RAM、磁盘、光盘等。
[0040] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【权利要求】
1. 一种甄别异常数据的方法,其特征在于,其在有多个样本数据集合上实现,所述方法 包括: 获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型; 在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述 设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据; 判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述 第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中; 如果是,则确定在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述 多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。
2. 如权利要求1所述的方法,其特征在于,所述在所述获取的第一样本数据集合对应 的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据 集合中每一业务类型的筛选数据的具体步骤包括: 在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应的每一业务类 型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性; 根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选属性,得到所述 第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述第一样本数据 集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。
3. 如权利要求1所述的方法,其特征在于,所述判断所述得到的第一样本数据集合中 每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数 据集合筛选的对比数据集合中的具体步骤包括: 获取所述第一样本数据集合中每一业务类型对应设置的筛选规则; 将所述获取的每一业务类型对应设置的筛选规则,分别设置在除所述第一样本数据集 合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集合; 判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否包含于相同业 务类型对应的对比数据集合内。
4. 如权利要求1至3中任一项所述的方法,其特征在于,所述业务类型包括业扩报装、 用电变更、抄核收、计量、用电检查、客户服务、线损管理。
5. -种甄别异常数据的系统,其特征在于,所述系统包括:获取单元、筛选单元、判断 单元以及确定单元;其中, 所述获取单元,用于获取第一样本数据集合以及所述第一样本数据集合中对应的多个 业务类型; 所述筛选单元,用于在所述获取的第一样本数据集合对应的每一业务类型中均设置筛 选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选 数据; 所述判断单元,用于判断所述得到的第一样本数据集合中每一业务类型的筛选数据是 否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合 中; 所述确定单元,用于确定在相同业务类型情况下,存在于除所述第一样本数据集合之 外的所述多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。
6. 如权利要求5所述的系统,其特征在于,所述筛选单元包括: 设置模块,用于在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应 的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性; 筛选模块,用于根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选 属性,得到所述第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述 第一样本数据集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。
7. 如权利要求5所述的系统,其特征在于,所述判断单元包括: 第一获取模块,用于获取所述第一样本数据集合中每一业务类型对应设置的筛选规 则; 第二获取模块,用于将所述获取的每一业务类型对应设置的筛选规则,分别设置在除 所述第一样本数据集合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集 合; 判断模块,用于判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否 包含于相同业务类型对应的对比数据集合内。
8. 如权利要求5至7中任一项所述的系统,其特征在于,所述业务类型包括业扩报装、 用电变更、抄核收、计量、用电检查、客户服务、线损管理。
【文档编号】G06Q30/02GK104216985SQ201410446368
【公开日】2014年12月17日 申请日期:2014年9月4日 优先权日:2014年9月4日
【发明者】钟聪, 罗陆宁, 戴斌, 李涛, 李炳要, 张斌, 黄龙茂, 张志闻, 沈斯伟, 叶国雄, 邰刚, 刘启彬, 林尧铭, 黄令忠, 刘旸, 区彦黛, 苏思敏, 潘裕斌, 侯玉, 李嘉星 申请人:深圳供电局有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1