一种基于多阶机器学习的电量异常智能识别方法及系统与流程

文档序号:16857004发布日期:2019-02-12 23:26阅读:257来源:国知局
一种基于多阶机器学习的电量异常智能识别方法及系统与流程

本发明涉及电力营销领域,尤其涉及一种基于多阶机器学习的电量异常智能识别方法及系统。



背景技术:

现代社会的生活和工作都离不开电,每个月的电费也是电力用户的核心关注点,当电力用户的用电量出现错误时,会给电力用户或者供电局带来不必要的损失,特别是当统计电力用户的用电量过多时,客户还会对供电局进行投诉,所以,在电费发行前,供电局会对所有的用户电量是否异常进行核查。

现有对电量异常进行核查的技术手段主要是依靠业务人员的从业经验制定的几十条繁杂的业务规则进行电量异常识别,但是这些规则过于僵化,且对季节和群体的共性变化没有灵活的适应能力,导致识别出来的电量疑似异常的用户过多,使得人工核查工作量大,核查命中率低,降低核查工作的效能,且需要花费大量人力、物力,提高核查成本。



技术实现要素:

本发明的目的在于克服现有技术的缺陷,提供一种基于多阶机器学习的电量异常智能识别方法,解决上述技术问题。

本发明实施例提供的一种基于多阶机器学习的电量异常智能识别方法,包括如下步骤:

获取待识别用户的用户信息;

基于所述待识别用户的历史用电信息对所述待识别用户开展行为分析,构件群体划分模型并对所述待识别用户进行群体划分;

根据同一群体内的待识别用户的历史数据训练机器学习组合异常识别模型;

对同一群体内的待识别用户的本期电量信息基于离群分析算法及四分位极差算法开展离群分析并生成综合离群概率;

通过所述组合异常识别模型对每个群体用户的用电信息进行异常识别,得出所述待识别用户的电量异常概率;

对所述待识别用户的所述综合离群概率和所述电量异常概率进行整合,最终得到所述待识别用户的电量异常识别结果。

本发明实施例还提供一种基于多阶机器学习的电量异常智能识别系统,包括:

信息获取模块,用于获取待识别用户的用户信息;

处理模块,用于对所述用户信息进行电量异常势识别,得到所述待识别用户的用电异常概率;

输出模块,用于输出所述待用电异常概率。

本发明实施例提供的一种电量异常识别方法,通过多种异常识别智能模型及算法分别对用户电量进行异常识别,既考虑了用户电量数据的分布特征,又融入了历史数据中所蕴含的人工智慧,融合多种识别方法对用户电量异常结果进行整合,提高了电量异常核查的准确率,极大降低人工核查的工作量,节省人力物力。

附图说明

图1示出了适于本发明实施例的一种基于多阶机器学习的电量异常智能识别方法实施环境图;

图2示出了适于本发明实施例的基于多阶机器学习的电量异常智能识别方法的流程图;

图3示出了适于本发明实施例的基于多阶机器学习的电量异常智能识别系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明通过组合机器学习算法对用户电量进行异常识别,提高用户电量异常识别的准确率,大大降低人工核查的工作量,节省人力物力,降低核查成本。

图1示出了适于本发明实施例的一种基于多阶机器学习的电量异常智能识别方法实施环境图,详述如下:

包括信息来源数据库101、处理服务器102、以及结果输出端103。

在本发明实施例中,所述信息来源数据库101存储有用户的用电信息,并且可以将该用户用电信息传输至处理服务器102中,信息来源数据库101可以是存储用户用电数据的数据库,也可以是存储相关电量数据的存储介质等。

在本发明实施例中,所述处理服务器102可以是多个服务器构成的服务器集群,可以是独立的物理服务器或者终端,也可以是提供云数据库、云存储和cdn等基础云计算服务的云服务器。

在本发明实施例中,所述结果输出端103用于输出用户电量异常识别结果,可以是承接结果的数据库,可以是输出显示屏,也可以是用于发送包含该用户电量异常识别结果数据的数据输出接口等。

本发明通过多种机器识别方法分别对用户电量进行异常识别,再对多种识别方法得到的用户电量异常结果进行整合,提高了电量异常核查的准确率,大大降低人工核查的工作量,节省人力物力。

图2示出了适于本发明实施例的一种基于多阶机器学习的电量异常智能识别方法流程图,详述如下:

在步骤s201中,获取待识别用户的用户信息。

在本发明实施例中,用户用电信息包括但不限于用户id信息、用户用电类别信息、用户本期用电量信息、用户的历史用电量信息等。

作为本发明一个实施例,获取待识别的用户用电信息具体为:

接收储存在数据库服务器中的用户用电信息并进行处理。

在本发明实施例中,处理服务器获取待识别用户群体内所有用户的历史用电数据,然后根据该历史用电数据训练机器学习组合异常识别模型。其中,用户的历史用电信息包括但不限于用户id信息、用户用电量信息、用户的核查结果等。作为本发明一个实施例,获取待识别用户群体内所有用户的历史用电数据可以是读取存储装置上的用户的历史用电信息,如将用户的用电信息存储在存储设备中,如u盘、手机、电脑等,然后处理服务器通过数据传输接口读取该存储设备中的用户用电信息,用于电量异常识别,便于对用户的历史用电信息进行分析处理。

在本发明实施例中,获取到用户用电信息后,对数据进行数据清洗、数据匹配、数据关联等数据处理操作,数据清洗主要是异常数据的清除,对用户信息中业务员实际上尚未抄录的数据、数据记载时间戳异常的数据、数据填充为不可能值的数据(如用电量为负值)等出现明显错误的数据进行过滤;数据关联和匹配都是为了将同一用户的不同数据整合到一起,如将a用户3、4、5月份的用电数据及其用电类别数据放入数据表的同一行中,形成a用户的历史用电数据。

在本发明实施例中,还需要对上述数据进行特征值计算,计算和总结用于衡量用户用电情况是否异常的特征,包括用户本期相对于上期用电量的环比波动率、环比电量差值、本期用电量相对于去年同期用电量的同比波动率、同比电量差值等,上述特征值都是本领域常用的特征值,本发明不再阐述。计算出上述特征值后,将每一个用户的特征值各自以统一的衡量单位化为double类型,然后按照固定的顺序组成用电特征向量,所述固定顺序可以人为设定,只需要保证所有用户的特征向量的顺序相同即可。

在本发明的实施例中,用于所述组合异常识别模型建模的历史用电数据及待识别的本期数据均需进行上述数据处理操作,但是每期识别后当期数据会作为历史数据保存下来,不需要重复处理。

在步骤s202中,基于所述待识别用户的历史用电信息对所述待识别用户开展行为分析,构建群体划分模型并对所述待识别用户进行群体划分。

在本发明实施例中,将用电行为相似的用户划分到一个用户群体进行异常识别。

在本发明实施例中,用电行为相似的用户是指根据用户的历史用电信息,按照用电种类、用电量以及用电变化量等信息的相似度所组成的具有相似用电行为的用户。

在本发明的实施例中,所述相似用电行为的划分标准由算法根据当期具体的用电情况自动生成,但是算法保证每次划分的群体数量相同、处于同一群体的用户在多次划分中均处于同一群体、在同一群组的用户在其用电行为未发生较大分歧情况下在对下期数据进行划分时依旧处于同一群组,且其群组索引编号不变。

本发明实施例根据用户的历史用电信息对用户进行群体划分,然后按群体对用户的电量进行异常识别,保证异常识别的准确性。

在步骤s203中,根据同一群体内的待识别用户的历史数据训练机器学习组合异常识别模型。

在本发明实施例中,历史数据会用于生成训练集和测试集分别对机器学习组合异常识别模型进行训练和交叉验证。作为本发明一个实施例,进行上述训练集及测试集抽样之前,需要先对样本进行正负数据平衡。在本实施例异常数据远小于正常数据的情况下,先将历史数据中的异常数据挑出,然后按照一定比例计算出需要的正常数据的数量,并以此在正常数据中随机抽样,与所有异常数据组成样本数据。然后对样本数据进行随机抽样,按照一定比例抽取出训练集与测试集数据,然后用训练集对机器学习模型进行训练。本发明实施例通过将历史中出现异常的数据与正常数据按照比例组成样本,然后在样本中抽取训练集及测试集分别对模型进行训练和测试,保证了所得模型的准确性。

本发明实施例通过用户的历史用电信息对机器学习组合异常识别模型进行训练。每个用户群体使用本群体数据训练生成的模型,保证所有用户电量异常识别的准确性。

在步骤s204中,对同一群体内的待识别用户的本期电量信息基于离群分析算法及四分位极差算法开展离群分析并生成综合离群概率。

在本发明实施例中,基于离群分析算法对待识别的用户群体进行分析,得到每个待识别用户的离群概率包括:

通过对所述群体内的待识别用户的用电特征向量进行分析,得到所述用电特征向量的整体密度分布;通过所述整体密度分布对所述群体内的待识别用户开展离群分析,得到每个待识别用户的离群概率。作为本发明一个实施例,离群分析算法通过对所述群体的所述特征向量进行整合分析,得到所述特征向量所属特征空间的整体密度分布,然后对处于该群体的每个用户通过其用电特征向量在特征空间的位置及该位置的数据密度标记其所述离群概率,密度越高则离群概率越低。

在本发明实施例中,基于四分位极差分析法对待识别用户群体进行异常识别包括:

将所述群体的每一个待识别用户的用电信息的特征值按照从小到大的顺序排列,并找出位于四分之一位置的数值q1和位于四分之三位置的数值q3;

通过所述特征值的平均值对预设的异常程度系数n进行微调;

计算极差iqr=q3-q1,得到以n为异常程度系数的异常区间(-∞,q1-n*iqr)∪(q3+n*iqr,+∞);

将满足上述异常区间的待识别用户标记为用电异常偏离用户;

通过对所述电异常偏离用户的所述离群概率进行补偿,最终输出所述待分析群体的综合离群概率。

作为本发明一个实施例,当所述待识别用户的用电信息的特征值不在所述异常区间内时,所述待识别用户的离群概率不作补偿。当所述待识别用户的用电信息的特征值在所述异常区间内时,所述待识别用户的用电信息的特征值离非异常区间越远,其电量离群概率的补偿越大,且超过某一设定值时,所述待识别用户的电量异常概率补偿一个固定的最大值20%。如a用户的用电信息的特征值为x,离群算法算得该用户离群概率为60%,当x<-2*q3时或者x>2*q3时,a用户的综合离群概率为80%。

本发明实施例通过离群分析和基于四分位极差分析法对待识别用户群体进行异常识别,基于四分位极差分析法是对离群分析检测结果的一种补充,可以保证异常程度最高的部分数据不会漏网,这部分异常即使少量遗漏也可能造成较大的不良影响。

在步骤s205中,通过所述组合异常识别模型对每个群体用户的用电信息进行异常识别,得出所述待识别用户的电量异常概率。

在本发明实施例中,所述组合异常识别模型有随机森林模型和多层感知网络分类器模型及其权重组成,当需要对待识别用户进行异常识别时,组合异常识别模型中的两种模型会先分别得出该用户的异常概率,然后将两者得到的概率按照上述权重进行整合,得到待识别用户的最终异常识别概率。

本发明实施例通过机器学习组合异常识别模型对待识别用户进行异常识别,两者模型的识别结果进行整合,可以保证异常识别的准确率。

在步骤s206中,对所述待识别用户的所述综合离群概率和所述电量异常概率进行整合,最终得到所述待识别用户的电量异常识别结果。

在本发明实施例中,将通过离群算法和基于四分位极差算法的综合离群概率与通过机器学习组合异常识别模型识别得到的电量异常概率进行整合,得到待识别用户的电量异常识别结果。在本发明实施例中,所有用户的历史数据至少为一个完整用电年度的真实历史用电数据。

作为本发明一种实施例,通过对所述待识别用户的至少一个完整用电年度的真实历史用电数据进行聚类,将用电水平及用电波动相似的用户视为用电行为相似并划归同一群体;其中,至少一个完整年度是指:当需要识别一个用户的本期电量时,至少收集该用户过去一年的用电数据,如需要识别今年6月的用电数据,则至少需要收集该用户今年5月至去年5月的历史用电数据,对其进行分析。然后将将用电水平及用电波动相似的用户视为用电行为相似并划归同一群体。

本发明实施例通过将用户过去整整一年的用电数据收集,并根据该数据对用户进行群体划分,保证群体划分的实效性,确保群体划分的准确率。

在本发明实施例中,依托历史数据训练机器学习算法生成组合异常识别模型的方法包括:

用于训练所述机器学习组合异常识别模型的训练数据来源为至少一个完整用电年度的历史用电数据以及对应的用电异常标签;

所述机器学习组合异常识别模型包括随机森林模型和多层感知网络分类器两种;

所述随机森林模型和多层感知网络分类器均需重复训练,然后通过交叉验证手段对每种模型选取准确率最高的一个模型进行组合;

所述机器学习组合异常识别模型是通过最优的随机森林模型和最优的多层感知网络分类器按照一定的权重组合而成的,所述一定的权重由所述最优的随机森林模型和所述最优的多层感知网络分类器的准确度确定。

在本发明实施例中,权重是根据上述模型在测试集上进行预测后与测试集标签相比得到的准确度决定的,将最优的随机森林模型和最优的多层感知网络分类器模型按照该权重进行组合,即可得到机器学习组合异常识别模型。

在本发明实施例中,基于离群分析算法所述待识别用户进行电量异常识别包括:通过对每个群体内的待识别用户的用电特征分布进行分析,得到基于用电特征分布的所述待识别用户的本期用电离群概率;通过对每个群体内的待识别用户的用电特征进行四分位极差分析,得到所述待识别用户用电特征是否偏离的标签;通过所述标签对所述待识别用户的本期用电离群概率进行补偿,得到所述待识别用户的综合离群概率。

在本发明实施例中,离群分析是一种常用的数据异常识别方法,本发明实施例将用户用电信息作为数据群体进行离群分析,能够有效识别出电量异常的用户。作为本发明一个实施例,当处理服务器接收到一个经过群体划分的用户的用电信息后,根据该用电信息中的用电量结合该用户历史用电信息计算该用户用电量的环比波动率、环比电量差、同比波动率、同比波动差值;然后根据该用户所在用户群体内其他用户的本期用电信息和历史用电信息计算该用户群体中其他用户用电量的环比波动率、环比电量差、同比波动率、同比波动差值。,离群分析算法通过对所述群体的所述特征向量进行整合分析,得到所述特征向量所属特征空间的整体密度分布,然后对处于该群体的每个用户通过其用电特征向量在特征空间的位置及该位置的数据密度标记其所述离群概率,密度越高则离群概率越低。

本发明实施例通过对待识别用户所属的群体进行离群分析,能够得出较为明显的电量异常用户。

在本发明实施例中,通过上述方法能够得到一个用户的两种电量异常概率,通过一定的权重对上述两种概率进行整合,以得到用户电量异常识别的最终概率,然后通过将该概率与设定概率进行比较,得到该用户的电量是否异常的结果。

作为本发明一个实施例,上述两种概率的权重可以根据具体的用户群体进行调节,以更好的适应不同的用户群体,而设定概率也是根据不同的用户群体进行设定,对电量波动大的用户,该概率可以相对高一点,对电量波动小的用户,该概率可以相对低一点,以确保本发明技术方案的精确性。

本发明实施例通过对两个概率进行加权得到最终用户电量异常的概率,在将该概率与设定概率进行比较得到用户电量异常识别结果,而上述三个概率的权重和设定概率的具体值都是可以根据不同的用户群体进行调整的,能够保证本发明的适用性及准确性。

图3示出了适于本发明实施例的一种基于多阶机器学习的电量异常智能识别系统,详述如下:

如图3所示,一种基于多阶机器学习的电量异常智能识别系统包括信息获取模块310、信息处理模块320、以及结果输出模块330。

在本发明实施例中,信息获取模块310用于获取待识别用户的用户信息。用户用电信息包括但不限于用户id信息、用户用电类别信息、用户本期用电量信息、用户的历史用电量信息等。作为本发明一个实施例,获取待识别的用户用电信息具体为:

接收储存在数据库服务器中的用户用电信息并进行处理。

在本发明实施例中,处理服务器获取待识别用户群体内所有用户的历史用电数据,然后根据该历史用电数据训练机器学习组合异常识别模型。其中,用户的历史用电信息包括但不限于用户id信息、用户用电量信息、用户的核查结果等。作为本发明一个实施例,获取待识别用户群体内所有用户的历史用电数据可以是读取存储装置上的用户的历史用电信息,如将用户的用电信息存储在存储设备中,如u盘、手机、电脑等,然后处理服务器通过数据传输接口读取该存储设备中的用户用电信息,用于电量异常识别,便于对用户的历史用电信息进行分析处理。

在本发明实施例中,获取到用户用电信息后,对数据进行数据清洗、数据匹配、数据关联等数据处理操作,数据清洗主要是异常数据的清除,对用户信息中业务员实际上尚未抄录的数据、数据记载时间戳异常的数据、数据填充为不可能值的数据(如用电量为负值)等出现明显错误的数据进行过滤;数据关联和匹配都是为了将同一用户的不同数据整合到一起,如将a用户3、4、5月份的用电数据及其用电类别数据放入数据表的同一行中,形成a用户的历史用电数据。

在本发明实施例中,还需要对上述数据进行特征值计算,计算和总结用于衡量用户用电情况是否异常的特征,包括用户本期相对于上期用电量的环比波动率、环比电量差值、本期用电量相对于去年同期用电量的同比波动率、同比电量差值等,上述特征值都是本领域常用的特征值,本发明不再阐述。计算出上述特征值后,将每一个用户的特征值各自以统一的衡量单位化为double类型,然后按照固定的顺序组成用电特征向量,所述固定顺序可以人为设定,只需要保证所有用户的特征向量的顺序相同即可。

在本发明的实施例中,用于所述组合异常识别模型建模的历史用电数据及待识别的本期数据均需进行上述数据处理操作,但是每期识别后当期数据会作为历史数据保存下来,不需要重复处理。

在本发明实施例中,信息处理模块320用于对所述用户信息进行电量异常势识别,得到所述待识别用户的用电异常概率,具体为:基于所述待识别用户的历史用电信息对所述待识别用户开展行为分析,构建群体划分模型并对所述待识别用户进行群体划分;根据同一群体内的待识别用户的历史数据训练机器学习组合异常识别模型;对同一群体内的待识别用户的本期电量信息基于离群分析算法及四分位极差算法开展离群分析并生成综合离群概率;通过所述组合异常识别模型对每个群体用户的用电信息进行异常识别,得出所述待识别用户的电量异常概率;对所述待识别用户的所述综合离群概率和所述电量异常概率进行整合,最终得到所述待识别用户的电量异常识别结果。

本发明实施例通过多种异常识别智能模型及算法分别对用户电量进行异常识别,既考虑了用户电量数据的分布特征,又融入了历史数据中所蕴含的人工智慧,融合多种识别方法对用户电量异常结果进行整合,提高了电量异常核查的准确率,极大降低人工核查的工作量,节省人力物力。

在本发明实施例中,结果输出模块330用于输出所述待用电异常概率,可以是承接结果的数据库,可以是输出显示屏,也可以是用于发送包含该用户电量异常识别结果数据的数据输出接口等。

本发明实施例通过将用户的电量异常识别结果进行输出,便于技术人员对出现异常的用户的电量进一步进行核查,确定用电异常的用户,并及时进行改正,降低损失。

本发明通过多种异常识别智能模型及算法分别对用户电量进行异常识别,既考虑了用户电量数据的分布特征,又融入了历史数据中所蕴含的人工智慧,融合多种识别方法对用户电量异常结果进行整合,提高了电量异常核查的准确率,极大降低人工核查的工作量,节省人力物力。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1