低压跳闸和客户投诉预测方法、装置和存储介质与流程

文档序号:17016476发布日期:2019-03-02 02:29阅读:221来源:国知局
低压跳闸和客户投诉预测方法、装置和存储介质与流程

本申请涉及计算机技术领域,特别是涉及一种低压跳闸和客户投诉预测方法、装置、计算机设备和存储介质。



背景技术:

随着经济发展和人们生活水平的日益提高,工商业与居民用电水平不断增长。尤其在夏季高温天气时段,大功率电器的使用导致用电负荷大幅攀升,出现配变容量无法满足客户用电增长需求的现象,台区电压不稳,故障跳闸等问题相应发生,并且由此引发的供电类客户投诉数量高居不下。目前,对于公变台区低压跳闸和供电类客户投诉问题的处理办法有更换开关、调整用户线路分流负荷、增容改造、公用改专用等短期紧急解决机制及长远解决手段。处理办法以事后处理为主,缺乏预判性的工作。

随着智能配电网信息化、自动化、互动化水平不断提高,电力企业积累了大量用电数据,国内外学者提出了许多基于配电网大数据的配变运行状态预测模型。目前的研究多数以配变重过载预测为切入点,并在此基础上划分出可能出现故障跳闸和客户投诉问题的高风险台区。但是除了配变重过载问题,仍有大量低压跳闸是由于分路之间、台区之间负荷分配不均、三相不平衡等运行管理因素和开关设备、线路老化等设备因素引发的,因此,对配电网的公变台区低压跳闸和客户投诉进行预测的准确率低。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高对配电网的公变台区低压跳闸和客户投诉进行预测的准确率的问题的低压跳闸和客户投诉预测方法、装置、计算机设备和存储介质。

一种低压跳闸和客户投诉预测方法,所述方法包括:

获取设备台账数据、供电环境属性数据以及台区用户特征数据;

将所述设备台账数据、所述供电环境属性数据以及所述台区用户特征数据进行清洗和整理,获得预测特征数据;

将所述预测特征数据输入基于分类器链模型训练的预测模型链,通过所述预测模型链预测是否发生低压跳闸和是否发生客户投诉,得到低压跳闸预测结果和客户投诉预测结果。

在其中一个实施例中,所述将所述预测特征数据输入基于分类器链模型训练的预测模型链,通过所述预测模型链预测是否发生低压跳闸和是否发生客户投诉,得到低压跳闸预测结果和客户投诉预测结果的步骤,包括:

将所述预测特征数据分别输入所述预测模型链中的各子预测模型链,输出各子预测模型链的初步低压跳闸预测结果和初步客户投诉预测结果;

将各初步低压跳闸预测结果进行投票,票数最高的确定为低压跳闸预测结果;

将各初步客户投诉预测结果进行投票,票数最高的确定为客户投诉预测结果。

在其中一个实施例中,所述将所述预测特征数据分别输入所述预测模型链中的各子预测模型链,输出各子预测模型链的初步低压跳闸预测结果和初步客户投诉预测结果的步骤,包括:

将所述预测特征数据输入所述子预测模型链的第一预测模型,输出第一预测结果;

将所述预测特征数据和所述第一预测结果输入所述子预测模型链的第二预测模型,输出第二预测结果;

将所述第二预测结果确定为子预测模型链输出的初步低压跳闸预测结果和初步客户投诉预测结果。

在其中一个实施例中,所述第一预测模型的训练方式包括:

获取各样本数据,所述样本数据包括:特征数据样本及所述特征数据样本的第一结果标签;

将各所述样本数据基于混合重抽样进行抽样处理,获得训练样本;

将所述训练样本输入待训练的第一预测模型,获得训练后的第一预测模型;

获取验证样本,所述验证样本包括:特征数据验证样本;

将所述验证样本输入训练后的第一预测模型,输出验证结果;

当所述验证结果满足要求时,获得第一预测模型。

在其中一个实施例中,所述第二预测模型的训练方式包括:

获取各样本数据,所述样本数据包括:特征数据样本及所述特征数据样本的第一结果标签和第二结果标签;

将各所述样本数据基于混合重抽样进行抽样处理,获得训练样本;

将所述训练样本输入待训练的第二预测模型,获得训练后的第二预测模型;

获取验证样本,所述验证样本包括:特征数据验证样本;

将所述验证样本输入训练后的第二预测模型,输出验证结果;

当所述验证结果满足要求时,获得第二预测模型。

在其中一个实施例中,所述将各所述样本数据基于混合重抽样进行抽样处理,获得训练样本的步骤,包括:

将各所述样本数据中的多数类样本数据采用ncl欠抽样进行抽样处理,获得训练样本的第一训练样本;

将各所述样本数据中的少数类样本数据采用smote过抽样进行抽样处理,获得训练样本的第二训练样本。

在其中一个实施例中,所述将各所述样本数据中的多数类样本数据采用ncl欠抽样进行抽样处理,获得训练样本的第一训练样本的步骤,包括:

遍历各所述样本数据进行数据清理,获得多数类样本数据;

对各所述多数类样本数据进行归一化处理,获得各处理后的样本数据;

计算各所述处理后的样本数据之间的欧氏距离,获得各所述处理后的样本数据的距离矩阵;

对所述距离矩阵的上三角形中的元素基于相似度的高低进行排序,获得各样本数据的相似度排列;

根据所述相似度排列的顺序依次随机选取两两样本数据中的一个样本数据,获得训练样本的第一训练样本。

一种低压跳闸和客户投诉预测装置,所述装置包括:

数据获取模块,用于获取设备台账数据、供电环境属性数据以及台区用户特征数据;

数据处理模块,用于将所述设备台账数据、所述供电环境属性数据以及所述台区用户特征数据进行清洗和整理,获得预测特征数据;

预测模块,用于将所述预测特征数据输入基于分类器链模型训练的预测模型链,通过所述预测模型链预测是否发生低压跳闸和是否发生客户投诉,得到低压跳闸预测结果和客户投诉预测结果。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。

上述低压跳闸和客户投诉预测方法、装置、计算机设备和存储介质,通过获取设备台账数据、供电环境属性数据以及台区用户特征数据,获取多方面的数据,可以增加预测的准确性,将所述设备台账数据、所述供电环境属性数据以及所述台区用户特征数据进行清洗和整理,获得预测特征数据,可以使预测特征数据在输入预测模型链后,避免预测模型链识别出错,将所述预测特征数据输入基于分类器链模型训练的预测模型链进行是否发生低压跳闸和各是否发生客户投诉预测,输出预测结果,采用预测模型链对低压跳闸和客户投诉预测,可以利用配电网的公变台区低压跳闸和客户投诉之间的相关性,有效提高预测结果准确率和预测覆盖率。

附图说明

图1为一个实施例中低压跳闸和客户投诉预测方法的应用场景图;

图2为一个实施例中低压跳闸和客户投诉预测方法的流程示意图;

图3为一个实施例中低压跳闸和客户投诉预测方法的流程示意图;

图4为另一个实施例中低压跳闸和客户投诉预测方法的流程示意图;

图5为一个实施例中低压跳闸和客户投诉预测方法的第一预测模型的训练流程示意图;

图6为另一个实施例中低压跳闸和客户投诉预测方法的第二预测模型的训练流程示意图;

图7为一个实施例中低压跳闸和客户投诉预测装置的结构框图;

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的低压跳闸和客户投诉预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104通过终端102获取设备台账数据、供电环境属性数据以及台区用户特征数据;服务器104将设备台账数据、供电环境属性数据以及台区用户特征数据进行清洗和整理,获得预测特征数据;服务器104将预测特征数据输入基于分类器链模型训练的预测模型链,通过预测模型链预测是否发生低压跳闸和是否发生客户投诉,得到低压跳闸预测结果和客户投诉预测结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种低压跳闸和客户投诉预测方法,以该方法应用于图1中的服务器为例进行说明,包括步骤s220至步骤s260:

步骤s220,获取设备台账数据、供电环境属性数据以及台区用户特征数据。

其中,设备台账数据包括:变压器容量、低压用户数、投运时长、开关类型等数据,变压器容量可以是指配变额定容量(kva),低压用户数可以是指台区内低压用户数量,投运时长可以是指配变投运时长(年),开关类型可以是指跳闸开关设备型号。供电环境属性数据包括:温度、配变负载率、节假日标签等数据,温度可以是指日平均温度(℃),配变负载率可以是指配变的日最高负载率,节假日标签可以是指是否为法定节假日。台区用户特征数据包括:用电性质、地区特征等数据,用电性质可以是指居民、工业、商业及综合,地区特征可以是指城区、城镇、城中村。设备台账数据指的是配电网的公变台区的设备台账数据,供电环境属性数据指的是配电网的公变台区的供电环境属性数据,台区用户特征数据指的是配电网的公变台区的台区用户特征数据。

步骤s240,将设备台账数据、供电环境属性数据以及台区用户特征数据进行清洗和整理,获得预测特征数据。

其中,将设备台账数据、供电环境属性数据以及台区用户特征数据的数据进行清理,如:将设备台账数据、供电环境属性数据以及台区用户特征数据进行重新审查和校验,删除重复的数据信息,并纠正存在的错误数据。将清理后的设备台账数据、供电环境属性数据以及台区用户特征数据进行数据整理,如:变压器容量、低压用户数、投运时长的数据,可以通过分箱的处理方式进行处理,获得预测特征数据,温度、配变负载率、用电性质的数据,可以通过标准化的处理方式进行处理,获得预测特征数据,地区特征、开关类型、节假日标签的数据,可以通过编码的处理方式进行处理,获得预测特征数据。

步骤s260,将预测特征数据输入基于分类器链模型训练的预测模型链,通过预测模型链预测是否发生低压跳闸和是否发生客户投诉,得到低压跳闸预测结果和客户投诉预测结果。

其中,分类器链(classifierchains,cc)是由readj等人提出的一种多标签分类算法,为了充分利用标签之间的相关性,分类器链在预测过程中,将每个基础分类器得到的预测结果加入到其后所有基础分类器的特征变量空间,为其他标签提供预测信息,形成了一个链状形式的分类器。低压跳闸预测结果可以有:发生低压跳闸或没有发生低压跳闸;客户投诉预测结果可以有:发生客户投诉或没有发生客户投诉。低压跳闸预测结果指的是所预测的配电网的公变台区的低压跳闸预测结果,客户投诉预测结果指的是所预测的配电网的公变台区的供电类客户的客户投诉预测结果。如:预测目标为公变台区的低压跳闸和公变台区的客户投诉两个相关标签,现假设特征变量为x,预测标签是否发生低压跳闸为y1和是否发生客服投诉为y2,可以通过特征变量x输入预测模型链中的一个预测模型,获得预测结果y1,将预测结果y1和特征变量x输入预测模型链中的另一个预测模型,获得预测结果y2,也可以是通过特征变量x输入预测模型链中的一个预测模型,获得预测结果y2,将预测结果y2和特征变量x输入预测模型链中的另一个预测模型,获得预测结果y1,并输出y1和y2的预测结果。

上述低压跳闸和客户投诉预测方法中,通过获取设备台账数据、供电环境属性数据以及台区用户特征数据,获取多方面的数据,可以增加预测的准确性,将所述设备台账数据、所述供电环境属性数据以及所述台区用户特征数据进行清洗和整理,获得预测特征数据,可以使预测特征数据在输入预测模型链后,避免预测模型链识别出错,将所述预测特征数据输入基于分类器链模型训练的预测模型链进行是否发生低压跳闸和各是否发生客户投诉预测,输出预测结果,采用预测模型链对低压跳闸和客户投诉预测,可以利用低压跳闸和客户投诉之间的相关性,有效提高预测结果准确率和预测覆盖率。

在一个实施例中,将预测特征数据输入基于分类器链模型训练的预测模型链,通过预测模型链预测是否发生低压跳闸和是否发生客户投诉,得到低压跳闸预测结果和客户投诉预测结果的步骤,包括:

将预测特征数据分别输入预测模型链中的各子预测模型链,输出各子预测模型链的初步低压跳闸预测结果和初步客户投诉预测结果;将各初步低压跳闸预测结果进行投票,票数最高的确定为低压跳闸预测结果;将各初步客户投诉预测结果进行投票,票数最高的确定为客户投诉预测结果。

其中,如图3所示,预测模型链中可以有多个子预测模型链,将预测特征数据输入各子预测模型链,各子预测模型链都会输出初步低压跳闸预测结果和初步客户投诉预测结果,对初步低压跳闸预测结果和初步客户投诉预测结果进行投票,获得预测结果。如:假设预测模型链有子预测模型链1、子预测模型链2、子预测模型链3、子预测模型链4,将预测特征数据分别输入子预测模型链1、子预测模型链2、子预测模型链3、子预测模型链4,子预测模型链1输出初步低压跳闸预测结果为发生低压跳闸,初步客户投诉预测结果为发生客户投诉;子预测模型链2输出初步低压跳闸预测结果为没有发生低压跳闸,初步客户投诉预测结果为发生客户投诉;子预测模型链3输出初步低压跳闸预测结果为发生低压跳闸,初步客户投诉预测结果为发生客户投诉;子预测模型链4输出初步低压跳闸预测结果为发生低压跳闸,初步客户投诉预测结果为没有发生客户投诉;基于各子预测模型链的预测结果进行投票,发生低压跳闸的票数为3票,没有发生低压跳闸的票数为1票,发生客户投诉的票数为3票,没有发生客户投诉的票数为1票,则预测模型链输出的低压跳闸预测结果为发生低压跳闸,预测模型链输出的客户投诉预测结果为发生客户投诉。采用预测模型链对低压跳闸和客户投诉预测,可以利用低压跳闸和客户投诉之间的相关性,有效提高预测结果准确率和预测覆盖率。

在一个实施例中,将预测特征数据分别输入预测模型链中的各子预测模型链,输出各子预测模型链的初步低压跳闸预测结果和初步客户投诉预测结果的步骤,包括:

将预测特征数据输入子预测模型链的第一预测模型,输出第一预测结果;将预测特征数据和第一预测结果输入子预测模型链的第二预测模型,输出第二预测结果;将第二预测结果确定为子预测模型链输出的初步低压跳闸预测结果和初步客户投诉预测结果。

其中,各子预测模型链中的第一预测模型可以是用于预测初步低压跳闸预测结果的模型,也可以是用于预测初步客户投诉预测结果的模型,当子预测模型链中的第一预测模型是用于预测初步低压跳闸预测结果的模型时,第二预测模型则是用于预测初步客户投诉预测结果的模型,将预测特征数据输入第一预测模型,第一预测模型预测出初步低压跳闸预测结果,输出初步低压跳闸预测结果(即第一预测结果),将初步低压跳闸预测结果和预测特征数据输入第二预测模型,第二预测模型基于初步低压跳闸预测结果和预测特征数据预测出初步客户投诉预测结果,并输出初步低压跳闸预测结果和初步客户投诉预测结果(即第二预测结果)。

当子预测模型链中的第一预测模型是用于预测初步客户投诉预测结果的模型时,第二预测模型则是用于预测初步低压跳闸预测结果的模型,将预测特征数据输入第一预测模型,第一预测模型预测出初步客户投诉预测结果,输出初步客户投诉预测结果(即第一预测结果),将初步客户投诉预测结果和预测特征数据输入第二预测模型,第二预测模型基于初步客户投诉预测结果和预测特征数据预测出初步低压跳闸预测结果,并输出初步低压跳闸预测结果和初步客户投诉预测结果(即第二预测结果)。采用预测模型链对低压跳闸和客户投诉预测,可以利用低压跳闸和客户投诉之间的相关性,有效提高预测结果准确率和预测覆盖率。

在一个实施例中,如图4所示,将预测特征数据输入各子预测模型链的第一预测模型,输出各第一预测结果;将预测特征数据和各第一预测结果输入各子预测模型链对应的第二预测模型,输出各第二预测结果;将各第二预测结果对应确定为各子预测模型链输出的初步低压跳闸预测结果和初步客户投诉预测结果,对各初步低压跳闸预测结果和各初步客户投诉预测结果进行投票,获得预测结果。采用预测模型链对低压跳闸和客户投诉预测,可以利用低压跳闸和客户投诉之间的相关性,有效提高预测结果准确率和预测覆盖率。

假设预测模型链有子预测模型链1、子预测模型链2,子预测模型链1中的第一预测模型是用于预测初步低压跳闸预测结果的模型,子预测模型链2中的第一预测模型是用于预测初步客户投诉预测结果的模型,将预测特征数据输入子预测模型链1中的第一预测模型,输出的初步低压跳闸预测结果为发生低压跳闸,将发生低压跳闸和预测特征数据输入子预测模型链1中的第二预测模型,输出的初步低压跳闸预测结果和初步客户投诉预测结果为:发生低压跳闸和发生客户投诉;将预测特征数据输入子预测模型链2中的第一预测模型,输出的初步客户投诉预测结果为发生客户投诉,将发生客户投诉和预测特征数据输入子预测模型链2中的第二预测模型,输出的初步低压跳闸预测结果和初步客户投诉预测结果为:发生低压跳闸和发生客户投诉,基于子预测模型链1和子预测模型链2的预测结果进行投票,发生低压跳闸的票数为2票,没有发生低压跳闸的票数为0票,发生客户投诉的票数为2票,没有发生客户投诉的票数为0票,则预测模型链输出的低压跳闸预测结果和客户投诉预测结果为:发生低压跳闸和发生客户投诉。

在一个实施例中,第一预测模型的训练方式包括:获取各样本数据,样本数据包括:特征数据样本及特征数据样本的第一结果标签;将各样本数据基于混合重抽样进行抽样处理,获得训练样本;将训练样本输入待训练的第一预测模型,获得训练后的第一预测模型;获取验证样本,验证样本包括:特征数据验证样本;将验证样本输入训练后的第一预测模型,输出验证结果;当验证结果满足要求时,获得第一预测模型。

其中,第一预测模型进行训练时,将样本数据中的特征数据样本作为特征变量,样本数据中的特征数据样本的第一结果标签作为预测标签。特征数据样本包括大量的设备台账数据、大量的供电环境属性数据以及大量的台区用户特征数据,特征数据样本的第一结果标签指的是根据各特征数据样本对应的第一结果设置的结果标签,如图5所示,将各样本数据基于混合重抽样进行抽样处理,获得训练样本,将训练样本输入待训练的第一预测模型,待训练的第一预测模型基于各训练样本中的特征数据样本及特征数据样本的第一结果标签进行训练,获得训练后的第一预测模型;获取验证样本,验证样本包括:特征数据验证样本;将验证样本输入训练后的第一预测模型,输出验证结果;当验证结果满足要求时,获得第一预测模型。

当特征数据样本的第一结果标签是根据各特征数据样本对应的低压跳闸结果(即第一结果)设置的结果标签,获得第一预测模型为预测初步低压跳闸预测结果的模型,当特征数据样本的第一结果标签是根据各特征数据样本对应的客户投诉结果(即第一结果)设置的结果标签,获得第一预测模型为预测初步客户投诉预测结果的模型。通过混合重抽样进行抽样处理,获得训练样本,避免重要信息丢失和信息冗余的问题。

在一个实施例中,第二预测模型的训练方式包括:获取各样本数据,样本数据包括:特征数据样本及特征数据样本的第一结果标签和第二结果标签;将各样本数据基于混合重抽样进行抽样处理,获得训练样本;将训练样本输入待训练的第二预测模型,获得训练后的第二预测模型;获取验证样本,验证样本包括:特征数据验证样本;将验证样本输入训练后的第二预测模型,输出验证结果;当验证结果满足要求时,获得第二预测模型。

其中,第二预测模型进行训练时,将样本数据中的特征数据样本和特征数据样本的第一结果标签作为特征变量,样本数据中的特征数据样本的第二结果标签作为预测标签。特征数据样本包括大量的设备台账数据、大量的供电环境属性数据以及大量的台区用户特征数据,特征数据样本的第一结果标签指的是根据各特征数据样本对应的第一结果设置的结果标签,特征数据样本的第二结果标签指的是根据各特征数据样本及特征数据样本的第一结果对应的第二结果设置的结果标签,第一结果可以是指客户投诉结果,也可以是指低压跳闸结果,当第一结果为客户投诉结果时,第二结果则为低压跳闸结果,当第一结果为低压跳闸结果时,第二结果则为客户投诉结果,

如图6所示,将各样本数据基于混合重抽样进行抽样处理,获得训练样本,将训练样本输入待训练的第二预测模型,待训练的第二预测模型基于各训练样本中的特征数据样本、特征数据样本的第一结果标签及特征数据样本的第二结果标签进行训练,获得训练后的第二预测模型;获取验证样本,验证样本包括:特征数据验证样本;将验证样本输入训练后的第二预测模型,输出验证结果;当验证结果满足要求时,获得第二预测模型。

当特征数据样本的第一结果标签是低压跳闸结果的结果标签时,获得第二预测模型为预测初步客户投诉预测结果的模型,当特征数据样本的第一结果标签是客户投诉结果的结果标签,获得第二预测模型为预测初步低压跳闸预测结果的模型。基于ncl欠抽样和smote过抽样组合的混合重抽样方法,能有效降低过抽样算法大量添加合成样本,可能会造成少数类样本信息冗余问题以及欠抽样算法容易丢失多数类样本中部分重要信息这两个问题对预测准确率和预测覆盖率的影响。

其中,在进行混合重抽样之前,首先需要确认经重抽样形成的训练样本集中少数类和多数类训练样本的目标比例,并由此计算过抽样和欠抽样添加和移除的数目。假设一个不平衡数据集中少数类训练样本的数量为n1,多数类训练样本的数量为n0,经重抽样形成的训练样本集中少数类与多数类训练样本的目标占比为k1:k0,如欠抽样和smote过抽样组合的混合重抽样,过抽样和欠抽样需要添加和移除的训练样本数目n可由公式1计算:

n=round[(k1·n0)-(k0·n1)](1)

公式1中,round表示通过四舍五入对计算结果取整;其中k1+k0=1,因此仅需要设定参数k1即可控制混合重抽样目标比例;为确保训练样本集中多数类训练样本数量不低于少数类和n值不为负数,k1的上限值设定为0.5,下限值为样本数据集中的少数类占比:n1/(n1+n0)。

在一个实施例中,将各样本数据基于混合重抽样进行抽样处理,获得训练样本的步骤,包括:将各样本数据中的多数类样本数据采用ncl欠抽样进行抽样处理,获得训练样本的第一训练样本;将各样本数据中的少数类样本数据采用smote过抽样进行抽样处理,获得训练样本的第二训练样本。

其中,ncl欠抽样指的是保留所有少数类样本数据,并对其邻域上存在的多数类样本数据进行清理。基础的ncl欠抽样分为两个步骤:步骤一,遍历样本数据集中的每个样本,找出其三个最邻近样本,若任意样本x属于多数类且其三个最邻近样本中至少两个是少数类,则x被认定为噪音数据,将其清理;步骤二,若样本x属于少数类且其三个最邻近样本中至少两个是多数类,则清理邻近样本中的多数类样本。

smote过抽样是chawla等人提出的一种解决不平衡数据问题的过抽样方法,其主要思想是通过随机线性插值方法在两个邻近的样本之间合成新样本,从而获得指定数目的样本。在本申请中,采用smote算法对样本数据中的少数类样本进行过抽样。合成样本xnew计算方式如公式2:

公式2中:rand(0,1)表示区间(0,1)的一个随机数,x为任意少数类样本,为x的k个最邻近样本中的随机一个。本申请中,k默认设置为5,过抽样数目为n。

在一个实施例中,将各样本数据中的多数类样本数据采用ncl欠抽样进行抽样处理,获得训练样本的第一训练样本的步骤,包括:遍历各所述样本数据进行数据清理,获得多数类样本数据;对各所述多数类样本数据进行归一化处理,获得各处理后的样本数据;计算各处理后的样本数据之间的欧氏距离,获得各处理后的样本数据的距离矩阵;对距离矩阵的上三角形中的元素基于相似度的高低进行排序,获得各样本数据的相似度排列;根据相似度排列的顺序依次随机选取两两样本数据中的一个样本数据,获得训练样本的第一训练样本。

其中,遍历各所述样本数据进行数据清理,获得多数类样本数据的步骤包括:步骤一,遍历样本数据集中的每个样本,找出其三个最邻近样本,若任意样本x属于多数类且其三个最邻近样本中至少两个是少数类,则x被认定为噪音数据,将其清理;步骤二,若样本x属于少数类且其三个最邻近样本中至少两个是多数类,则清理邻近样本中的多数类样本,将剩余的多数类样本确定为多数类样本数据。上三角形中的元素可以有多个,上三角形中的每个元素代表的是两两样本之间的距离计算值,表示为相似度。

基于基础的ncl欠抽样进行抽样获得的多数类样本数据,发现ncl清理的多数类数目偏少,欠抽样后不能明显提高少数类分类性能。因此,在遍历各所述样本数据进行数据清理,获得多数类样本数据的基础上,对多数类样本数据进行归一化处理,获得各处理后的样本数据,并计算多数类样本数据中的每对样本之间的欧氏距离,获得各处理后的样本数据的距离矩阵。其中,第p个和第q个样本之间的距离表示为dip,q,dip,q越小说明样本p和样本q相似度越高。然后,依据di(距离矩阵)的上三角形元素对两两样本的相似度由高到低进行排序,获得各样本数据的相似度排列,并按照排列顺序依次随机选取相似度对应的每对样本中的其中一个进行清理,直到与前面两个步骤清理的多数类数量总和达到n,ncl欠抽样停止,将剩下的样本确定为训练样本的第一训练样本。解决了ncl清理的多数类数目偏少,欠抽样后不能明显提高少数类分类性能的问题。

应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图7所示,提供了一种低压跳闸和客户投诉预测装置,包括:数据获取模块310、数据处理模块320和预测模块330,其中:

数据获取模块310,用于获取设备台账数据、供电环境属性数据以及台区用户特征数据;

数据处理模块320,用于将所述设备台账数据、所述供电环境属性数据以及所述台区用户特征数据进行清洗和整理,获得预测特征数据;

预测模块330,用于将所述预测特征数据输入基于分类器链模型训练的预测模型链,通过所述预测模型链预测是否发生低压跳闸和是否发生客户投诉,得到低压跳闸预测结果和客户投诉预测结果。

在一个实施例中,预测模块330还包括:初步预测单元,用于将预测特征数据分别输入预测模型链中的各子预测模型链,输出各子预测模型链的初步低压跳闸预测结果和初步客户投诉预测结果;低压跳闸投票单元,用于将各初步低压跳闸预测结果进行投票,票数最高的确定为低压跳闸预测结果;客户投诉投票单元,用于将各初步客户投诉预测结果进行投票,票数最高的确定为客户投诉预测结果。

在一个实施例中,初步预测单元还用于:将预测特征数据输入子预测模型链的第一预测模型,输出第一预测结果;将预测特征数据和第一预测结果输入子预测模型链的第二预测模型,输出第二预测结果;将第二预测结果确定为子预测模型链输出的初步低压跳闸预测结果和初步客户投诉预测结果。

在一个实施例中,低压跳闸和客户投诉预测装置还包括:样本数据获取模块,用于获取各样本数据,样本数据包括:特征数据样本及特征数据样本的第一结果标签;样本抽样模块,用于将各样本数据基于混合重抽样进行抽样处理,获得训练样本;模型训练模块,用于将训练样本输入待训练的第一预测模型,获得训练后的第一预测模型;验证模块,用于获取验证样本,验证样本包括:特征数据验证样本,将验证样本输入训练后的第一预测模型,输出验证结果,当验证结果满足要求时,获得第一预测模型。

在一个实施例中,样本数据获取模块还用于:获取各样本数据,样本数据包括:特征数据样本及特征数据样本的第一结果标签和第二结果标签;样本抽样模块还用于:将各样本数据基于混合重抽样进行抽样处理,获得训练样本;模型训练模块还用于:将训练样本输入待训练的第二预测模型,获得训练后的第二预测模型;验证模块还用于:获取验证样本,验证样本包括:特征数据验证样本;将验证样本输入训练后的第二预测模型,输出验证结果;当验证结果满足要求时,获得第二预测模型。

在一个实施例中,样本抽样模块包括:第一样本抽样单元,用于将各样本数据中的多数类样本数据采用ncl欠抽样进行抽样处理,获得训练样本的第一训练样本;第二样本抽样单元,用于将各样本数据中的少数类样本数据采用smote过抽样进行抽样处理,获得训练样本的第二训练样本。

在一个实施例中,第一样本抽样单元还用于:遍历各所述样本数据进行数据清理,获得多数类样本数据;对各所述多数类样本数据进行归一化处理,获得各处理后的样本数据;计算各处理后的样本数据之间的欧氏距离,获得各处理后的样本数据的距离矩阵;对距离矩阵的上三角形中的元素基于相似度的高低进行排序,获得各样本数据的相似度排列;根据相似度排列的顺序依次随机选取两两样本数据中的一个样本数据,获得训练样本的第一训练样本。

关于低压跳闸和客户投诉预测装置的具体限定可以参见上文中对于低压跳闸和客户投诉预测方法的限定,在此不再赘述。上述低压跳闸和客户投诉预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种低压跳闸和客户投诉预测方法。

本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现低压跳闸和客户投诉预测方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现低压跳闸和客户投诉预测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1