基于稽查数据的电力营销业务诊断模型的建立方法及系统的制作方法_3

文档序号:9616584阅读:来源:国知局
于根据所述诊断结果判定信息更新异常数据信息,并更新关 联规则、专家样本库及诊断模型。
[0100] 当诊断结果判定信息为人工判定结果与模型判定结果一致时,说明诊断模型判定 准确,不需要重新建立,保持诊断模型不变。
[0101] 当诊断结果判定信息为人工判定结果与模型判定结果不一致时,说明诊断模型判 定不够准确,需要重新建立,因此,重新更新关联规则、专家样本库及诊断模型。
[0102] 如图7所示,在其中一个实施例中,规则确定模块200,具体包括:
[0103] 特征确定单元210,用于根据所述异常数据信息确定异常数据信息项集间的支持 度和置信度。
[0107]η异常信息项集{Ai,Α2,…,Ani,AJ的置信度为:
[0104] 记具有η列属性的异常数据信息为η异常信息项集,即η异常信息项集包括异常 数据信息的中的η个不同属性的属性值。原异常数据信息具有的属性不少于η列。η异常 信息项集的表达形式为:{心,Α2,…,AnuAJ,即异常数据信息项集的第一列属性值为Α1,第 二列属性值为A2,…….,第n-1项属性值为Ani,第η项属性值为Αη,η异常信息项集的支 持度为
[0105]
[0106]
[0108]
[0109]
[0110] 最小特征确定单元220,用于根据所述支持度和所述置信度确定最小支持度和最 小置信度。
[0111] 将最小的支持度和最小的置信度作为一个衡量所有支持度和所有置信度的一个 阈值,分别表示异常数据信息项集在统计意义上的最低重要性和最低可靠性。
[0112] 频繁项集确定单元230,用于根据所述最小支持度确定最大异常信息频繁项集。
[0113] 通过最小支持度,找出所有异常信息频繁项集,即支持度必须大于等于最小支持 度阈值的异常信息项集为异常信息频繁项集。
[0114] 在本实施例中,根据计算所得的最小支持度阈值,对异常数据信息进行连接操作, 即分别对1项候选异常信息项集Ci,剔除小于该阈值的异常信息项集得到1项异常信息频 繁项集L1;下一步由Li自身连接产生2项候选异常信息项集C2,保留C2中满足约束条件的 异常信息项集得到2项异常信息频繁项集,记为L2;再下一步由1^与L1连接产生3项候选 异常信息项集C3,保留(:2中满足约束条件的异常信息项集得到3项异常信息频繁项集,记 为L3,这样循环下去,得到最大异常信息频繁项集Lk。
[0115] 在其中一个实施例中,在对异常数据信息进行连接操作时,还进行剪枝操作,在产 生候选异常信息项集ck的过程中起到减小搜索空间的目的。由于候选异常信息项集C,是 异常信息频繁项集Lk1与Li连接产生的,根据Apriori的性质异常信息频繁项集的所有非 空异常信息项集也必须是异常信息频繁项集,所以不满足该性质的项集将不会存在于候选 异常信息项集(;中,该过程就是剪枝。
[0116] 待定规则确定单元240,用于根据所述最大频繁异常信息项集确定待定关联规则。
[0117] 最大异常信息频繁项集Lk满足最小支持度阈值,因此可以通过最大异常信息频繁 项集Lk,确定待定关联规则。
[0118] 关联规则确定单元250,用于根据所述待定关联规则及所述最小置信度确定所述 关联规则。
[0119] 在频繁项集确定单元230中,未超过最小支持度阈值的异常信息项集已被剔除。 关联规则确定单元250将待定关联规则中能够满足最小置信度阈值的规则,确定为关联规 贝1J。即关联规则,是同时满足最小支持度阈值和最小置信度阈值的规则。
[0120] 在其中一个实施例中,采用ID3算法,以专家样本库中每列异常属性的信息熵的 下降速度作为构造决策树模型选取节点顺序的标准,直到生成的决策树模型能完美分类训 练样例。所述专家样本库中的异常属性为根据所述关联规则确定的异常数据信息项集所分 别包含的属性值所对应的属性。
[0121] 具体地,如图8所示,模型建立模块400包括:
[0122] 增益确定单元410,用于获取所述专家样本库的每列所述异常属性,分别根据每列 异常属性的异常属性值进行异常分类,并进行统计,根据统计结果确定每列异常属性的信 息增益值。
[0123] 在其中一个实施例中,所述专家样本库的异常属性为根据所述关联规则确定的满 足最小支持度阈值的最大异常信息频繁项集所包含的属性值所对应的属性。
[0124] 专家样本库包括多条异常数据信息记录,每条异常数据信息记录包括若干列异常 属性。
[0125] ( -)假设一列异常属性A中有t个不相关的异常属性值軋A2,…,At,即t个不 相关的异常类别信息A2,…,At,则他们的平均信息量,即异常属性A的平均信息量,为:
[0126]
[0127] a ,,~?一…过"叩入丄_丨外丁。
[0128] (二)假设S是专家样本库,即所有根据关联规则确定的异常数据信息的样本集 合,|S|是异常数据信息样本集合的样本数。根据每列异常属性的异常属性值将异常数据 信息样本划分为m个不同的异常信息类别Q,C2,…,(;,这些信息类别的大小,即属性值分 别为,…,(;的异常数据信息记录的条数,分别标记为Ic」,|C2|,…,IQJ,那么专家样 本库s是q类的概率为:
[0129]
[0130] 异常属性A具有若干个异常属性值,分别取其中一个异常数属性值为v的样本子 集,记做Sv。在选择异常属性A后的分支节点上,确定该节点的样本子集Sv的熵为E(Sv)。 为了得到异常属性A导致的期望熵值,计算每个样本子集Sv的熵的加权和,其权值是属于 样本子集Sv在专家样本库S中所占有的比例p(Sv),S卩|Sv|/|S|。因此异常属性A的平均 信息期望熵为:
[0131] E(S,A) =Ep(Sv) ·E(Sv);即,E(S,A) =Σ(|Sv|/|S|) ·E(Sv) 〇
[0132] 那么,异常属性A对于专家样本库S的信息增益值G(S,A)为:
[0133] G(S,A) =E⑶_E(S,A);
[0134] E⑶等于异常属性A的平均信息量1(14,…,At)。
[0135] 如此,确定每一个异常属性对于专家样本库S的信息增益值。
[0136] 节点确定单元430,用于根据所述信息增益值确定所述每列异常属性在所述决策 树模型中的节点位置。
[0137] 信息增益值G(S,A)越大,说明异常属性A对分类提供的信息越多,故选择信息增 益值G(S,A)最大的属性作为决策树模型的根节点,以此将信息增益值递减而往下分级,最 终至异常类别为叶节点,形成完整的决策树模型。
[0138] 下面以广州白云区大用户用电异常的分类识别为例进行说明。
[0139] 从自定义查询中采集异常情况相关数据信息如表1 :
[0140] 表1原始异常数据信息列表
[0141]
[0142] 由于抽样专业和抽样业务分别已确定是抄核收、当月抄表(核、收)业务,故对各 异常数据信息项集进行关联度计算时不考虑这两项,而用户编号与总户号基本一致,故只 计算用户编号。可以得到异常数据信息项集的支持度和置信度如下表2、表3 :
[0143] 表2各异常数据信息项集的支持度
[0144]
[0146] 表3各异常数据信息项集的置信度
[0147]
[0148] 由于没有研究意义,首先对支持度置信度都为0的异常数据信息项去除,然后从 剩下的异常信息项中确定最小支持度和最小置信度分别为〇. 00008和0. 00013,则由这最 小支持度和最小置信度产生的具有关联规则的最大异常信息频繁项集后根据其关联规则 构造出专家样本库部分数据如表4所示:
[0149] 表4专家样本库
[0150]
[0151] 为了使实例计算简单易懂,现只以用电类别、抽样业务以及异常类别中的3705990 和3705979为例来计算决策树模型的异常属性中异常类别的平均信息量:
[0152] 分别统计各异常属性样本数如下表5 :
[0153] 表5异常属性样本数统计表
[0154]
[0155] 最终的异常属性中异常类别有两类结果:3705990和3705979,其样本数统计结果 分别为AuA^lJ:
[0
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1