一种基于CART算法的分析用户信用等级的方法与流程

文档序号:12125678阅读:652来源:国知局
一种基于CART算法的分析用户信用等级的方法与流程

本发明属于一体化网络缴费领域,特别涉及一种基于CART算法的分析用户信用等级的方法。



背景技术:

随着缴费渠道建设多样化、交费方式多元化的发展,原有电力机构营业所缴费的“单一交费”模式被打破,一体化缴费接入管理平台应运而生,随着网络缴费的用户规模不断扩大,网络空间失信事件频发,网络用户信用出现问题,因此设计一个合理的规避电费回收风险机制,减少供电企业的经营风险,具有现实意义。

随着社会的快速发展,计算机、网络和通讯等信息技术也发展迅速,人们利用一体化缴费接入平台来进行电费缴纳的数量也在大大提高,应用的需求促使一门新的技术,也就是数据挖掘,应用于一体化缴费平台。数据挖掘研究所涉及的学科领域和方法众多,应用领域广泛。决策树算法属于机器学习范畴,是一种建立分类模型的技术。由于模型结构和生成规则的简洁性,而且决策树自动控制程度很高,所以一直以来它都是很受欢迎的分类技术。决策树算法也有多种,其中CART(Classification and Regression Trees)即分类回归树算法,是一种非参数的统计方法,主要用来进行分类研究的,可以同时处理连续变量和分类变量,其首要目标就是构造一个准确的分类模型用来进行预测,也就是研究引起分类现象发生的变量及变量之间的相互作用,通过建立决策树和决策规则对类型未知的对象进行类别预测,即通过类型未知的对象的某些相关变量值就可以对其做出类型判定。



技术实现要素:

本发明的目的在于考虑上述问题而提供一种基于CART算法对电力用户进行分级,对不同信用等级的用户采取不同的电费回收措施,从而规避电费回收的风险的方法。

本发明的技术方案是:基于CART算法,对用户信用等级进行分析,建立缴电用户画像,设计并实现用户信用等级分析模型,包括如下步骤:

1)根据调研和供电公司提供的数据,对调研结果和数据进行分析综合,为客户群体的数据模型建立做准备;

2)建立电费缴纳客户的用户画像;

3)基于CART算法对用户的缴费偏好进行建模;

4)通过数据训练实现用户信用等级分析技术。

进一步地,在所述步骤1)中,对缴费客户群体典型行为进行分析,首先需要用特征权重优化方法对个体用户画像中各权重进行调整优化,得到调整后的最优个体用户画像,再对最优个体用户画像进行聚类及建模,得到群体用户画像及数据模型。

进一步地,在所述步骤2)中,建立电费缴纳客户的用户画像可分为三个层次:第一层次是群体用户的调查分析;第二层次是数据分析的具象化个体描述;第三层次是抽象数据建模后的开发应用。

进一步地,在所述步骤3)中,CART算法是将基尼指标作为选择最佳分裂属性的标准,建树时采用递归的方式;

Gini指标是样本纯净程度的一种度量,其值越小越纯净;己知样本集T,则Gini值表示如下:

式中:pi-属于某一类的几率概率;N-类别数;

若数据集T选择属性A作为分裂属性,将原数据集T分成T1和T2两个子集,则分裂后的Gini值表示如下:

式中:Gini(T1)和Gini(T2)分别表示根据(1-1)式计算得到;

在决策树构建的过程中,选择分裂前后杂质变化量最大的属性作为最佳分裂属性,其公式表示如下:

Gini(A,T)=Gini(T)-GiniSplit(A)(T) (1-3)

式中Gini(T)和GiniSplit(A)(T)分别根据公式(1-1)和(1-2)计算。

进一步地,在所述步骤3)中,CART算法建立模型的树生长阶段选用GINI差异性指标作为分支标准,在最优树选择阶段选用K-折交叉验证作为验证方法。其它设定的参数为:此模型建立选择不对变量加权重,既不人为地强调某个变量的重要性,也不根据某变量值出现的频率而加重此变量值的重要性;树的最高深度设置为5层;采用训练集中的类的概率分布,并使用成本矩阵纠正先验概率;不对缺失值的处理参数进行设置;当父节点中的对象个数少于总对象个数的2%时,或者孩子节点中的对象个数少于总对象个数的1%时,停止树的增长;选择Prune tree,即当一个节点的以下分支所建的模型准确率提高不明显时,那么将自动删除此节点以下的所有分支。

进一步地,所述步骤4)中数据训练的具体方法是:

将通过用户画像建立得到的用户因素经过量化、归一化预处理,转换为数字信息,作为网络的输入向量;经过挖掘系统智能配置,采用两个隐层,每个隐层二十个节点的网络;网络的输出为对应与输入因素的一个关于用户欠费风险的判断;在数据训练指导中,如果用户欠费则风险置1,否则置0;网络的学习因子为η=0.3;惯性系数初始化为α0=0.5,αmax=0。

本申请基于CART算法对电力用户进行分析,有益效果是得到了消费走高-信誉走高模式的结论,具体表现为企业用户用电量大幅度的增长并且持续时间较长时,该企业具有较好的信誉,欠费几率相对很小。本申请基于CART算法对电力用户进行分级,对不同信用等级的用户采取不同的电费回收措施,从而可以规避电费回收的风险。因此,基于CART算法的用户信用等级分析技术具有一定的实用性。

附图说明

图1为建立用户画像层次。

图2为CART算法流程图。

具体实施方式

实施例:

基于CART算法,对用户信用等级进行分析,建立缴电用户画像,设计并实现用户信用等级分析模型,包括有如下步骤:

1)根据调研和供电公司提供的数据,对调研结果和数据进行分析综合,为客户群体的数据模型建立做准备;

2)建立电费缴纳客户的用户画像;

3)基于CART算法对用户的缴费偏好进行建模;

4)通过数据训练实现用户信用等级分析技术。

在上述步骤1)中,对缴费客户群体典型行为进行分析,首先需要用特征权重优化方法对个体用户画像中各权重进行调整优化,得到调整后的最优个体用户画像,再对最优个体用户画像进行聚类及建模,得到群体用户画像及数据模型。

缴费客户群体典型行为分析主要依据是问卷调查和供电公司提供的缴费数据,分析内容包括:

在上述步骤2)中,建立电费缴纳客户的用户画像可分为三个层次:第一层次是群体用户的调查分析;第二层次是数据分析的具象化个体描述;第三层次是抽象数据建模后的开发应用,如附图1。

在上述步骤3)中,CART算法是将基尼指标作为选择最佳分裂属性的标准,建树时采用递归的方式;

Gini指标是样本纯净程度的一种度量,其值越小越纯净。己知样本集T,则Gini值表示如下:

式中:pi-属于某一类的几率概率;N-类别数。

若数据集T选择属性A作为分裂属性,将原数据集T分成T1和T2两个子集,则分裂后的Gini值表示如下:

式中:Gini(T1)和Gini(T2)分别表示根据(1-1)式计算得到;

在决策树构建的过程中,选择分裂前后杂质变化量最大的属性作为最佳分裂属性,其公式表示如下:

Gini(A,T)=Gini(T)-GiniSplit(A)(T) (1-3)

式中Gini(T)和GiniSplit(A)(T)分别根据公式(1-1)和(1-2)计算。

CART模型构建的基本流程图如附图2所示。

在上述步骤3)中,CART算法建立模型的树生长阶段选用GINI差异性指标作为分支标准,在最优树选择阶段选用K-折交叉验证作为验证方法。其它设定的参数为:此模型建立选择不对变量加权重,既不人为地强调某个变量的重要性,也不根据某变量值出现的频率而加重此变量值的重要性;树的最高深度设置为5层;采用训练集中的类的概率分布,并使用成本矩阵纠正先验概率;不对缺失值的处理参数进行设置;当父节点中的对象个数少于总对象个数的2%时,或者孩子节点中的对象个数少于总对象个数的1%时,停止树的增长;选择Prune tree,即当一个节点的以下分支所建的模型准确率提高不明显时,那么将自动删除此节点以下的所有分支。

在上述步骤4)中,数据训练的具体方法是:

将通过用户画像建立得到的用户因素经过量化、归一化预处理,转换为数字信息,作为网络的输入向量;经过挖掘系统智能配置,采用两个隐层,每个隐层二十个节点的网络;网络的输出为对应与输入因素的一个关于用户欠费风险的判断;在数据训练指导中,如果用户欠费则风险置1,否则置0;网络的学习因子为η=0.3;惯性系数初始化为α0=0.5,αmax=0。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1