一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法与流程

文档序号:11143336阅读:413来源:国知局
一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法与制造工艺

本发明涉及电力系统通信领域,特别是涉及一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法。



背景技术:

随着缴费渠道建设多样化、交费方式多元化的发展,原有电力机构营业所缴费的“单一交费”模式被打破,但在实际生活中,电力机构缴费仍然是广大用户缴纳电费时的首选方式,个别营业所缴费高峰时人满为患。用户缴费习惯、缴费需求与缴费渠道建设之间的矛盾凸显,电费回收隐患、供电服务隐患、人力资源分配不合理等问题逐渐显现。

中国政府在美国提出《大数据研究和发展计划》的2012年也批复了“十二五国家政务信息化建设工程规划”,将大数据作为建设重点,总投资额估计在几百亿。2013年发布《中国电力大数据发展白皮书》,提出了电力大数据是能源变革中电力工业技术革新的必然过程,而不是简单的技术范畴。电力大数据不仅仅是技术进步,更是涉及整个电力系统在大数据时代下发展理念、管理体制和技术路线等方面的重大变革,是下一代智能化电力系统在大数据时代下价值形态的跃升。

在大数据环境下,海量异构数据批量整合、流式分析及低时延ETL融合技术是系统关键技术,如何准确高效的将原始数据提炼为KPI指标和大数据系统的核心能力之一。大数据分析模式需要分析缴费渠道评价体系,首先从数据和服务的生产者和消费者角度给出参与大数据分析的各种角色,并从整个分析和数据生命周期过程中对信息和数据进行分类,结合实际业务场景,形成数据服务。

因此,通过用户缴费数据地挖掘,发现数据库中那些看似无关的交易数据交易背后隐藏的某种联系,根据分析结果可以对用电客户的缴费进行深入的研究分析,发现对电力公司有价值的渠道,以此来找出最受客户欢迎的缴费渠道,具有深远的意义。



技术实现要素:

为解决上述技术问题,本发明在包含用户个人信息的调查数据以及供电公司端的数据的基础上,建立个体用户画像,并通过用户典型行为分析、聚类算法及模型建立,可以了解客户对缴费和相关业务的要求,从而在保持成本或降低成本的同时,提升客户满意度。

本发明的目的是提供一种在电力缴费渠道分析中,可为不同价值客户制定不同的供电方式提供营销决策支持并做出预判的指标选择、权值优化与渠道规划的计算方法。

为实现上述发明目的,本发明提供的技术方案是:

一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法,包括以下步骤:

步骤一通过SG186系统或调查问卷获取缴费用户基本属性信息和缴费习惯属性信息的数据;

步骤二采用特征权重优化方法对个体用户画像中各权重进行优化,得到最优个体用户画像,通过聚类算法建立群体用户缴费行为画像;

步骤三采用K最近邻分类算法建立指标评价体系;

步骤四采用遗传退火算法,计算各个属性指标的权重值;

步骤五判断是否为最优值,确定最优缴费渠道。

进一步地,在步骤一中,用户的基本属性信息包括姓名、年龄、性别、家庭住址;缴费习惯属性信息包括每次平均缴费金额以及缴费方式的信息。

进一步地,在步骤二中,以标签的形式表示个体用户的性质与缴费习惯,作为个体用户画像,特征权重优化方法包括K最近邻算法和模拟退火算法,随机设置各个属性的初始权重;基于样本数据集划分集合测试集,进行K近邻分类计算,遍历测试集中每条数据,从训练集中提取距离最近的前K条数据,与测试数据的实际值比较,并统计误差;进行误差比较,调整各个属性的权重,若误差小于阈值,则得到各个属性的权重,否则,调整属性的权重,进行迭代测试,得到各个属性的权重。

进一步地,在步骤二中,所述聚类算法的原理为将待聚类的属性数据随机放置一个两维网格的环境中,每一个属性数据对象有一个随机初始位置,每一只蚂蚁能够在网格上移动,并测量当前对象在局部环境的群体相似度,通过概率转换函数将群体相似度转换成移动对象的概率,以这个概率拾起或放下对象;蚁群联合行动导致属于同一类别的属性数据对象在同一个空间区域能聚积在一起;

从而使相似的评价因素聚为一类,聚合结果作为电力系统缴费渠道评价指标,电力系统缴费渠道评价因素包括渠道的覆盖率、渠道的利用率、成本、工作效率、用户缴费行为画像、便捷性、客户满意度、渠道发展趋势。

进一步地,在步骤三中,所述K最近邻分类算法包括以下步骤:

对于一个测试集中的测试样本,根据特征词形成测试样本向量;

计算该测试样本与训练集中每个样本的样本相似度,计算公式为:

其中,di为测试样本的特征向量,dj为第j类的中心向量;M为特征向量的维数;Wk为向量的第k维;k值的确定先采用一个初始值,然后根据实验测试K的结果调整K值;

按照样本相似度,在训练样本集中选出与测试样本最相似的k个样本;

在测试样本的个k近邻中,依次计算每类的权重,计算公式如下:

其中,x为测试样本的特征向量;Sim(x,di)为相似度计算公式;b为阈值,有待于优化选择;y(di,Cj)的取值为1或0,如果di属于Cj,则函数值为1,否则为0;

比较类的权重,将样本分到权重最大的那个类别中。

进一步地,在步骤四中,遗传退火计算方法为:

步骤四a给定模型每一个参数变化范围,在这个范围内随机选择一个初始模型,并计算相应的目标函数值;

步骤四b对当前模型进行扰动产生一个新模型,计算相应的目标函数值,得到

ΔE=E(m)-E(m0);

步骤四c若ΔE<0,则新模型被m接受;若ΔE>0,则新模型m按概率P=exp(-ΔE/T)进行接受,T为外界影响因素,当模型被接受时,置m0=m;

步骤四d在外界影响因素T下,重复一定次数的扰动和接受过程,即重复步骤四b和步骤四c;

步骤四e缓慢降低外界影响因素T;

步骤四f重复步骤四b和四e,直至收敛条件满足为止。

进一步地,在步骤五中,最优值的判断公式为|ΔE|=|E(m)-E(m0)|≤0

其中,ΔE表示渠道最优解;E(m)表示计算的渠道值,E(m0)表示初始渠道值。

采用上述技术方案,本发明具有如下有益效果:

第一,本发明采用特征权重优化的方式优化用户画像的权重,特征权重优化既作为数据挖掘的预处理阶段,又将这它与具体的数据挖掘算法结合起来,从而构造出简洁、精确、稳定的数据挖掘计算方法。

第二,在本发明中,通过聚类算法把相似属性的客户聚为一类,而不同类里的客户的属性则不同,并分别建立每一类客户的模型。该模型可运用于后续软件对未来数据的预测以及对用户偏好的分析和缴费渠道建设的决断。

第三,本发明在用户缴费大数据的基础上,破解营业网点布局不合理、营业窗口设置不灵活、人力资源配置不平衡、电费回收存在风险、费控协议签订缓慢的难题,提高营销电费回收工作的精益化管理水平,最终实现让用户方便缴费、让用户满意的缴费服务渠道。

附图说明

图1为本发明电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法的流程图;

图2为本发明KNN算法的流程图;

图3为基于KNN和模拟退火算法的权重优化的流程图;

图4为聚类算法的流程图;

图5为遗传退火算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的结构图及具体实施例仅用以解释本发明,并不用于限定本发明。

实施例1

图1为本发明电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法的流程图,如图1所示,一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法,包括以下步骤:

步骤一通过SG186系统或调查问卷获取缴费用户基本属性信息和缴费习惯属性信息的数据;

步骤二采用特征权重优化方法对个体用户画像中各权重进行优化,得到最优个体用户画像,通过聚类算法建立群体用户缴费行为画像;

步骤三采用K最近邻分类算法建立指标评价体系,

步骤四采用遗传退火算法,计算各个属性指标的权重值;

步骤五判断是否为最优值,确定最优缴费渠道。

实施例2

获得缴费用户基本属性信息和缴费习惯属性信息的数据

缴费客户群体调研目的是客观地收集缴费客户的研究数据,为后续工作做准备。调研对象主要是以家庭为单位的电费缴纳客户,每一户以电网用户编号表示。调研方式为问卷调查和供电公司提供数据研究相结合为主。

问卷调查主要采集了用户的姓名、年龄、性别、家庭住址、缴费习惯信息,并结合供电公司提供的用户缴费信息,建立个体用户画像。具体如下:

姓名:由用户编号代替

年龄:根据家庭平均年龄及家庭每人缴费权重分析,把电费缴纳户划分为三种,分别为

性别:用编号代替(男:0,女:1)

家庭住址:在问卷调查和提供数据的基础上,把对象的住址划分为

缴费习惯:缴费习惯包括用户的欠费频率、是否能及时缴费、每次平均缴费金额以及缴费方式等信息,具体为:

备注:姓名、性别、家庭住址为个人隐私,需加密处理。

在包含以上信息的问卷调查以及供电公司提供的数据的基础上,建立个体用户画像,并通过用户典型行为分析、聚类算法及模型建立,可以了解客户对缴费和相关业务的要求,从而在保持成本或降低成本的同时,提升客户满意度。并且可以根据调研内容分析及过去三年的缴费信息数据分析,预测出未来一年的缴费信息数据。

获得最优个体用户画像

缴费客户群体典型行为分析是在调研和供电公司提供数据的基础上,对调研结果和数据进行分析综合,并为客户群体的数据模型建立做准备。对缴费客户群体典型行为进行分析,首先需要用特征权重优化方法对个体用户画像中各权重进行调整优化,得到调整后的最优个体用户画像,再对最优个体用户画像进行聚类及建模,得到群体用户画像及数据模型。

缴费客户群体典型行为分析主要依据是问卷调查和供电公司提供的缴费数据,分析内容包括:

用户画像又称用户角色(Persona),作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。用户画像要建立在真实的数据之上,当有多个用户画像的时候,需要考虑用户画像的优先级,并且用户画像是处在不断修正中的。

用户画像的核心工作是为用户“打标签”。在调查问卷中已经定义了用户标签,这些标签具有简洁、朴素的特点,方便标签提取和聚类分析。以例说明用户标签,如下:

该例以标签的形式说明了该缴费客户的性质与缴费习惯,表格中每一小格内容即为一个用户标签。

建立电费缴纳客户的用户画像可分为三个层次:第一层次是群体用户的调查分析;第二层次是数据分析的具象化个体描述;第三层次是抽象数据建模后的开发应用。

确定标签权重的做法有多个:如专家设定法,通过人工设定,有调整方便的优点;算法优化法,基于调查样本和提供的数据样本,得有足够的样本训练集,根据模型目标不同,得到的权重不一样。电费缴纳客户用户画像的权重通过KNN算法和模拟退火算法得到。

K最近邻(k-Nearest Neighbor,KNN)分类算法,根据某些样本实例与其他实例之间的相似性进行分类。KNN算法不仅可以用于分类,还可以用于回归,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。具体为通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,从而得到该样本的属性。KNN算法流程图如图2所示。

根据传统的向量空间模型,样本被形式化为特征空间中的加权特征向量,即D=D(T1,W1;T2,W2;…;Tn,Wn)。对于一个测试样本,计算它与训练样本集中每个样本的相似度,找出K个最相似的样本,根据加权距离和判断测试样本所属的类别。计算该测试样本与训练集中每个样本的相似度,计算公式为:

式中:di为测试样本的特征向量,dj为第j类的中心向量;M为特征向量的维数;Wk为向量的第k维。k值的确定一般先采用一个初始值,然后根据实验测试K的结果调整K值,一般初值定为几十到几百。

模拟退火算法是基于Monte-Carlo迭代求解策略的一种随机寻优算法,其出发点是基于物理中固体物质的退火过程与一般组合优化问题之间的相似性。模拟退火算法从某一较高初温出发,伴随外界影响因素参数的不断下降,结合概率突跳特性在解空间中随机寻找目标函数的全局最优解,即在局部最优解能概率性地跳出并最终趋于全局最优。模拟退火算法先以搜寻空间内一个任意点作起始,每一步先选择一个“邻居”,然后再计算从现有位置到达“邻居”的概率。

模拟退火的算法模型如下:

在第次迭代中被模拟退火算法(SA)访问的是解j,而在第(k+1)次迭代中被模拟退火算法(SA)访问的是解j的概率。它由两个独立的概率分布构成,在第k次迭代中从解i产生解的概率gij(T),其中gij(T)要求满足归一化条件:

解被接受的概率λij(T),这里T是第k次迭代时的外界影响因素,对于i≠j的情况,转移概率的表达式如下

因为λij(T)不总是等于,故新解有不被接受的可能,算法停留在解i的概率为

由于Ω是一个可列集,故模拟退火算法产生的随机变量所代表的随机过程是一个Markov链,其一步转移概率由以上两式定义,记一步转移概率为:

则k步转移概率为

其中I为单位矩阵,Tt表示第t次迭代时的外界影响因素值。其矩阵元的含义为

Pij(m,m+k)=Pr{Xm+k=j|Xm=i}

即被m次迭代处于状态i,第m+k次迭代处于状态j的概率。

迭代调优指标权重参数,从而为渠道规划提供指标权重参考。如图3所示,随机设置各个属性的初始权重;基于样本数据集划分集合测试集,进行K近邻分类计算,遍历测试集中每条数据,从训练集中提取距离最近的前K条数据,与测试数据的实际值比较,并统计误差;进行误差比较,调整各个属性的权重,若误差小于阈值,则得到各个属性的权重,否则,调整属性的权重,进行迭代测试,得到各个属性的权重。

聚类分析

聚类的目标是在潜在的数据集中区分和提取重要有区别的簇,到目前为止研究人员开发了有五种基本的聚类方法,划分聚类,层次聚类,基于密度的聚类,基于网格聚类和基于模型的聚类。其中,基于划分的k-means算法由于算法本身的思想简单,实现起来比较容易,受到广泛地使用。但是,k-means算法对异常值敏感,并且需要提前确定k值。因此采用改进的基于群体智能的客户行为分析算法,该算法是以蚁群合作蚁巢分类的简单模型为基础,分析客户行为的一种自组织聚类算法,此方法可使数据更容易可视化,它突显出引人兴趣的特征。聚类中心的个数从数据中自动产生。

假设只有一种物体,所有的物体都随机分布在二维格上面,每个格点只包含一个物体,蚂蚁被随机放在二维格上,并且每次沿着随机的方向移动一格,每次移动后,如果相应的格点有物体的话,没有负担的蚂蚁决定给予如下的概率捡起一个物体:

其中,λ是蚂蚁在它的周围感觉到得物体数,且γ1>0。当只有少量物体在蚂蚁周围时,即λ<<γ1,则Pp接近于1;因此,物体有较大的概率被拾起,另一方面,如果蚂蚁觉察到许多物体λ>>γ1,则Pp接近于0,物体被拾起的概率就比较小。

每只有负担的蚂蚁放下所背负的物体的概率由下面的公式给出:

其中,应保证给定相应格点是空的,γ2>0,如果蚂蚁在周围发现大量的物体,即λ>>γ2,则Pd接近于1,放下物体的概率很大。若λ<<γ2,则Pd接近于0,放下的概率几乎没有。

基于蚁群聚类算法的基本模型(BM),Lumer和Faieta将BM推广到用实际元素来聚类数据向量,提出著名的LF算法。LF算法中引入了一个相似密度函数,来衡量两个数据对象之间的相似程度。

在LF算法中,数据向量被随机地放置在二维格上,在观察被称为nN路径的个地点周围区域时,蚂蚁随机地在格附近移动,移动区域就是一个方形领域即蚂蚁当前位置i周围的nN×nN个地点,假设蚂蚁在时间t时位于位置i,找到数据向量Oi,在蚂蚁领域内的数据向量Oi的“局部”密度f(Oi)的计算公式如下:

式中,α>0定义了数据向量Oi和Oj的相异度的范围。常量α确定两个物体何时应该或不应该放在一起,是一个调节数据向量间平均密度的系数,如果α太小,会形成许多的小组,把属于同一组的物体聚到不同的组,如果α太大,可能会造成各个组之间的混淆,把不属于同一组的物体聚到一起。所以α对形成的簇的个数有直接的影响,如图4所示。

利用相似度度量f(Oi),拾起和放弃概率的定义如下:

通过聚类算法,可建立缴费客户的群体用户画像。该群体用户画像是在个体用户画像通过聚类建立起来的。群体用户画像可描述整个缴费客户的年龄分布、缴费偏好与缴费方式等标签信息。反之,若知道某个个体样本的标签信息,在群体中应有一类样本群与之有相近的性质。因此,可用群体用户画像来描述个体用户画像,也可用个体用户画像来推断分析群体用户画像。

通过用户画像、缴费客户群体典型行为分析及后续软件分析,可得到电费缴纳群体的缴费偏好等信息,为渠道规划和人力资源调配提供支撑。

实施例3

采用K最近邻分类算法建立指标评价体系

KNN分类算法的主要思想是:先计算待分类样本与已知类别的训练样本之间的距离或相似度,找到距离或相似度与待分类样本数据最近的K个邻居;再根据这些邻居所属的类别来判断待分类样本数据的类别。如果待分类样本数据的K个邻居都属于一个类别,那么待分类样本也属于这个类别。否则,对每一个候选类别进行评分,按照某种规则来确定待分类样本数据的类别。

对于一个测试样本,计算它与训练样本集中每个样本的相似度,找出K个最相似的样本,根据加权距离和判断测试样本所属的类别。具体算法步骤如下:

(1)对于一个测试样本,根据特征词形成测试样本向量。

(2)计算该测试样本与训练集中每个样本的样本相似度,计算公式为:

式中:di为测试样本的特征向量,dj为第j类的中心向量;M为特征向量的维数;Wk为向量的第k维.k值的确定一般先采用一个初始值,然后根据实验测试K的结果调整K值,一般初值定为几十到几百。

(3)按照样本相似度,在训练样本集中选出与测试样本最相似的k个样本。

(4)在测试样本的k个近邻中,依次计算每类的权重,计算公式如下:

式中:x为测试样本的特征向量;

Sim(x,di)为相似度计算公式;

b为阈值,有待于优化选择;

y(di,Cj)的取值为1或0,如果di属于Cj,则函数值为1,否则为0。

(5)比较类的权重,将样本分到权重最大的那个类别中。

KNN方法基于类比学习,是一种非参数的分类技术,在基于统计的模式识别中非常有效,对于未知和非正态分布可以取得较高的分类准确率,具有鲁棒性、概念清晰等优点。但在样本分类中,KNN方法也存在不足,如KNN算法是懒散的分类算法,其时空开销大;计算相似度时,特征向量维数高,没有考虑特征词间的关联关系;样本距离计算时,各维权值相同,使得特征向量之间的距离计算不够准确,影响分类精度。

采用遗传退火算法,计算各个属性指标的权重值

模拟退火算法(Simulated Annealing)源于统计物理学,据统计热力学,物体中的每个分子的状态服从Gibbs分布,即:

式中:E(ri)为第i个分子的能量函数;

ri为第i个分子所处的状态;

k为玻尔兹曼常数;

T表示外界影响因素;

ρ(ri)为第i个分子的概率密度,为了方便起见令k=1。

模拟退火算法的具体步骤如下:

1)给定模型每一个参数变化范围,在这个范围内随机选择一个初始模型m0,并计算相应的目标函数值E(m0);

2)对当前模型进行扰动产生一个新模型m,计算相应的目标函数值E(m),得到ΔE=E(m)-E(m0)

3)若ΔE<0,则新模型被m接受;若ΔE>0,则新模型m按概率P=exp(-ΔE/T)进行接受,T为外界影响因素。当模型被接受时,置m0=m;

4)在外界影响因素T下,重复一定次数的扰动和接受过程,即重复步骤2)、3);

5)缓慢降低外界影响因素T;

6)重复步骤2)、5),直至收敛条件满足为止。

判断是否为最优值,最优值的判断公式为|ΔE|=|E(m)-E(m0)|≤0,ΔE表示渠道最优解;E(m)表示计算的渠道值,E(m0)表示初始渠道值。

如果判断结果为否,则返回从此进行聚类分析;如果判断结果为是,得到该属性指标的权重最优值,从而确定最优缴费渠道,如图5所示。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1