一种由停电引起的投诉预测方法与流程

文档序号:19252563发布日期:2019-11-27 20:29阅读:974来源:国知局
一种由停电引起的投诉预测方法与流程

本发明涉及信息技术领域技术领域,具体涉及一种由停电引起的投诉预测方法。



背景技术:

目前,由于频繁停电引起的投诉占客户投诉的比例较大,根据国网冀北电力有限公司提供的投诉数据分析,频繁停电类别的投诉占到了投诉总量的百分之四十左右,个别年份甚至占到了投诉总量的百分之五十。故文献([1]许鑫,王莉,孙志杰,巩冬梅,张凌宇,刘晓伟,秦风圆.一种基于数据挖掘的频繁停电投诉预警模型[j].信息记录材料,2017,18(02):64-66.)描述了一种针对频繁停电的投诉预警模型,文中规定两个月内同一用户出现三次及以上的停电则视为频繁停电,并借助中文分词算法,从已经生成的故障报修信息和停电信息中挖掘地址信息和停电时间来统计某停电单元的停电次数,并结合云地图展现预警信息、形成事前预警机制,从而达到频繁停电投诉预警的目的。

文献中的频繁停电数据和地址信息全部来自于工单内容,由于工单数据有限和分词算法的实际效果受工单填写规范影响较大,并不能实现频繁停电数据和地址信息的精确统计;文中提出对两个月内出现三次及以上停电作出投诉预警,但实际上,针对用户的投诉预警应该以用户的实际感受作为目标,文中建模过程没有从多角度捕捉用户体验、挖掘产生投诉的潜在原因;由于频繁停电引起的投诉并非全部在工单中体现,部分频繁停电引起客户不满会造成负面情绪的产生和额外的客服业务(如:回访、解释),从而造成部分频繁停电引起的投诉在工单中会转化为对客服态度差、解释不认可的投诉,造成数据把握准确。



技术实现要素:

本发明的目的在于提供一种扩大了预测的范围,警判别方式更加贴近实际,从用户体验的角度分析95598话务数据相较于以频繁停电定义更能反映客户投诉的倾向的由停电引起的投诉预测方法。

实际上半数以上的投诉都与停电事件相关,对频繁停电的投诉也属于停电引起投诉的一部分,停电安排过于频繁,严重影响用户用电体验;计划停电提前停电、延时送电,影响用户生活安排;非计划停电时间过长,且没有准确的送电时间回应等。由于上述原因,用户对电力供应的认可度会下降,同时产生负面情绪,产生投诉或增加正常客户服务中投诉的概率。

故对供电服务的投诉预测应该收集大量数据,通过数据关联获得停电相关的数据、用户的信息、以及用户对停电事件的话务反馈,仅仅通过工单数据来进行分析是不全面且不准确的;话务服务是电网公司进行客户服务的主要方式,故通过不同用群体的话务反应(投诉、报修、催办、办结、咨询等)可以挖掘用户对停电事件的敏感程度,由于不同用户对于停电事件的理解程度不同,故敏感程度也不同,这在投诉预测中非常重要;仅仅对频繁停电进行预警是不够全面的,应对全部停送电引起的投诉进行预警,并将由停送电引起的但未直接对停电进行的投诉考虑进来。

本发明的主要目的是对停送电引起的各类投诉进行预;其次,在这个过程中需要建立用户停电敏感程度的模型作为投诉预测中分析用户行为的特征之一;再次,对话务数据特征进行分析时应该区分话务密集时段(停电期间)和日常话务时段,并综合考虑,作为用户敏感度描述根据。

本发明的技术方案:

本发明通过收集国家电网pms2.0系统、营销系统、95598客服系统中的停电信息、客户台账信息和用户的话务信息获得了多维度数据,并通过用户台区编号和用户户号对三个系统内的数据进行了关联,并由此区分了停电期间话务数据和非停电期间的话务数据。对于停电期间的话务数据,由于不同停电事件属性不同,对于敏感度相同的台区也会在话务数据上出现不一致,故先用熵值法确定停电时长、是否事先通知、高峰停电时间占比等对话务数据有影响的特征的权重,后根据其影响权重不同,屏蔽不同停电事件对台区之间停电话务数据带来的差异,在此基础上根据日常话务数据和停电话务数据来电力用户的敏感程度进行刻画。

由于话务数据特征数量较多,需要对数据进行降维,对比主成分分析法(principalcomponentsanalysis,pca)和t-分布式随机邻域嵌入(t-distributedstochasticneighborembedding,t-sne)的实际效果,选取t-sne对话务数据进行降维。对降维后的数据进行聚类分析,并划定敏感度等级。通过与k均值算法(k-means)相比较发现,高斯混合模型(gaussianmixturemodel,gmm)的聚类结果更加符合实际,并对用户的敏感程度划分为5级。所述5级分别为敏感、较敏感、正常、较不敏感、不敏感。

在客户敏感度的基础上,可以针对单次的停电,根据停电时长、是否属于频繁停电、停电时间段、停电台区及其敏感度等特征,采用机器学习的方式对非计划抢修停电和计划停电引起的投诉概率进行预测。其中,通过统计发现,由停电引起的相关投诉大多发生在停电期间和复电后的12小时内,故复电后12小时内的受影响区域内用户的投诉也属于停电引起的投诉。根据对比决策树、支持向量机和逻辑回归的预测模型评估,决策树算法结果更优,更适合对停电引起的投诉进行预测。并利用随机森林算法进行改进,有效减少预测错误的概率。

本发明的有益效果:

相比于现有的计算方法,首先,扩大了预测的范围,根据停电对客户用电体验影响的内在联系,对于停电引起的各类投诉进行了预测;数据的准确性和全面性有了提升,电网公司内部三个系统间数据关联后的完整性和准确性要明显高于中文分词处理工单内容的结果;预警判别方式更加贴近实际,提出了客户敏感度的计算方法,从用户体验的角度分析95598话务数据相较于以频繁停电定义更能反映客户投诉的倾向。

附图说明

图1为本发明系统数据的关联示意图;

图2-1为本发明t-sne降维结果图;

图2-2为本发明cap降维结果图;

图3-1为本发明gmm聚类结果对比图;

图3-2为本发明k-means聚类结果对比图;

图4为本发明复电后投诉时间间隔分布图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

在本申请的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本申请保护范围的限制;方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。

此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本申请保护范围的限制。

以下结合附图对本发明的技术方案、结构作进一步详细的说明。

实例数据来源:

国家电网河北省电力公司保定市电力公司pms2.0系统、营销系统、95598客户服务系统

数据计算软件及工具包:

python3.7.1(pymysql、numpy、math、matplotlib、pandas、sklearn)、pycharm2018.3.2

数据库:

database、navicatpremium12

如附图1,将三个系统中的数据抽取至mysql数据库中,通过不同系统中的台区编号和用户户号来将停电的详细信息和影响的用户信息以及用户的话务反馈情况关联起来,便于后续的数据筛选和特征选取。

将不同台区的停电期间话务数据与日常话务数据分开后,停电期间的话务数据受到不同停电事件的影响,不能客观的表现台区之间的敏感度差异。停电的时间长短、停电是否事先通知、是否属于频繁停电、停电时间中间的用电高峰时间占比是的的影响用户体验的特征,故用熵值法确定了这四个特征对停电期间话务数据的影响权重见附表1,据此可以消除停电期间话务数据由停电属性不同造成的影响,实现停电数据标准化。

在此基础上,由标准化的停电话务数据和日常话务数据特征量较多,采用t-sne方法对数据进行降维至2维,如附图2-1和图2-2所示,其降维效果较主成分分析法更好,数据特征在二维空间保留更完整。后根据话务数据的2维降维结果对客户的敏感程度进行聚类分级。

如附图3-1和图3-2所示,k-means法对数据点的聚类完全是根据距离来完成,没有考虑高维导数据特征在低维空间映射结果的特征聚合结果,相对来说高斯混合模型的聚类结果相对来说更符合实际,高斯混合模型中二维高斯分布的参数求解方法为期望最大算法。

客户停电敏感度是低信息密度整合得到的高信息密度数据集,基于客户敏感度,在预测停电引起客户投诉的过程中可以用更少的特征量表达更多的数据信息,使预测结果更加符合实际,特征数据集如附图2-1和2-2所示。根据由停电引起投诉的时间分布统计如附图4,发现复电后的投诉集中于前11个小时中,通过计算发现,复电后12小时内的投诉占复电后投诉总量的79.68%,故以停电期间及复电后12小时内是否出现客户投诉作为标签,停电后12小时内的投诉视为由停电引发的隐性投诉。

采用支持向量机、决策树和逻辑回归来对投诉进行预测,将数据分为10折交叉验证形式,并采用准确率(precision)、召回率(recall)和f1值对比不同算法的结果见表3,决策树的预测结果明显优于其他两种算法。故选择决策树作为预测停电投诉的方法,并采用随机森林算法实现并行的集成学习方法,对多个决策树的分类结果综合考虑,降低误判的概率。

表1权重确定结果

表2客户投诉预测特征

表3机器学习算法评价结果

本发明中:略语和关键术语定义

客服:客户服务

复电:停电后恢复送电

台区:变电站馈线上一台10kv变压器后段的全部负荷

停电敏感度:停电后客户对停电事件的敏感程度,即出现不满和负面情绪的概率。

本发明为成套数据处理和计算方法,包括多源数据关联、话务数据标准化与降维处理、用户停电敏感度建模、对停电引起的投诉预测等,计算方法和模型的选取是根据实际效果进行确定的,并不具备唯一性,如果本方案用于其他领域进行数据分析和建模,部分计算方法进行替换可能会取得更好的结果。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;作为本领域技术人员对本发明的多个技术方案进行组合是显而易见的。而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1