基于大数据技术的电力用户画像建立与分析方法与流程

文档序号:11144032阅读:5446来源:国知局
基于大数据技术的电力用户画像建立与分析方法与制造工艺

本发明涉及一种基于大数据技术的电力用户画像建立与分析方法。



背景技术:

如今越来越多的行业开始重视用户画像的应用,但是由于不同行业有不同的行业背景、应用场景和用户需求,因此不同行业的用户画像不能同一而论。金融、银行行业做用户画像是因为现在年轻一代客户的消费习惯发生了改变,他们不喜欢去金融网点办业务,而是选择通过智能设备进行金融消费,并且如今很难有一种产品同时满足所有人的需求。电信行业需要通过用户画像实现实时精准化营销如流量套餐、话费套餐等,同时面对数量庞大的客户群体,做到个性化营销。

随着信息化建设的深入推进和电力业务的飞速发展,电网企业也积累了丰富宝贵的数据资源,深度挖掘现有数据并充分利用数据分析结果辅助决策,进而研究电网发展和客户服务规律,成为驱动电网企业创新发展的重要途径之一。因此,开展基于大数据技术的电力用户画像研究,制定差异化与精准化的营销策略,提高产品和服务的竞争力,满足电力客户日益多样化的用电服务需求,扩大电能在社会能源消费终端中的占有率已经十分迫切。

从商业角度出发的用户画像对企业具有很大的价值,用户画像目的有两个。一个是业务场景出发,寻找目标客户。另外一个就是,参考用户画像的信息,为用户设计产品或开展营销活动。

企业利用寻找到的目标用户群,挖掘每一个用户的人口属性、行为属性、社交网络、心理特征、兴趣爱好等数据,经过不断叠加、更新,抽象出完整的信息标签,组合并搭建出一个立体的用户虚拟模型,即用户画像。而对于电网企业而言,电力用户画像则是根据用户的基本属性、用电行为、缴费行为和诉求行为的差异,开展特征分类、分级,从每种类型中抽取出典型特征,赋予标签的阈值,根据最终标签,结合业务需求场景,开展电力用户个体画像和群体画像。

电力用户画像的建立对于电力行业中促进差异化服务,提高服务满意度、预测客户行为,减少企业损失,以及电量的正确预估都有着至关重要的作用。

现有的电力用户画像,包括服务客户关系管理,服务渠道管理,客户停电管理,客户画像技术应用场景规划,客户画像标签体系研究等,均有成功的案例。其中辽宁电力鞍山供电公司的项目“基于大数据的电力系统缴费渠道评价方法”,基于调查问卷数据,采用K-means聚类算法对用户缴费行为进行画像分析,识别出各类用户属性与各类用户缴费行为的对应关系。但是此方案从业务和技术上都有明显的缺陷:从业务上说,缴费行为只是用户画像和信用评级的一部分,不能等同为之;从技术上讲,K-means算法中K值的确定是关键,聚类效果对于K值、噪声点和孤立点异常敏感,而往往需要很多次的实验才能确定最佳K值,效率低;由于各个属性对于用户画像影响程度不同,我们需要分别赋予不同的权重,但是K-means算法无法确定具体的权重,使得分类结果缺乏说服力。



技术实现要素:

本发明为了解决上述问题,提出了一种基于大数据技术的电力用户画像建立与分析方法,本方法根据用户数据和业务需求,分个人画像和群体画像两个层面做用户分析,得到的用户画像数据客观、全面,利于电力需求和电力分析的应用。

为了实现上述目的,本发明采用如下技术方案:

一种基于大数据技术的电力用户画像建立与分析方法,包括以下步骤:

(1)获取电力用户的历史用电信息、基本属性、缴费信息和诉求信息;

(2)确定用户画像分类类别的集合,以及分类结果的影响因素集,确定影响因素集与分类集合的映射关系;

(3)将获取的数据进行随机抽取,一部分作为训练样本,其与数据作为预测样本;

(4)对训练样本和预测样本进行归一化处理,离散化处理以及属性约简,确定校正后的影响因素集合;

(5)对训练样本进行训练,并以十折交叉验证作为测试模式,建立基于朴素贝叶斯分类器的电力用户画像预测模型,利用预测模型对预测样本进行数据分类挖掘分析,得到电力用户画像。

所述步骤(1)中,所述影响因素包括基本信息、用电行为、缴费信息、诉求信息和社交信息,基本信息包括用户的性别、用电类型、行业类别、立户年限、供电电压、所属城市类型和/或负荷性质;所述用户画像分类类别包括高质量用户,一般用户和低质量用户,具体质量等级根据设定的标准划分。

所述步骤(1)中,所述用电行为包括用户的电量等级、季节用电高峰、供电质量感知情况、违约用电程度和窃电程度。

所述步骤(1)中,缴费信息包括用户的抄表方式、抄表周期、账单发布日、缴费期限日、消费等级和/或缴费渠道。

所述步骤(1)中,所述诉求信息包括诉求情绪、容忍度、强度、诉求偏好、电量电费偏好和/或停电保修偏好。

所述步骤(1)中,从电力系统信息系统档案中提取与用户画像强相关信息,相关度的划分根据专家系统进行打分与区分,寻找出关键因素后与画像指标进行相关性分析,找出真正在业务上有强相关的用户行为因素,基于此确定标签的数据来源范围。

所述步骤(2)中,通过用户的基本属性标签描述用户的基本特征,利用用户的用电行为标签描述用户的用电特征,确认其电力消费过程中的习惯与特性,利用用户的缴费信息标签描述用户在支付电力消费费用过程中的分布和行为特点,利用诉求信息反映电力用户在享受电力服务过程中的各种需求。

所述步骤(3)中,以20%的数据作为训练样本,其余80%数据作为预测样本。

所述步骤(4)中,对数据进行归一化处理:

式中:xij是归一化前样本,sij是归一化后样本;min(xj)是原始样本中的最小值;max(xj)是原始样本中的最大值。

所述步骤(4)中,对训练样本数据进行离散化处理:

式中:zij为离散化后样本,min(sj)为归一化后样本的最小值,max(sj)为归一化后样本的最大值,Q为步长:

所述步骤(4)中,属性约简的具体步骤包括:当去掉某个属性后,若没有发现有重复的训练样本数据,决策表中的不可辩关系发生了相对应的变化,所以此属性予以保留;以此类推,最终得到确定的影响因素集合。

所述步骤(5)中,建立电力用户画像预测模型的具体方法为:

(5-1)建立基于朴素贝叶斯分类器的电力用户画像预测模型,该模型以确定的影响因素集合为输入向量,以用户画像分类类别结合为输出向量;

(5-2)分别从详细精度、混淆矩阵和节点错误率三个方面,检验电力用户画像预测模型的准确性。

所述步骤(5-2)中,详细精度包括:TP Rate(真正元比率)、FP Rate(假正元比率)、Precision(精准度)、Recall(查全率)、F-Measure(查准率和查全率的调和平均数)和ROC Area。

所述步骤(5)中,利用预测模型对预测样本进行数据分类挖掘分析的具体方法:

(5-a)统计出实例训练样本的个数S、类别为Ci的样本数Si、第k个属性Ak等于xk且类别为Ci的训练实例样本个数Sik

(5-b)分别计算各类别的概率与各类别中属性Ak等于xk的概率;

(5-c)利用分类器

得出预测实例样本X的归属分类结果,把用户画像的预测结果与实际情况做对比。

所述步骤(5-b)中,

这里,Sc为所有分类数量,Sk示训练样本中第k个属性取值数目。

本发明的有益效果为:

(1)本发明有助于促进差异化服务,提高服务满意度。在用户画像标签体系建立完成之后,每个用户都会有自己与众不同的标签库,当客户给一线员工提供自己的姓名等基本信息之后,该客户的标签库就会出现在员工面前,也就是该用户在电力系统中的所有信息包括历史缴费行为、用电记录、各种诉求记录、是否容易沟通等都会展现出来。这就会给一线员工如客服人员、营业厅人员等在服务时有很大的帮助,他们会根据标签库里的信息,调整态度和策略,尽最大可能去为客户服务,提高客户的满意度;

(2)本发明能够提升营销成功率,基于用户画像标签库,可以很容易地筛选出哪些客户适合哪种产品,并且能够定向的对一些标签用户按照不同渠道进行营销:比如,经常打95598客服热线的用户,可能更青睐于接受打电话、发短信营销;而另一些经常在掌上电力、微信公众号上进行缴费、查询的客户,可能更喜欢接受一些APP推送、微信号推送的方式进行营销,通过客户比较能接受的方式向客户推荐适合的产品,精准化的营销方式更能提高营销成功率;

(3)本发明有助于预测客户行为,减少企业损失,由于各部门之间信息没有打通,一线人员不能及时掌握客户的不良行为,如窃电、欠费、违约用电等,每年给企业造成很大的损失。通过用户画像标签库,一线人员能够及时发现问题,对那些有“劣迹”的客户采取电费止损的营销策略,提高电费回收效率和效果;

(4)本发明有助于开展用户信用评级,提供营销服务数据支撑,电力用户信用评价体系的建立,有助于供电公司客观、全面、准确的从用户基本信息、用电行为、缴费行为、诉求行为对供电服务对象(户与人)的信用情况进行综合评估,为省公司制定本省用户差异化服务管理策略提供辅助决策,为95598各级业务受理过程提供指导性参考;为用户根据不同的信用等级享受不同的供电服务提供业务标准,为各类电力消费APP应用服务提供数据支撑。同时,为下一步针对不同地市单位经济发展和电力消费水平制定差异化信用评价指标体系打下基础。

附图说明

图1为本发明的用户画像建立流程图示意图;

图2为本发明的电力用户行为标签构成示例图。

具体实施方式:

下面结合附图与实施例对本发明作进一步说明。

基于大数据技术的电力用户画像建立与分析方法,包括以下步骤

步骤1、确定用户画像分类类别C={C1,C2,…,Ci},以及分类结果的影响因素集

A={A1,A2,A3,A4,…,An},确定两集合的映射关系;

步骤2、收集原始数据,以20%的数据作为训练样本,其余80%数据作为预测样本;

步骤3、对原始数据进行预处理,其中包括归一化处理,离散化处理以及属性约简,从而确定影响因素集合A={A1,A2,…,Am},其中m≤n;

步骤4、对训练样本进行训练,并以十折交叉验证作为测试模式,建立了基于朴素贝叶斯分类器的电力用户画像预测模型,继而对所建模型进行验证精确度,从而确保模型的有效性;

步骤5、利用基于朴素贝叶斯分类器的电力用户画像预测模型,对预测样本进行数据分类挖掘分析,从而得到准确性高的电力用户画像.

所述步骤1具体步骤如下:

步骤1.1、综合考虑95598数据、电网营销部数据以及电力用户类别等因素后,在听取了电业行业技术专业人员和基层服务人员意见的基础上,确定了用户画像分类类别,即:高质量用户,一般用户和低质量用户;

步骤1.2、结合基础数据平台部分有效数据和186系统(前端)数据,经过对用户画像的详尽讨论与分析后,确定了用户画像分类结果的影响因素,即:基本信息,用电行为,缴费信息,诉求信息和社交信息;

步骤1.3、确定了影响因素集到用户画像分类的映射关系。

所述步骤2具体步骤如下:

步骤2.1、从95598数据和基础数据平台上收集所需要的数据,以20%的数据作为训练样本,其余80%数据作为预测样本。

所述步骤3具体步骤如下:

步骤3.1、为了保留数据的完整性和有效性,我们需要对样本数据进行归一化处理,归一化公式为:

式中:xij是归一化前样本,sij是归一化后样本;min(xj)是原始样本中的最小值;max(xj)是原始样本中的最大值。

步骤3.2、为了更高抽象层次的离散数据值,对训练样本数据进行离散化处理,公式如下:

式中:zij为离散化后样本,min(sj)为归一化后样本的最小值,max(sj)为归一化后样本的最大值,Q为步长:

步骤3.3、当去掉某个属性后,若没有发现有重复的训练样本数据,即ind(C-C1)≠ind(C),决策表中的不可辩关系发生了相对应的变化,所以此属性予以保留;以此类推,最终得到影响因素集合A={A1,A2,…,Am}。

所述步骤4具体步骤如下:

步骤4.1、建立了基于朴素贝叶斯分类器的电力用户画像预测模型,该模型以A={A1,A2,A3,A4,A5}={基本信息,用电行为,缴费信息,诉求信息,社交信息}为输入向量,以C={C1,C2,C3}={高质量用户,一般用户,低质量用户}为类别输出向量;

步骤4.2、分别从详细精度、混淆矩阵和节点错误率三个方面,检验电力用户画像预测模型的准确性,其中详细精度包括:TP Rate(真正元比率)、FP Rate(假正元比率)、Precision(精准度)、Recall(查全率)、F-Measure(查准率和查全率的调和平均数)和ROC Area。

所述步骤5具体步骤如下:

步骤5.1、统计出实例训练样本的个数S、类别为Ci的样本数Si、第k个属性Ak等于xk且类别为Ci的训练实例样本个数Sik

步骤5.2、分别计算

这里,Sc为所有分类数量,Sk示训练样本中第k个属性取值数目。

步骤5.3、利用分类器

得出预测实例样本X的归属分类结果。

步骤5.4、把用户画像的预测结果与实际情况做对比分析,挖掘出更深层次的数据价值。

本发明根据用户数据和业务需求,分个人画像和群体画像两个层面做用户分析。个人画像是按照用户标签库里的标签,给每一个客户按照实际情况贴上他\她专属的标签。群体画像是通过已知的部分标签,从用户系统中筛选出同时满足所选标签的个人画像,这些个人画像就组成了群体画像。个人画像,支持与其关联的人与户画像挖掘,便于一线营销人员或客服人员快速了解该用户特点,规避潜在的风险,节约营销服务成本,提高用户服务满意度。群体画像,可分析相同用户群在不同地域、不同时期其画像构成成分差异,便于采取个性化营销策略和评估营销效果。

用户画像涉及数据的纬度需要业务场景结合,既要简单干练又要和业务强相关,既要筛选便捷又要方便进一步操作。用户画像需要坚持三个原则,分别是基本属性和用电、缴费、诉求信息为主;强相关信息为主;定性数据为主。下面就分别展开进行解释和分析。

(1)基本属性和用电、缴费、诉求信息为主

描述一个电力用户的信息很多,基本属性是用户画像中重要的信息,基本属性是描述一个人在社会中的消费能力信息。任何企业进行用户画像的目的是寻找目标客户,其必须是具有潜在消费能力的用户。基本属性中的部分关键信息可以直接证明客户的消费能力,比如电力用户所居住的区域、所从事的工作,以及收入、所拥有的房产、合同容量等信息。当然,用户的姓名、性别、用电地址、联系方式等也是需要的,可以电网企业联系客户,将产品和服务推销给客户。

除此之外,除了用户基本属性,还需要了解用户在电力商品消费过程中的消费情况(用电信息)、支付情况(缴费信息)、消费反馈情况(诉求信息),以及将来消费者相互之间的互动沟通情况(社交信息)。

(2)采用强相关信息,忽略弱相关信息

强相关信息就是同电力营销业务场景需求直接相关的信息,其可以是因果信息,也可以是相关程度很高的信息。

如果定义采用0到1作为相关系数取值范围的化,0.6以上的相关系数就应该定义为强相关信息。例如在其他条件相同的前提下,35岁左右人的平均工资高于平均年龄为30岁的人,计算机专业毕业的学生平均工资高于哲学专业学生,从事金融行业工作的平均工资高于从事纺织行业的平均工资,上海的平均工资超过海南省平均工资。从这些信息可以看出来人的年龄、学历、职业、地点对收入的影响较大,同收入高低是强相关关系。例如,对用电、缴费、诉求行为影响较大的信息就是强相关信息,反之则是弱相关信息。

用户其他的信息,例如用户的身高、体重、姓名、星座等信息,很难从概率上分析出其对用电、缴费、诉求的习惯影响,这些是弱相关信息,这些信息就不应该放到用户画像中进行分析,不具有较大的商业价值。

用户画像和用户分析时,均需要考虑强相关信息,不要考虑弱相关信息,这是用户画像的一个原则。

(3)将定量的信息归类为定性的信息

用户画像的目的是为电力营销策略筛选出目标客户,定量的信息不利于对客户进行筛选,需要将定量信息转化为定性信息,通过信息类别来筛选人群。

例如可以将年龄段对客户进行划分,18岁-25岁定义为年轻人,25岁-35岁定义为中青年,36-45定义为中年人等。可以参考个人收入信息,将人群定义为高收入人群,中等收入人群,低收入人群。参考资产信息也可以将客户定义为高、中、低级别。定性信息的类别和方式方法,电网企业可以从自身业务出发,没有固定的模式。

将电力营销业务中各类定量信息,集中在一起,对定性信息进行分类,并进行定性化,有利与对用户进行筛选,快速定位目标客户,是用户画像的另外一个原则。

用户画像步骤

针对电力行业的用户画像从流程上可以分为三个步骤:获取和研究用户信息、建立用户行为标签库、开展用户画像(如图1所示),具体方法如下:

(1)获取和研究用户信息

电力用户画像数据主要分为四类,基本属性、用电信息、缴费信息、诉求信息。这些数据都分布在不同的信息系统档中,例如用户基本属性、缴费信息在营销业务系统中,用户用电信息在用电信息采集系统中,用户诉求信息在95598业务支持系统中。

用户画像的纬度信息不是越多越好,只需要找到和四大类画像信息强相关信息,同业务场景强相关信息,同产品和目标客户强相关信息即可。强相关的因素选择建议采用专家打分法缩小范围,根据专家打分选出的关键因素再与画像指标进行相关性分析,找出真正在业务上有强相关的用户行为因素,基于此确定标签的数据来源范围。通过大量的实践证明,要360度的描绘用户画像对一个业务来说短期内较难实现,也不可能通过画像完全了解客户,但可以做到对用户的逼近了解。另外,数据的实效性也要重点考虑,对于数据质量(准确性、及时性、完整性)不高的因素避免纳入到标签体系中,以免影响最终用户画像的准确性。

(2)建立用户行为标签库

标签,是通过对用户信息分析得出的高度精炼的特征标识,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。构建用户画像的核心工作即给用户贴“标签”,而标签中部分是根据用户的行为数据(立户年限、电量等级、缴费渠道等)直接得到,部分是通过一系列算法或规则挖掘得到(诉求容忍度、诉求偏好等)。

基本信息标签是描述用户的一些基本特征,可以通过了解基本信息去认识客户,知道客户是谁,包括姓名、性别、年龄、收入、职业、各类社会关系等;用电行为标签主要展示用户用电特征,了解用户使用电力消费过程中的习惯和特性,包括用电量、季节用电高峰、用电节假日、供电质量感知等。缴费行为主要记录用户在支付电力消费费用过程中的分布和行为特点,包括账单发布日、缴费期限日、消费等级、缴费渠道偏好、缴费及时性等。诉求行为重点反映电力用户在享受电力服务过程中的各种需求,进一步洞察用户对供电企业服务品质、效率的反馈意见和建议,促进电力行业在业务上的改进,主要包括诉求情绪、诉求容忍度、诉求强度、诉求内容偏好等。

电力系统的数据在一定程度上存在局限性,如果仅仅通过电力系统内部数据做用户画像,那么出来的人物画像就不那么丰富。如果拥有用户的一些经济方面的数据,如职业、收入、消费能力、家庭情况等,就可以令用户画像信息更丰富、饱满。这些数据就需要打通外部资源,引入外部数据,比如引入银联和电商的信息来丰富消费特征信息,引入移动大数据的位置信息来丰富客户的兴趣爱好信息,引入外部厂商的数据来丰富社交信息等。

实现方面,数据标签的梳理来源于各个系统日常积累的日志记录系统,通过Sqoop导入HDFS,也可以用代码来实现,比如Spark的JDBC连接传统数据库进行数据的Cache。还有一种方式,可以通过将数据写入本地文件,然后通过SparkSQL的Load或者Hive的Export等方式导入HDFS。

通过Hive编写UDF或者HiveQL根据业务逻辑拼接ETL,使用户对应上不同的用户标签数据,生成相应的源表数据,以便后续电力用户画像系统的数据获取,通过不同的规则进行标签宽表的生成。

(3)开展用户画像

用户画像的目的是为了对用户的行为进行分析,根据分析结果为顾客提供更好的服务。定量的信息不利于对客户进行分析,需要将定量信息转化为定性信息,通过信息类别来对不同的客户群进行分析。

通过用户标签体系,可以开展用户个体画像和群体画像。由营销人员输入用户唯一身份识别信息,可以从某一个独立的用户进行涵盖其基本属性、用电特征、缴费特征、诉求特征的个体画像。指导一线营销人员现场作业服务时采取个体化、差异化的服务策略,降低个体服务风险范围与程度,提高用户服务满意率。此外由营销人员选择用户基本信息、用电行为、缴费行为、诉求行为的不同标签特征,围绕选定的标签,再进行该用户群体画像,重点对该群用户画像展示其子级标签特征的构成情况,旨在观察相同用户群在不同地域、不同时期其画像构成成分差异,有助于各供电单位用户群的横向比较,或同一供电单位用户群变化趋势分析,进而采取差异化营销策略和评估营销效果。

为了将上述成果与实际营销业务充分结合,真正发挥基于大数据技术的电力用户画像工作的作用和意义,应结合电网企业各年度的重点工作,开展与用户用电、缴费、诉求相关的典型应用场景挖掘和营销策略制定,进一步做好根据用户用电行为、缴费行为、诉求行为开展的精准营销,发挥数据生产力的价值。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1