一种客户画像的标签管理方法及系统与流程

文档序号:23618354发布日期:2021-01-12 10:28阅读:338来源:国知局
一种客户画像的标签管理方法及系统与流程

本发明涉及电力系统技术领域,具体涉及一种客户画像的标签管理方法及系统。



背景技术:

目前在营销系统中存在客户分群体系,此体系分类基于客户基础信息的客户分群记录的数据。现有的客户分群体系无法灵活的描述用电客户具有的特征,包含的描述信息不足,不能细化具体客户群体,无法筛选具有某些共同特征的用户群体,在描述单一用户特征时不够灵活,同时分群的定义不具有业务含义,不能在业务上提供更多的帮助。

现有的客户特征描述更多的是基于客户的基础信息,不能满足对客户特征的描述需求。



技术实现要素:

为此,本发明提供一种客户画像的标签管理方法及系统,通过对客户特征数据分析以解决现有技术中不能满足对客户特征描述需求的问题。

为了实现上述目的,本发明提供如下技术方案:

一种客户画像的标签管理方法,包括:

对采集的原始数据进行初步处理;

将初步处理后的数据进行数据分析,对电力营销业务系统中的用户特征数据进行分析,并通过逻辑回归、决策树和聚类分析的大数据算法计算出每个用户的标签;

依据多系统的数据基础,基于预先设计的标签体系和预先定义的标签规则,利用数据分析工具引擎分析数据并构建标签体系;

利用画像引擎在业务场景中即时刻画任务标签,依据任务标签进行画像刻画;

将生成的图像刻画与各个应用对应起来,形成统一的应用管理体系,并针对不同的标签客户群体提供不同的服务。

可选的,所述对采集的原始数据进行初步处理,包括:

读取原始数据,对原始数据中的空值、缺失值、唯一值和异常值进行检验;

其中,对空值和缺失值的比例进行计算,将空值或缺失值占比大于40%的变量做删除处理,将空值或缺失值占比小于等于40%的变量通过三次样条插值法进行填充处理;

对唯一值和异常值均做删除处理。

可选的,所述将初步处理后的数据进行数据分析为变量之间相似度的计算,包括:

对连续数据进行数据离散化处理得到离散化数据;

将离散化数据和原始数据中的离散型数据进行数据合并,并计算其woe-iv值;

对计算获得iv值进行排序,并设定iv值的判定阈值,将小于iv值判定阈值的变量剔除,将大于等于iv值判定阈值的变量留存。

可选的,所述聚类分析采用kmeans聚类算法。

可选的,所述kmeans聚类算法包括:

随机选取k个对象作为初始的k个簇的质心;

将其余对象根据其与各个簇质心的距离分配到最近的簇,再求新形成簇的质心;

重复执行上述迭代重定位过程,直到目标函数最小化或者簇的质心不再变化为止。

可选的,所述对象与各个簇质心的距离满足如下原则:

非负性:d(i,j)>0ifi≠j,andd(i,i)=0;

对称性:d(i,j)=d(j,i);

三角不等式:d(i,j)≤d(i,k)+d(k,j);

其中d(i,j)、d(j,i)以及d(i,k)、d(k,j)均为对象与簇质心之间的距离。

可选的,所述对象与簇质心之间的距离的计算方法包括:

根据闵可夫斯基距离公式计算所述对象与各个簇质心之间的距离,计算公式为:

其中,i=(xi1,xi2,...,xip)和j=(xj1,xj2,...,xjp)为p维数据对象,xi1,xi2,...,xip以及xj1,xj2,...,xjp均为坐标值数据对象的坐标值,h为维度;或,

根据曼哈顿距离公式计算对象与各个簇质心之间的距离,包括:

d(i,j)=|xi1-xj1|+|xi2-xj2|+...+|xip-xjp|;

其中,h=1;或

根据欧几里德距离公式计算对象与各个簇质心之间的距离,包括:

其中,h=2。

可选的,在所述kmeans聚类算法中,输入期望得到簇的数目k以及n个对象的数据库,输出使得平方误差准则函数最小化的k个簇。

可选的,所述标签体系包括属性标签、需求标签和行为标签。

本发明还提供了一种客户画像的标签管理系统,用于实现如上所述的客户画像的标签管理方法,包括:

数据预处理模块,用于对采集的原始数据进行初步处理;

数据分析模块,用于将初步处理后的数据进行数据分析,对电力营销业务系统中的用户特征数据进行分析,并通过逻辑回归、决策树和聚类分析的大数据算法计算出每个用户的标签;

标签体系构建模块,接入多系统数据,用于依托数据基础,基于预先设计的标签体系和预先定义的标签规则,利用数据分析工具引擎分析数据并构建标签体系;

刻画模块,用于利用画像引擎在业务场景中即时刻画任务标签,依据任务标签进行画像刻画;

应用模块,用于将生成的图像刻画与各个应用对应起来,形成统一的应用管理体系,并针对不同的标签客户群体提供不同的服务。

本发明具有如下优点:

本发明通过电力营销业务系统中的用户特征数据提取用户特征,制定基于业务需求的电力客户标签集合,利用画像引擎生成个人和群体的画像及分析,再到最终与各个应用系统的对接应用建设,逐步形成统一的应用管理体系、应用策略,确保标签使用价值。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明提供的一种客户画像的标签管理系统的结构框图;

图2为本发明提供的一种客户画像的标签管理方法的流程图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供了一种客户画像的标签管理系统,包括:

数据预处理模块10,用于对采集的原始数据进行初步处理;

数据分析模块20,用于将初步处理后的数据进行数据分析,对电力营销业务系统中的用户特征数据进行分析,并通过逻辑回归、决策树和聚类分析的大数据算法计算出每个用户的标签;

标签体系构建模块30,接入多系统数据,用于依托数据基础,基于预先设计的标签体系和预先定义的标签规则,利用数据分析工具引擎分析数据并构建标签体系;

刻画模块40,用于利用画像引擎在业务场景中即时刻画任务标签,依据任务标签进行画像刻画;

应用模块50,用于将生成的图像刻画与各个应用对应起来,形成统一的应用管理体系,并针对不同的标签客户群体提供不同的服务。

请参阅图2,基于前述实施例,本实施例提供一种客户画像的标签管理方法,用于对已经数据处理完成的数据进行数据建模,对于无监督的算法建模,本次采用的为聚类算法kmeans算法,通过这一算法对用户数据进行用户分群处理,根据分群结果进行数据探索分析,总结用户标签的定义规则。

对于有监督的算法建模,本次采用的为逻辑回归和决策树算法,分别将数据处理得到的变量数据输入到以上两种模型算法中,训练模型,对训练完成的数据进行模型测试,评价模型的有效性,针对模型结果进行模型调优,模型效果达到预期效果后对预测数据进行标签预测,计算出用户标签。

具体地,本实施例提供的客户画像的标签管理方法包括如下步骤:

s1、对采集的原始数据进行初步处理;

s2、将初步处理后的数据进行数据分析,对电力营销业务系统中的用户特征数据进行分析,并通过逻辑回归、决策树和聚类分析的大数据算法计算出每个用户的标签;

s3、依据多系统的数据基础,基于预先设计的标签体系和预先定义的标签规则,利用数据分析工具引擎分析数据并构建标签体系;

s4、利用画像引擎在业务场景中即时刻画任务标签,依据任务标签进行画像刻画;

s5、将生成的图像刻画与各个应用对应起来,形成统一的应用管理体系,并针对不同的标签客户群体提供不同的服务。

kmeans聚类算法的具体步骤为:

随机选取k个对象作为初始的k个簇的质心;

将其余对象根据其与各个簇质心的距离分配到最近的簇,再求新形成簇的质心;

重复执行上述迭代重定位过程,直到目标函数最小化或者簇的质心不再变化为止。

其中,对象与各个簇质心的距离满足如下原则:

非负性:d(i,j)>0ifi≠j,andd(i,i)=0;

对称性:d(i,j)=d(j,i);

三角不等式:d(i,j)≤d(i,k)+d(k,j);

其中d(i,j)、d(j,i)以及d(i,k)、d(k,j)均为对象与簇质心之间的距离。

对象与簇质心之间的距离的计算方法包括:

根据闵可夫斯基距离公式计算对象与各个簇质心之间的距离,计算公式:

其中,i=(xi1,xi2,...,xip)和j=(xj1,xj2,...,xjp)是p维数据对象,xi1,xi2,...,xip以及xj1,xj2,...,xjp均为坐标值数据对象的坐标值,h为维度;

根据曼哈顿距离公式计算对象与各个簇质心之间的距离时,h=1,具体为:

d(i,j)=|xi1-xj1|+|xi2-xj2|+...+|xip-xjp|;

根据欧几里德距离公式计算对象与各个簇质心之间的距离时,h=2,具体为:

在kmeans聚类算法中,输入期望得到簇的数目k以及n个对象的数据库,输出使得平方误差准则函数最小化的k个簇。

有监督算法,如逻辑回归和决策树算法,在客户标签的预测过程中,使用有监督学习算法可使得标签预测结果更加精准。而无监督算法,如聚类算法,在使用过程中无需具有因变量,即可只针对自变量进行分群处理。

本发明通过将无监督算法和有监督算法结合使用的方式来解决无监督学习算法的模型低准确率和有监督学习的定义标签规则问题,首先通过聚类算法对客户信息数据进行聚类,对客户进行粗略分群,通过分群之后的数据结果进行数据探索分析,通过分析其中的规律来定义标签规则,定义标签规则之后,运用决策树算法和逻辑回归算法对预测数据进行标签预测计算。

在本实施方式中,电力客户画像是“互联网+电力营销”的典型应用之一,可以有效识别客户特征,洞悉客户需求,提供精准化、个性化的优质服务手段。

而电力客户标签则是客户画像的基本构成单元,通过分析用电信息采集系统、营销业务应用系统、电话客户服务系统等信息化系统中的用户台账、用电数据、缴费信息、gis数据等企业内部数据,结合商业信息点、互联网交易平台等外部数据,提取用户特征,制定基于业务需求的电力客户标签集合。

在本发明中,客户画像是一个系统的工程,基于业务分析需要的客户画像主题建立标签体系,通过数据挖掘技术构建隐性标签,利用画像引擎生成个人和群体的画像及分析,再到最终与各个应用系统的对接应用建设,逐步形成统一的应用管理体系、应用策略,确保标签使用价值。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1