消息推送方法、装置、设备和存储介质与流程

文档序号：25780627发布日期：2021-07-09 09:22阅读：100来源：国知局

1.本申请涉及通信技术领域，尤其涉及一种消息推送方法、装置、设备和存储介质。

背景技术：

2.对于石油石化企业而言，对于石油客户的营销活动通常是通过群发营销信息完成。这种消息推送，带来的客户消费转化率不高。

技术实现要素：

3.本申请实施例提供了一种消息推送方法、装置、设备和存储介质，提高消息推送的消费转化率。所述技术方案如下：
4.一方面，提供了一种消息推送方法，所述方法包括：
5.获取多个石油客户的石油客户数据，所述石油客户数据以下数据项目包括用户基本属性数据、用户行为数据、用户所属组织机构数据、用户购买的产品数据，每个数据项目包括多项数据指标；
6.基于所述石油客户数据生成具有石油行业特征的多项衍生数据指标；
7.基于所述具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，得到多个一级石油客户类别，不同所述一级石油客户类别的所述石油客户的客户价值高低不同；
8.基于所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标，进行聚类分析，得到多个二级石油客户类别；
9.基于所述一级石油客户类别和所述多个二级石油客户类别，向所述石油客户推送与所述类别对应的消息。
10.可选地，基于所述石油客户数据生成具有石油行业特征的多项衍生数据指标，包括：
11.计算每个所述石油客户的异常性测度指标；
12.基于所述异常性测度指标剔除，剔除部分异常石油客户，对剩余客户石油客户数据生成如下所述的具有石油行业特征的多项衍生数据指标。
13.可选地，计算每个所述石油客户的异常性测度指标，包括：
14.采用如下公式计算异常性测度指标ai
s
：
15.采用如下公式计算异常性测度指标ai
s
：
[0016][0017]
其中，gdi
s
＝d(v,s)＝ξ
v-ξ
<v,s>
；
[0018][0019]
[0020][0021]
其中，gdi
s
为根据极大似然距离计算的客户s引起的第类别v内差异增大量，n
v
为类别v的石油客户总数，vdi
k1
反映客户的第k1个数值类变量对类内差异的贡献，以方差测度，ξ
v
为客户s加入类别v之前类别v的对数似然距离，ξ
<v,s>
为客户s加入类别v之后类别v的对数似然距离，k
a
为数值类变量个数，vdi
k2
反映客户的第k2个分类型变量对类内差异的贡献，以信息熵测度，k
b
为分类型变量个数，为第k1个数值类变量的总方差，为第k1个数值类变量在第类别v中的方差，l
k2
为第k2个分类型变量的类别数，l为第k2个分类型变量的第l个类别，n
v
k2l为类别v中第k2个分类型变量取第l个类别的样本量；其中，变量为所述数据指标。
[0022]
可选地，对剩余客户石油客户数据生成如下所述的具有石油行业特征的多项衍生数据指标，包括：
[0023]
基于所述石油客户数据得到多项额外指标；
[0024]
采用主成分分析法所述石油客户数据中的多项数据指标和计算得到的所述多项额外指标进行筛选。
[0025]
可选地，所述多项衍生数据指标包括：
[0026]
交易金额、月消费金额、产品交易量、月均交易次数均值、交易间隔均值、交易过的月份、卡片余额、去过的油站数量、常去加油站、会员时长、客户流失情况、白天消费占比、加满率、价格敏感度。
[0027]
可选地，基于所述具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，包括：
[0028]
对所述多个石油客户的月消费金额进行排序；
[0029]
按照排序后的所述多个石油客户的排名分位数，将所述多个石油客户分类。
[0030]
可选地，基于所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标，进行聚类分析，包括：
[0031]
将所述数据指标和所述衍生数据指标作为变量，采用k-means方法对所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标进行聚类分析。
[0032]
一方面，提供了一种消息推送装置，所述装置包括：
[0033]
获取模块，被配置为获取多个石油客户的石油客户数据，所述石油客户数据以下数据项目包括用户基本属性数据、用户行为数据、用户所属组织机构数据、用户购买的产品数据，每个数据项目包括多项数据指标；
[0034]
指标生成模块，被配置为基于所述石油客户数据生成具有石油行业特征的多项衍生数据指标；
[0035]
一级分类模块，被配置为基于所述具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，得到多个一级石油客户类别，不同所述一级石油客户类别的所述石油客户的客户价值高低不同；
[0036]
二级分类模块，被配置为基于所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标，进行聚类分析，得到多个二级石油客户类别；
[0037]
推送模块，被配置为基于所述一级石油客户类别和所述多个二级石油客户类别，
向所述石油客户推送与所述类别对应的消息。
[0038]
可选地，所述指标生成模块，包括：
[0039]
计算子模块，被配置为计算每个所述石油客户的异常性测度指标；
[0040]
生成子模块，被配置为基于所述异常性测度指标剔除，剔除部分异常石油客户，对剩余客户石油客户数据生成如下所述的具有石油行业特征的多项衍生数据指标。
[0041]
可选地，所述计算子模块，被配置为采用如下公式计算异常性测度指标ai
s
：
[0042]
采用如下公式计算异常性测度指标ai
s
：
[0043][0044]
其中，gdi
s
＝d(v,s)＝ξ
v-ξ
<v,s>
；
[0045][0046][0047][0048]
其中，gdi
s
为根据极大似然距离计算的客户s引起的第类别v内差异增大量，n
v
为类别v的石油客户总数，vdi
k1
反映客户的第k1个数值类变量对类内差异的贡献，以方差测度，ξ
v
为客户s加入类别v之前类别v的对数似然距离，ξ
<v,s>
为客户s加入类别v之后类别v的对数似然距离，k
a
为数值类变量个数，vdi
k2
反映客户的第k2个分类型变量对类内差异的贡献，以信息熵测度，k
b
为分类型变量个数，为第k1个数值类变量的总方差，为第k1个数值类变量在第类别v中的方差，l
k2
为第k2个分类型变量的类别数，l为第k2个分类型变量的第l个类别，n
v
k2l为类别v中第k2个分类型变量取第l个类别的样本量；其中，变量为所述数据指标。
[0049]
可选地，所述生成子模块，被配置为基于所述石油客户数据得到多项额外指标；采用主成分分析法所述石油客户数据中的多项数据指标和计算得到的所述多项额外指标进行筛选。
[0050]
可选地，所述多项衍生数据指标包括：
[0051]
交易金额、月消费金额、产品交易量、月均交易次数均值、交易间隔均值、交易过的月份、卡片余额、去过的油站数量、常去加油站、会员时长、客户流失情况、白天消费占比、加满率、价格敏感度。
[0052]
可选地，所述一级分类模块，被配置为对所述多个石油客户的月消费金额进行排序；按照排序后的所述多个石油客户的排名分位数，将所述多个石油客户分类。
[0053]
可选地，所述二级分类模块，被配置为将所述数据指标和所述衍生数据指标作为变量，采用k-means方法对所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标进行聚类分析。
[0054]
一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述消息推送方法。
[0055]
一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有至少
一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述消息推送方法。
[0056]
本申请实施例提供的技术方案带来的有益效果至少包括：
[0057]
在本申请实施例中，通过将获取到的石油客户的数据转换成具有石油行业特色的多项衍生数据指标，使得后续可以基于这里的衍生数据指标对客户进行分类。然后，采用具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，划分出具有不同客户价值的石油客户群；同时，基于石油客户数据中的多项数据指标和具有石油行业特征的多项衍生数据指标，进行聚类分析，得到多个二级石油客户类别，划分出具有相同特性的客户群。最后，基于两次分类的结果，向石油客户推送与类别对应的消息。该消息推送同时关联了两次分类的结果，这样，相比于群发消息，推送的消息与客户匹配性更强，从而使得客户消费转化率更高。
附图说明
[0058]
为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0059]
图1为本申请一个示意性实施例的消息推送方法的流程示意图；
[0060]
图2为本申请一个示意性实施例的消息推送方法的流程示意图；
[0061]
图3为本申请实施例的消息推送装置的结构框图；
[0062]
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0063]
为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。
[0064]
图1为本申请一个示意性实施例的消息推送方法的流程示意图。如图1所示，该方法可以包括：
[0065]
在步骤101中：获取多个石油客户的石油客户数据。
[0066]
其中，石油客户数据以下数据项目包括用户基本属性数据、用户行为数据、用户所属组织机构数据、用户购买的产品数据，每个数据项目包括多项数据指标。
[0067]
示例性地，用户基本属性数据可以包括用户的姓名、性别、年龄、学历、婚姻情况、联系方式、住址、车辆信息等。用户行为数据可以包括：用户注册行为数据，例如会员注册地点、注册时间、卡号等，还可以包括用户消费行为数据，例如，消费记录，包括时间、地点、商品、金额等。用户所属组织机构数据可以包括用户单位名称、地址和联系方式等。用户购买的产品数据可以包括95号/97号汽油、92号/93号汽油、各种非汽油产品等。
[0068]
在步骤102中：基于所述石油客户数据生成具有石油行业特征的多项衍生数据指标。
[0069]
基于石油客户数据可以生成交易金额、月消费金额、产品交易量、月均交易次数均值、交易间隔均值、交易过的月份、卡片余额、去过的油站数量、常去加油站、会员时长、客户
流失情况、白天消费占比、加满率、价格敏感度等衍生数据指标。这些衍生数据指标涉及消费行为、用户忠诚情况、购买访问信息等多个类别的指标。
[0070]
在步骤103中，基于所述具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，得到多个一级石油客户类别。
[0071]
这里，不同所述一级石油客户类别的所述石油客户的客户价值高低不同。
[0072]
在步骤104中，基于所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标，进行聚类分析，得到多个二级石油客户类别。
[0073]
在步骤105中，基于所述一级石油客户类别和所述多个二级石油客户类别，向所述石油客户推送与所述类别对应的消息。
[0074]
这里的消息通常是针对石油客户的营销消息，例如销售活动消息、打折消息等。该营销消息可以和营销活动配合，从而展开针对不同类别石油客户的营销方案。示例性地，在加油站进行营销活动时，可以按照营销活动的主题，从一级石油客户类别和多个二级石油客户类别中选择符合的用户，然后向选择出的用户发送营销消息。如，加油站进行汽油的大额消费打折活动时，可以向一级石油客户类别为高，二级石油客户类别为“高品质潜力”、“高频高额型”等的客户发送营销消息。这样，避免信息发送到不合适的客户，一方面避免了流量浪费，节约了通信成本，另一方面，还避免造成客户的反感，保证了营销质量。
[0075]
在本申请实施例中，在本申请实施例中，通过将获取到的石油客户的数据转换成具有石油行业特色的多项衍生数据指标，使得后续可以基于这里的衍生数据指标对客户进行分类。然后，采用具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，划分出具有不同客户价值的石油客户群；同时，基于石油客户数据中的多项数据指标和具有石油行业特征的多项衍生数据指标，进行聚类分析，得到多个二级石油客户类别，划分出具有相同特性的客户群。最后，基于两次分类的结果，向石油客户推送与类别对应的消息。该消息推送同时关联了两次分类的结果，这样，相比于群发消息，推送的消息与客户匹配性更强，从而使得客户消费转化率更高。
[0076]
图2为本申请一个示意性实施例的消息推送方法的流程示意图。如图2所示，该方法可以包括：
[0077]
在步骤201中，获取多个石油客户的石油客户数据。
[0078]
其中，石油客户数据以下数据项目包括用户基本属性数据、用户行为数据、用户所属组织机构数据、用户购买的产品数据，每个数据项目包括多项数据指标。
[0079]
示例性地，用户基本属性数据可以包括用户的姓名、性别、年龄、学历、婚姻情况、联系方式、住址、车辆信息等。用户行为数据可以包括：用户注册行为数据，例如会员注册地点、注册时间、卡号等，还可以包括用户消费行为数据，例如，消费记录，包括时间、地点、商品、金额等。用户所属组织机构数据可以包括用户单位名称、地址和联系方式等。用户购买的产品数据可以包括95号/97号汽油、92号/93号汽油、各种非汽油产品等。
[0080]
在步骤202中，对多个石油客户的石油客户数据进行预处理。
[0081]
在本公开实施例中，该步骤可以包括：将具有缺失值以及异常值的石油客户的石油客户数据删除。对剩余的石油客户的石油客户数据进行数据归一化处理。
[0082]
这里，缺失值是指存在部分数据指标缺失，异常值则是存在部分数据指标的值在阈值范围之外。
[0083]
数据归一化处理可以是将石油客户数据中的各个指标都归一化到[0,1]这个数值范围内，从而解决不同数据指标间的可比性问题。
[0084]
在步骤203中，计算每个所述石油客户的异常性测度指标。
[0085]
在本公开实施例中，可以采用如下公式(1)计算异常性测度指标ai
s
：
[0086][0087]
其中，gdi
s
＝d(v,s)＝ξ
v-ξ
<v,s>
；
[0088][0089][0090][0091]
其中，gdi
s
为根据极大似然距离计算的客户s引起的第类别v(也即异常聚类的第v个类别)内差异增大量，n
v
为类别v的石油客户总数，i是类别v的石油客户序号(1～n
v
)，vdi
k1
反映客户的第k1个数值类变量对类内差异的贡献，以方差测度，ξ
v
为客户s加入类别v之前类别v的对数似然距离，ξ
<v,s>
为客户s加入类别v之后类别v的对数似然距离，k
a
为数值类变量个数，vdi
k2
反映客户的第k2个分类型变量对类内差异的贡献，以信息熵测度，k
b
为分类型变量个数，为第k1个数值类变量的总方差，为第k1个数值类变量在第类别v中的方差，l
k2
为第k2个分类型变量的类别数，l为第k2个分类型变量的第l个类别，例如性别这一变量有2个类别，则l
k2
为2，n
v
k2l为类别v中第k2个分类型变量取第l个类别的样本量；其中，变量为所述数据指标。
[0092]
这里，数值类变量为值是数值的指标，例如时间、金额、升数等等。而分类型变量则是值是类型的指标，例如性别、学历、婚姻情况等。
[0093]
这里，异常聚类的类别可以是在上述计算过程中逐渐形成的，例如，对于第类别v，开始不包括客户，按照上述方式逐个加入客户，并根据加入客户前后的对数似然距离变化，确定该客户是否为立群点(也即判断属于该类)，最终形成第类别v，按照该方法可以实现聚类，进而将异常客户找出来。
[0094]
在本公开实施例中，异常性测度指标越大，石油客户为异常点的可能性越大，通常设定为大于2的石油客户是异常客户。
[0095]
在本公开实施例中，该方法还可以包括：计算异常石油客户的石油客户数据的各项指标的变量贡献指标，该变量贡献指标反映该指标对差异贡献的比例，该值越大，该变量导致客户异常的可能性越大，取变量贡献指标最大的3个指标作为客户异常原因。后续可以基于客户异常原因对客户进行定制服务，例如，交易金额过大，可以采取对客户进行单笔限额的定制服务，保证客户财产安全等。
[0096]
这里，变量贡献指标vcm
s
可以按照如下方式计算：
[0097][0098]
在步骤204中，基于所述异常性测度指标剔除，剔除部分异常石油客户，对剩余客户石油客户数据生成如下所述的具有石油行业特征的多项衍生数据指标。
[0099]
在本公开实施例中，可以将异常性测度指标大于2的石油客户剔除。
[0100]
在本公开实施例中，对剩余客户石油客户数据生成如下所述的具有石油行业特征的多项衍生数据指标，可以包括：
[0101]
基于所述石油客户数据得到多项额外指标；
[0102]
采用主成分分析法所述石油客户数据中的多项数据指标和计算得到的所述多项额外指标进行筛选。
[0103]
这里的额外指标，是指基于石油客户数据中的数据指标计算得到，或者从石油客户数据中统计得到。多项衍生数据指标是从数据指标和额外指标中选出的，其中既有数据指标也有额外指标。
[0104]
例如，基于石油客户数据计算的得到月均交易次数均值、交易金额均值、加满率、白天消费占比、产品交易量占比、等，统计得到常去加油站等。
[0105]
在本公开实施例中，所述多项衍生数据指标包括：
[0106]
交易金额、月消费金额、产品交易量、月均交易次数均值、交易间隔均值、交易过的月份、卡片余额、去过的油站数量、常去加油站、会员时长、客户流失情况、白天消费占比、加满率、价格敏感度。这些衍生数据指标涉及消费行为、用户忠诚情况、购买访问信息等多个类别的指标。
[0107]
其中，交易金额、月消费金额、月均交易次数均值均可以基于用户消费记录统计得到。产品交易量可以包括柴油升数、95号/97号汽油升数、92号/93号汽油升数等。交易间隔均值根据购买时间进行排序，计算相邻两次购买时间的天数间隔，之后根据计算间隔的平均值。卡片余额取当前余额。去过的油站数量是指过去一年内交易过的加油站的总数。常去加油站是指最常去的加油站。客户流失情况根据客户最近一次交易时间分成流失客户、濒临流失客户、不活跃客户、活跃客户。白天交易占比则计算早上6点至晚上21点的交易量与总交易量的比值。加满率＝加满次数/加油总次数，其中加满比＝油量升数/油量升数_最大值，加满比大于0.8即为加满。价格敏感度则考虑用户加油量变化和加油价格变化的关系，x代表油量，y代表油品价格，价格敏感度q＝p((x1-x2)(y1-y2)>0)-p((x1-x2)(y1-y2)<0),取值在[-1,1]之间。定义价格敏感度小于等于-0.6时，客户为高敏感；-0.6至-0.3之间时，客户为中敏感。-0.3至0时，客户为低敏感。大于等于0时，为不敏感。这里，涉及到的计算这些衍生数据指标的原始数据(数据指标)均可以从石油客户数据中得到。
[0108]
其中，x1、x2分别为客户第一次购买的油量和第二次购买的油量；y1、y2分别为客户第一次购买油量对应的油品价格和第二次购买油量对应的油品价格；p为出现该情况时的概率，这里为出现相同情况的次数占总次数的比值。
[0109]
下表1示出了多项衍生数据指标的示例：
[0110]
表1
[0111][0112]
这里，采用采用主成分分析法所述石油客户数据中的多项数据指标进行筛选，可以包括：
[0113]
利用最大方差法确定出多个待选择的主成分；利用kaiser-harris准则和累计贡献率从待选择的主成分中提取本申请使用的主成分。
[0114]
最大方差法：通过对多维向量进行线性转换得y＝ax，其中：y＝(y1,y2,
……
y
p
)为主成分矩阵，a＝(a
′1,a
′2,
……
a
′
p
)，x＝(x1,x2,x3,
…
..x
p
)分别为系数矩阵、原始变量矩阵。当取a1＝t1时根据谱分解即求得第一主成分为y1＝t
′1x，具有最大方差γ1，同理依次求得第二主成分y2＝t
′2x，具有最大方差γ2，
……
。各个主成分为不相关变量。其中∑(非负定矩阵)的特征值即为γ1≥γ2≥
…
γ
p
≥0，δ＝diag(γ1，γ2，
…
γ
p
)，t、t’为单位特征向量组成的矩阵，单位特征向量为t1,t2……
t
p
，相互正交，ti’为单位特征向量，对主成分矩阵进行因子旋转得出因子载荷矩阵，通过载荷相关系数判断主成分与变量间的相关性，从而进行变量的筛选降维。
[0115]
在本公开实施例中，kaiser-harris准则为选取主成分的依据，例如保留特征值大于1的主成分，其他排除。累计贡献率反映选取的主成分累计能够解释原始变量信息的百分
比，如80％-90％。结合kaiser-harris准则和累计贡献率可以完成主成分的选取。
[0116]
其中，累计贡献率采用公式(3)计算：
[0117][0118]
也即p个主成分(也即所有的指标)y1,y2,
……
y
p
中前m个主成分的解释能力，通常使用贡献率达到一个较高的百分比(80％-90％)来确定m值，使得解释原始变量信息损失不多，这里的γ
i
表示单位特征向量对应的特征值，可以基于最大方差得到。
[0119]
例如，选取累计贡献率80％的多个指标，下表2示出了累计贡献率示例：
[0120]
表2
[0121][0122][0123]
其中，初始特征值为所计算的所有变量的特征值，也为所有主成分对应的方差；提取载荷平方和为提取的主成分；旋转载荷平方和为使用最大方差法进行正交旋转以后提取的主成分。载荷指的是第k个主成分在第i个原始变量上的系数，度量了原始变量对提取的主成分的重要程度。载荷平方和反映了主成分对原始变量的贡献率。
[0124]
总计为第k个主成分对应的方差，方差百分比为第k个主成分对应的方差在总体方差占比，为贡献率。
[0125]
在步骤205中，基于所述具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，得到多个一级石油客户类别。
[0126]
这里，不同所述一级石油客户类别的所述石油客户的客户价值高低不同。
[0127]
在本公开实施例中，该步骤可以包括：
[0128]
对所述多个石油客户的月消费金额进行排序；
[0129]
按照排序后的所述多个石油客户的排名分位数，将所述多个石油客户分类。
[0130]
例如，对剩余客户按照月消费金额进行排序，并将月均消费金额进行分级处理，按照分位数的原理，月均消费金额>＝q_0.85的客户为高价值客户。月均消费金额>＝q_0.15且月均消费金额<q_0.85的客户为中价值客户。月均消费金额<q_0.15的客户为低价值客户。这里的0.15是指排名从低到高，15％的位置，0.85是指排名从低到高，85％的位置。
[0131]
除了按照月均消费金额进行分类外，还可以结合交易次数，例如，高价值客户和中价值客户还需要满足一年内交易次数不小于5次，也只只要一年内交易次数小于5，无论月均消费金额均视为低价值客户。
[0132]
下表3示出了一级石油客户类别的示例：
[0133]
表3
[0134]
编号一级分群1****329高价值1****638中价值1****711中价值1****723中价值1****195中价值1****202中价值1****119低价值1****736低价值
[0135]
在步骤206中，基于所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标，进行聚类分析，得到多个二级石油客户类别。
[0136]
在本公开实施例中，可以对一级分类中的高价值客户和中价值客户进行二级分类。也即这里只对高价值客户和中价值客户的石油客户数据进行聚类分析。
[0137]
在本公开实施例中，该步骤可以包括：
[0138]
将所述数据指标和所述衍生数据指标作为变量，采用k-means方法对所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标进行聚类分析。
[0139]
这里，其中k-means聚类采用如下公式(4)：
[0140][0141]
该公式为欧氏距离公式，d
ij
为客户i和客户j的亲疏程度，也即客户的差异度。差异越小，越亲密，可聚成一类。其中x
ik
为客户i的第k个变量，x
jk
为客户j的第k个变量，通过探索确定聚类数目，采用随机选择法确定若干客户样本为初始类中心，计算每个客户点到每个初始类中心的距离，将距离最近的聚成一类，再以均值作为类中心，不断调整类中心，使得最终聚成实际最后从而实现客户群的聚类。
[0142]
在聚类前可以先确定聚类数目，也即聚为几类。聚类数目通过轮廓系数来进行最终的确定，轮廓系数反映聚类质量，选择轮廓系数高的值确定聚类数目。轮廓系数可以采用
轮廓系数计算的公式得到，这里不做准输。
[0143]
下表4以高价值客户为例，列举聚类个数以及对应的轮廓系数：
[0144]
表4
[0145]
聚类个数4567轮廓系数0.4040.3770.3750.371
[0146]
可以看出当聚类个数为4时，轮廓系数最大为0.404.故最优聚类个数为4。此时可以将高价值石油客户分为4类：
[0147]
聚类1：传统中产型，该类客户属于高品质客户，单笔加油金额均值高，每月消费金额较高，频次较高，喜欢购买非油品，但去过加油站点少，相对固定。
[0148]
聚类2：进取商务型，该类客户属于高品质油品客户，单笔加油金额均值高，每月消费金额较高，频次较高，喜欢购买非油品，去过加油站点多，相对分散，应酬较多，属于经常出动跑业务的商务型客户。
[0149]
聚类3：私营业主型，该类客户属于低品质油品客户，单笔加油金额均值不高，但每月消费金额较高，频次较高，喜欢购买非油品，但去过加油站点少，相对固定，属于稳固型高消费客户。
[0150]
聚类4：拉活挣钱型，该类客户属于低品质油品客户，单笔加油金额均值不高，但每月消费金额较高，频次较高，喜欢购买非油品，去过加油站点多，相对分散，活动范围广，属于变动型高消费客户。
[0151]
最后结合一级分类、二级分类，将石油客户划分成以下20个类别，如下表5所示：
[0152]
表5
[0153][0154][0155]
在步骤207中，基于所述一级石油客户类别和所述多个二级石油客户类别，向所述石油客户推送与所述类别对应的消息。
[0156]
例如，对于高价值、私营业主性的石油客户，可以推送与之对应的营销消息。
[0157]
本公开实施例在变量选择时，利用主成分分析法，利用降维的思想，把输入聚类算法的多个指标转化为月均消费金额、价格敏感度、主要消费产品型号、去过加油站数量等13个综合指标，用来解释多变量的方差和协方差结构，以87％的原始变量代表率成为其他变量的线性组合，该方法可以有效减少进入聚类算法数据的稀疏性，降低模型过拟合的风险，
提高聚类算法的准确程度，为后续分类的全面性提供了良好支撑。采用k-means算法进行二级客户分群，保证客户群体划分的准确性。同时针对于普通k-means应用时存在的明显缺点进行改进。如数据中存在噪声点，这个噪音点独立成一个类，很显然，如果k＝2，其余点是一类，噪音点自成一类，原本可以区分出来的点被噪音点影响，成为了一类了；如果k＝3，噪音点也是自成一类，剩下的数据分成两类。由此可看出噪声点会极大的影响其他点的分类，在本方案中对异常客户的筛查，可有效降低噪声点对聚类算法的影响。
[0158]
下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。
[0159]
图3为本申请实施例的消息推送装置的结构框图。该装置可以实现成为电子设备的全部或一部分。如图3所示，该装置包括：获取模块301、指标生成模块302、一级分类模块303、二级分类模块304和推送模块305。
[0160]
其中，获取模块301，被配置为获取多个石油客户的石油客户数据，所述石油客户数据以下数据项目包括用户基本属性数据、用户行为数据、用户所属组织机构数据、用户购买的产品数据，每个数据项目包括多项数据指标；
[0161]
指标生成模块302，被配置为基于所述石油客户数据生成具有石油行业特征的多项衍生数据指标；
[0162]
一级分类模块303，被配置为基于所述具有石油行业特征的多项衍生数据指标对所述多个石油客户进行一级分类，得到多个一级石油客户类别，不同所述一级石油客户类别的所述石油客户的客户价值高低不同；
[0163]
二级分类模块304，被配置为基于所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标，进行聚类分析，得到多个二级石油客户类别；
[0164]
推送模块305，被配置为基于所述一级石油客户类别和所述多个二级石油客户类别，向所述石油客户推送与所述类别对应的消息。
[0165]
可选地，所述指标生成模块302，包括：
[0166]
计算子模块321，被配置为计算每个所述石油客户的异常性测度指标；
[0167]
生成子模块322，被配置为基于所述异常性测度指标剔除，剔除部分异常石油客户，对剩余客户石油客户数据生成如下所述的具有石油行业特征的多项衍生数据指标。
[0168]
可选地，所述计算子模块321，被配置为采用如下公式计算异常性测度指标ai
s
：
[0169]
采用如下公式计算异常性测度指标ai
s
：
[0170][0171]
其中，gdi
s
＝d(v,s)＝ξ
v-ξ
<v,s>
；
[0172][0173][0174][0175]
其中，gdi
s
为根据极大似然距离计算的客户s引起的第类别v内差异增大量，n
v
为类别v的石油客户总数，vdi
k1
反映客户的第k1个数值类变量对类内差异的贡献，以方差测度，
ξ
v
为客户s加入类别v之前类别v的对数似然距离，ξ
<v,s>
为客户s加入类别v之后类别v的对数似然距离，k
a
为数值类变量个数，vdi
k2
反映客户的第k2个分类型变量对类内差异的贡献，以信息熵测度，k
b
为分类型变量个数，为第k1个数值类变量的总方差，为第k1个数值类变量在第类别v中的方差，l
k2
为第k2个分类型变量的类别数，l为第k2个分类型变量的第l个类别，n
v
k2l为类别v中第k2个分类型变量取第l个类别的样本量；其中，变量为所述数据指标。
[0176]
可选地，所述生成子模块322，被配置为基于所述石油客户数据得到多项额外指标；采用主成分分析法所述石油客户数据中的多项数据指标和计算得到的所述多项额外指标进行筛选。
[0177]
可选地，所述多项衍生数据指标包括：
[0178]
交易金额、月消费金额、产品交易量、月均交易次数均值、交易间隔均值、交易过的月份、卡片余额、去过的油站数量、常去加油站、会员时长、客户流失情况、白天消费占比、加满率、价格敏感度。
[0179]
可选地，所述一级分类模块303，被配置为对所述多个石油客户的月消费金额进行排序；按照排序后的所述多个石油客户的排名分位数，将所述多个石油客户分类。
[0180]
可选地，所述二级分类模块304，被配置为将所述数据指标和所述衍生数据指标作为变量，采用k-means方法对所述石油客户数据中的多项数据指标和所述具有石油行业特征的多项衍生数据指标进行聚类分析。
[0181]
本申请实施例还提供了一种电子设备，该电子设备可以是前述终端或服务器。该电子设备可以包括处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述方法。
[0182]
图4是本申请实施例提供的一种电子设备的结构示意图。参见图4，电子设备400包括中央处理单元(central processing unit，cpu)401、包括随机存取存储器(random access memory，ram)402和只读存储器(read-only memory，rom)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。电子设备400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(input/output，i/o系统)406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。
[0183]
基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。
[0184]
大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为电子设备400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者cd-rom驱动器之类的计算机可读介质(未示出)。
[0185]
不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何
方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(erasable programmable read only memory，eprom)、带电可擦可编程只读存储(electrically erasable programmable read only memory，eeprom)、闪存或其他固态存储其技术，只读光盘(compact disc read-only memory，cd-rom)、数字通用光盘(digital video disc，dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。
[0186]
根据本公开的各种实施例，电子设备400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即电子设备400可以通过连接在系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。
[0187]
上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由cpu执行。cpu 401通过执行该一个或一个以上程序来实现前述消息推送方法。
[0188]
本领域技术人员可以理解，图4中示出的结构并不构成对电子设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0189]
本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的方法。例如，所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0190]
本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的方法。
[0191]
应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0192]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0193]
以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张曦;郝晶;隋毅;王洪旭;骆科东;陈旭
技术所有人：中国石油天然气股份有限公司
我是此专利的发明人

上一篇：一种用于建筑设计的抗震结构的制作方法
上一篇：一种防水抗菌面料及其生产工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。