一种基于客户属性及行为特征分析的客户细分方法

文档序号：6517355阅读：4171来源：国知局

一种基于客户属性及行为特征分析的客户细分方法
【专利摘要】本发明公开基于客户属性及行为特征分析的客户细分方法，其包括三个步骤：（1）数据预处理，根据选择的评价属性，对所有属性与评价属性之间进行相关性分析，去除属性集中的弱相关项与冗余项从而达到数据简化的目的。（2）群体聚类，用K-means算法将每个属性的原始数据划分为三个级别，再由基于密度可达的DBSCAN算法进行客户聚类，将所有客户大体上分为高，中，低三个等级。（3）行为特征聚类，用双聚类分别对步骤（2）的三个等级的聚类结果做行为特征聚类，采用基于了基于apriori的双聚类。通过上述步骤的结合完成对客户的行为特征细分。本发明能提供更为全局性的属性为行为特性分析提供基础，提高分类的精确性和细致性。
【专利说明】一种基于客户属性及行为特征分析的客户细分方法
【技术领域】
[0001]本发明涉及数据挖掘领域，具体涉及一种基于客户属性及行为特征分析的客户细分方法。
【背景技术】
[0002]现有的客户行为细分方法归纳起来，主要有以下几种:
[0003]基于RFM(Recency Frequency Monetary)模型行为细分的方法。
[0004]在RFM模型是衡量客户价值和客户创利能力的重要工具和手段。R (recency)指上次购买至现在的时间间隔，F (frequency)为某一期间内的购买次数，M (monetary)是某一期间内购买的金额。RFM分析针对每个客户的每个指标打分，然后计算三个指标的乘积，再按这个结果排序，在此基础上将所有的客户按照20%、60%、20%分类，最后对不同类型的客户实施不同的策略。
[0005]RFM分析的因素都是行为方面的，这次信息对于拥有数据库的公司来说比较容易获得，然而购买次数F和同期总购买额M两个变量之间会存在多重线性。另外该模型选择的属性太少，以致于不能很全面地对客户的行为特征进行细分。而且按照20%、60%、20%将客户分类的结果不一定能反映出客户的实际分类群体；只实现了客户群体这一维上的聚类，并不能体现出属性差距。
[0006]客户价值矩阵的方法:
[0007]该矩阵用包括客户代码、购买日期、日购买额等属性来进行客户行为细分。购买次数由不同购买日期的数目来确定，平均购买额等于在指定时间间隔内总购买额(日购买额的总和)与购买次数的比值。最终所有客户都分散在事先确定的二维矩阵的四个象限中，针对每一个客户群或跨越客户群产生不同的营销战略或战术。
[0008]它的缺点是也只局限于特定的属性，不能根据不同数据特点的属性集来选择属性。而且它所选择的属性不够全面，不能很好地对客户行为进行描述。另外它只实现了客户群体这一维上的聚类，只是全局性地聚类，不能对局部特征相似的群体进行聚类。

【发明内容】

[0009]本发明针对目前客户行为细分存在的不足和缺陷，提供一种结合属性选择、群体聚类和双聚类的方法来达到客户行为细分的目的，本发明通过如下技术方案实现。
[0010]该方法包括如下步骤:
[0011](I)数据预处理:首先，获取航空公司的会员数据矩阵，共有P个样本，每个样本有Q个属性，P、Q为大于I的正整数，其中每行代表一位客户亦为一条记录，每列代表客户的属性，其中每个元素代表公司对一个客户的行为评分；选择Q个属性中的一个作为分类属性，对剩下的Q-1个属性与分类属性之间进行相关性分析，去除Q个属性中的弱相关项与冗余项，得到属性集；
[0012](2)用K-means算法将上述得到的属性集中的每个元素的原始数据聚成L类，L为大于1的正整数，按数据的数值由小到大划分为L个级别，原先的数据值将由这些级别代替，得到新的属性集；然后采用基于密度可达的DBSCAN算法将新属性集中每个客户即是每条记录进行聚类；
[0013](3)行为特征聚类:用基于apriori的双聚类分别对步骤(2)的聚类结果做行为特征聚类，得到属性值相同、行为特征近似的客户属性矩阵；由客户属性矩阵可以得到某些属性数值相同，即行为表现相近，具有相似的行为习惯的客户群。
[0014]进一步地，步骤(1)中，选择Q个属性中的一个作为分类属性，再利用皮尔逊卡方统计量度量分类属性与剩下的Q-1个属性的相关性，按照相关性排列Q-1属性，并将属性划分为三个等级:强相关、相关、弱相关，去除上述弱相关属性及强相关属性中的冗余重复属性，选择出与分类属性相关并相互独立的属性，具体包括如下步骤:
[0015](1.1)选择分类属性后，利用列联表计算出Q-1属性与分类属性的皮尔逊卡方统
计量K，皮尔逊卡方统计量
【权利要求】
1.一种基于客户属性及行为特征分析的客户细分方法，其特征在于包括如下步骤: 步骤(I )，数据预处理:首先，获取航空公司的会员数据矩阵，共有P个样本，每个样本有Q个属性，P、Q为大于I的正整数，其中每行代表一位客户亦为一条记录，每列代表客户的属性，其中每个元素代表公司对一个客户的行为评分；选择Q个属性中的一个作为分类属性，对剩下的Q-1个属性与分类属性之间进行相关性分析，去除Q个属性中的弱相关项与冗余项，得到属性集；步骤(2)，群体聚类:用K-means算法将上述得到的属性集中的每个元素的原始数据聚成L类，L为大于I的正整数，按数据的数值由小到大划分为L个级别，原先的数据值将由这L个级别代替，得到新的属性集；然后采用基于密度可达的DBSCAN算法将新属性集中每个客户即每条记录进行聚类，得到若干类的客户群；步骤(3)，行为特征聚类:用基于apriori的双聚类分别对步骤(2)的聚类结果做行为特征聚类，得到属性值相同、行为特征近似的客户属性矩阵；由客户属性矩阵得到属性数值相同，即相应行为表现相近，具有部分行为习惯相似的客户群。
2.根据权利要求1所述的方法，其特征在于步骤(1)中，选择Q个属性中的一个作为分类属性，再利用皮尔逊卡方统计量度量分类属性与剩下的Q-1个属性的相关性，按照相关性排列Q-1属性，并将属性划分为三个等级:强相关、相关、弱相关，去除上述弱相关属性及强相关属性中的冗余重复属性，选择出与分类属性相关并相互独立的属性，具体包括如下步骤: (1.1)选择分类属性后，利用列联表计算出Q-1属性与分类属性的皮尔逊卡方统计量

>' (f1.// — f1- // )—K，皮尔逊卡方统计量尤=ΣΣ^~~其中，^表示列联表中第i行的数值总和，

/=1 M η.H1..Hj表示列联表中第j列的数值总和，nu表示表示列联表第i行第j列的数值，η表示列联表中所有数值的总和； (1.2)按照皮尔逊卡方统计量的大小，将所有属性聚成三类，即强相关子集(SSR)、相关子集(SR)、弱相关子集(SWR)，并选择强相关子集中K值最小的属性为最弱强相关属性FW，选择弱相关属性中K值最大的属性为最强弱相关属性FS ； (1.3)对于强相关属性子集SSR，按照与分类属性的K的大小，下面所述的下标i，j代表区别不同Q个属性中的其中一个属性表示方法，由大到小依次选择一个属性作为参照属性Fp遍历选择该集中的其它任意Q-2个属性为Fi,并计算Fi与参照属性的皮尔逊卡方统计量Ku ^ij表示属性。与Fi之间的卡方值；如果Ku大于或等于属性FW与分类属性的K值，则表示。与匕中有一个属性为冗余重复属性，删除与分类属性相关性较小的属性Fi ；当Fj完成与该子集中所有属性比较后，将Fj放入新的属性集即强相关约简属性子集SRSR，去除冗余重复属性后的SRSR作为强相关子集的子集，代替强相关子集进行后续运算；(1.4)把强相关约简属性子集SRSR和相关属性子集SR合并，得到属性集。
3.根据权利要求1或2所述的方法，其特征在于步骤(2)中所述采用基于密度可达的DBSCAN算法将新属性集中每个客户即每条记录进行聚类，是使用步骤(1)中所挖掘的属性集，将DBSCAN算法把该集合全局性地分为若干类，从含有噪声的上述数据集合中发现所有的聚类，具体包括如下步骤:(2.1)用k-dist图的方法，即为计算属性集中每条记录与其它记录的距离值，选出第K个最近邻居之间的距离，即为选出升序中的第K个记录，然后将所得结果画图，产生k-dist图，其中k-dist图中的横坐标则为距离值对应的记录对象的个数；纵坐标表示记录对象与它的第k个邻近对象间的距离，k取整个数据集的1/25，图中第一个凹陷即阈值为DBSCAN的半径； (2.2)从步骤(1)中所挖掘的属性集任意选取一个数据点X即为其中一条记录，检查数据点X的邻域内是否有超过某一阈值的点，其中邻域指选择数据点与剩余的数据点间的欧氏距离在步骤(2.1)中的选择半径范围内，所述某一阈值为设定值，若超过则将X定为核心点，其邻域则为一个类； (2.3)如果X是核心点而且没有被划分到步骤(2.2)所述的一个类，则找出所有从X密度可达的点，最终形成一个包含X的类；所述密度可达的点指X的领域内及领域内的核心点的领域的覆盖点； (2.4)如果X不是核心点，则被当做噪声处理； (2.5)重复以上三个步骤(2.2)~(2.4)直到所有的点都被处理，则可找出所有类。
4.根据权利要求1或2所述的方法，其特征在于步骤(3)进一步包括如下步骤: (3.1)输入要求挖掘的数据集合，即步骤(2)最后所挖掘的类，和挖掘阈值即每个子矩阵最少行数的值； (3.2)运用寻找频繁项双聚类方法，得出挖掘的频繁一项集，所述频繁一项集为包含客户一个属性和多条记录的一个集合，即是找出具有相同数值属性个数达到阈值的列； (3.3)通过拼接的方法，把上述所找出的一项频繁集合拼成二项频繁集合，所述二项频繁集合为包含客户两个属性和多条记录的一个集合，即判断两个一项频繁集相同客户数量是否达到阈值，若达到阈值则合并，否则不做处理，同理，由二项频繁集合，拼成三项频繁集合；直到拼接成η项频繁集合为止； (3.4)得到的所有频繁项集，对应所要的客户属性矩阵，其中每个一列对应一个属性，而且同个客户属性矩阵中每一列的数值相等，每条一行对应一个客户；由客户属性矩阵得到属性数值相同即行为表现相近，具有部分行为习惯相似的客户群。
【文档编号】G06Q30/02GK103559630SQ201310529336
【公开日】2014年2月5日申请日期:2013年10月31日优先权日:2013年10月31日
【发明者】陈建林, 吴晓声, 肖宇, 薛云, 蔡倩华, 胡晓晖申请人:华南师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈建林;吴晓声;肖宇;薛云;蔡倩华;胡晓晖
技术所有人：华南师范大学
我是此专利的发明人

上一篇：一种实现智能终端多窗口显示的方法及装置制造方法
上一篇：基于非局部均值的sar图像变化检测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。