一种基于客户属性及行为特征分析的客户细分方法

文档序号:6517355阅读:4171来源:国知局
一种基于客户属性及行为特征分析的客户细分方法
【专利摘要】本发明公开基于客户属性及行为特征分析的客户细分方法,其包括三个步骤:(1)数据预处理,根据选择的评价属性,对所有属性与评价属性之间进行相关性分析,去除属性集中的弱相关项与冗余项从而达到数据简化的目的。(2)群体聚类,用K-means算法将每个属性的原始数据划分为三个级别,再由基于密度可达的DBSCAN算法进行客户聚类,将所有客户大体上分为高,中,低三个等级。(3)行为特征聚类,用双聚类分别对步骤(2)的三个等级的聚类结果做行为特征聚类,采用基于了基于apriori的双聚类。通过上述步骤的结合完成对客户的行为特征细分。本发明能提供更为全局性的属性为行为特性分析提供基础,提高分类的精确性和细致性。
【专利说明】一种基于客户属性及行为特征分析的客户细分方法
【技术领域】
[0001]本发明涉及数据挖掘领域,具体涉及一种基于客户属性及行为特征分析的客户细分方法。
【背景技术】
[0002]现有的客户行为细分方法归纳起来,主要有以下几种:
[0003]基于RFM(Recency Frequency Monetary)模型行为细分的方法。
[0004]在RFM模型是衡量客户价值和客户创利能力的重要工具和手段。R (recency)指上次购买至现在的时间间隔,F (frequency)为某一期间内的购买次数,M (monetary)是某一期间内购买的金额。RFM分析针对每个客户的每个指标打分,然后计算三个指标的乘积,再按这个结果排序,在此基础上将所有的客户按照20%、60%、20%分类,最后对不同类型的客户实施不同的策略。
[0005]RFM分析的因素都是行为方面的,这次信息对于拥有数据库的公司来说比较容易获得,然而购买次数F和同期总购买额M两个变量之间会存在多重线性。另外该模型选择的属性太少,以致于不能很全面地对客户的行为特征进行细分。而且按照20%、60%、20%将客户分类的结果不一定能反映出客户的实际分类群体;只实现了客户群体这一维上的聚类,并不能体现出属性差距。
[0006]客户价值矩阵的方法:
[0007]该矩阵用包括客户代码、购买日期、日购买额等属性来进行客户行为细分。购买次数由不同购买日期的数目来确定,平均购买额等于在指定时间间隔内总购买额(日购买额的总和)与购买次数的比值。最终所有客户都分散在事先确定的二维矩阵的四个象限中,针对每一个客户群或跨越客户群产生不同的营销战略或战术。
[0008]它的缺点是也只局限于特定的属性,不能根据不同数据特点的属性集来选择属性。而且它所选择的属性不够全面,不能很好地对客户行为进行描述。另外它只实现了客户群体这一维上的聚类,只是全局性地聚类,不能对局部特征相似的群体进行聚类。

【发明内容】

[0009]本发明针对目前客户行为细分存在的不足和缺陷,提供一种结合属性选择、群体聚类和双聚类的方法来达到客户行为细分的目的,本发明通过如下技术方案实现。
[0010]该方法包括如下步骤:
[0011](I)数据预处理:首先,获取航空公司的会员数据矩阵,共有P个样本,每个样本有Q个属性,P、Q为大于I的正整数,其中每行代表一位客户亦为一条记录,每列代表客户的属性,其中每个元素代表公司对一个客户的行为评分;选择Q个属性中的一个作为分类属性,对剩下的Q-1个属性与分类属性之间进行相关性分析,去除Q个属性中的弱相关项与冗余项,得到属性集;
[0012](2)用K-means算法将上述得到的属性集中的每个元素的原始数据聚成L类,L为大于1的正整数,按数据的数值由小到大划分为L个级别,原先的数据值将由这些级别代替,得到新的属性集;然后采用基于密度可达的DBSCAN算法将新属性集中每个客户即是每条记录进行聚类;
[0013](3)行为特征聚类:用基于apriori的双聚类分别对步骤(2)的聚类结果做行为特征聚类,得到属性值相同、行为特征近似的客户属性矩阵;由客户属性矩阵可以得到某些属性数值相同,即行为表现相近,具有相似的行为习惯的客户群。
[0014]进一步地,步骤(1)中,选择Q个属性中的一个作为分类属性,再利用皮尔逊卡方统计量度量分类属性与剩下的Q-1个属性的相关性,按照相关性排列Q-1属性,并将属性划分为三个等级:强相关、相关、弱相关,去除上述弱相关属性及强相关属性中的冗余重复属性,选择出与分类属性相关并相互独立的属性,具体包括如下步骤:
[0015](1.1)选择分类属性后,利用列联表计算出Q-1属性与分类属性的皮尔逊卡方统
计量K,皮尔逊卡方统计量
【权利要求】
1.一种基于客户属性及行为特征分析的客户细分方法,其特征在于包括如下步骤: 步骤(I ),数据预处理:首先,获取航空公司的会员数据矩阵,共有P个样本,每个样本 有Q个属性,P、Q为大于I的正整数,其中每行代表一位客户亦为一条记录,每列代表客户的属性,其中每个元素代表公司对一个客户的行为评分;选择Q个属性中的一个作为分类属性,对剩下的Q-1个属性与分类属性之间进行相关性分析,去除Q个属性中的弱相关项与冗余项,得到属性集; 步骤(2),群体聚类:用K-means算法将上述得到的属性集中的每个元素的原始数据聚成L类,L为大于I的正整数,按数据的数值由小到大划分为L个级别,原先的数据值将由这L个级别代替,得到新的属性集;然后采用基于密度可达的DBSCAN算法将新属性集中每个客户即每条记录进行聚类,得到若干类的客户群; 步骤(3),行为特征聚类:用基于apriori的双聚类分别对步骤(2)的聚类结果做行为特征聚类,得到属性值相同、行为特征近似的客户属性矩阵;由客户属性矩阵得到属性数值相同,即相应行为表现相近,具有部分行为习惯相似的客户群。
2.根据权利要求1所述的方法,其特征在于步骤(1)中,选择Q个属性中的一个作为分类属性,再利用皮尔逊卡方统计量度量分类属性与剩下的Q-1个属性的相关性,按照相关性排列Q-1属性,并将属性划分为三个等级:强相关、相关、弱相关,去除上述弱相关属性及强相关属性中的冗余重复属性,选择出与分类属性相关并相互独立的属性,具体包括如下步骤: (1.1)选择分类属性后,利用列联表计算出Q-1属性与分类属性的皮尔逊卡方统计量

>' (f1.// — f1- // )—K,皮尔逊卡方统计量尤=ΣΣ^~~其中,^表示列联表中第i行的数值总和,

/=1 M η.H1..Hj表示列联表中第j列的数值总和,nu表示表示列联表第i行第j列的数值,η表示列联表中所有数值的总和; (1.2)按照皮尔逊卡方统计量的大小,将所有属性聚成三类,即强相关子集(SSR)、相关子集(SR)、弱相关子集(SWR),并选择强相关子集中K值最小的属性为最弱强相关属性FW,选择弱相关属性中K值最大的属性为最强弱相关属性FS ; (1.3)对于强相关属性子集SSR,按照与分类属性的K的大小,下面所述的下标i,j代表区别不同Q个属性中的其中一个属性表示方法,由大到小依次选择一个属性作为参照属性Fp遍历选择该集中的其它任意Q-2个属性为Fi,并计算Fi与参照属性的皮尔逊卡方统计量Ku ^ij表示属性。与Fi之间的卡方值;如果Ku大于或等于属性FW与分类属性的K值,则表示。与匕中有一个属性为冗余重复属性,删除与分类属性相关性较小的属性Fi ;当Fj完成与该子集中所有属性比较后,将Fj放入新的属性集即强相关约简属性子集SRSR,去除冗余重复属性后的SRSR作为强相关子集的子集,代替强相关子集进行后续运算;(1.4)把强相关约简属性子集SRSR和相关属性子集SR合并,得到属性集。
3.根据权利要求1或2所述的方法,其特征在于步骤(2)中所述采用基于密度可达的DBSCAN算法将新属性集中每个客户即每条记录进行聚类,是使用步骤(1)中所挖掘的属性集,将DBSCAN算法把该集合全局性地分为若干类,从含有噪声的上述数据集合中发现所有的聚类,具体包括如下步骤:(2.1)用k-dist图的方法,即为计算属性集中每条记录与其它记录的距离值,选出第K个最近邻居之间的距离,即为选出升序中的第K个记录,然后将所得结果画图,产生k-dist图,其中k-dist图中的横坐标则为距离值对应的记录对象的个数;纵坐标表示记录对象与它的第k个邻近对象间的距离,k取整个数据集的1/25,图中第一个凹陷即阈值为DBSCAN的半径; (2.2)从步骤(1)中所挖掘的属性集任意选取一个数据点X即为其中一条记录,检查数据点X的邻域内是否有超过某一阈值的点,其中邻域指选择数据点与剩余的数据点间的欧氏距离在步骤(2.1)中的选择半径范围内,所述某一阈值为设定值,若超过则将X定为核心点,其邻域则为一个类; (2.3)如果X是核心点而且没有被划分到步骤(2.2)所述的一个类,则找出所有从X密度可达的点,最终形成一个包含X的类;所述密度可达的点指X的领域内及领域内的核心点的领域的覆盖点; (2.4)如果X不是核心点,则被当做噪声处理; (2.5)重复以上三个步骤(2.2)~(2.4)直到所有的点都被处理,则可找出所有类。
4.根据权利要求1或2所述的方法,其特征在于步骤(3)进一步包括如下步骤: (3.1)输入要求挖掘的数据集合,即步骤(2)最后所挖掘的类,和挖掘阈值即每个子矩阵最少行数的值; (3.2)运用寻找频繁项双聚类方法,得出挖掘的频繁一项集,所述频繁一项集为包含客户一个属性和多条记录 的一个集合,即是找出具有相同数值属性个数达到阈值的列; (3.3)通过拼接的方法,把上述所找出的一项频繁集合拼成二项频繁集合,所述二项频繁集合为包含客户两个属性和多条记录的一个集合,即判断两个一项频繁集相同客户数量是否达到阈值,若达到阈值则合并,否则不做处理,同理,由二项频繁集合,拼成三项频繁集合;直到拼接成η项频繁集合为止; (3.4)得到的所有频繁项集,对应所要的客户属性矩阵,其中每个一列对应一个属性,而且同个客户属性矩阵中每一列的数值相等,每条一行对应一个客户;由客户属性矩阵得到属性数值相同即行为表现相近,具有部分行为习惯相似的客户群。
【文档编号】G06Q30/02GK103559630SQ201310529336
【公开日】2014年2月5日 申请日期:2013年10月31日 优先权日:2013年10月31日
【发明者】陈建林, 吴晓声, 肖宇, 薛云, 蔡倩华, 胡晓晖 申请人:华南师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1