一种基于聚类算法的通信用户消费趋势检测方法与流程

文档序号:11952947阅读:518来源:国知局
一种基于聚类算法的通信用户消费趋势检测方法与流程

本使用新型专利涉及通信行业用户消费趋势的特征分析;



背景技术:

有关时间序列的分析被广泛地应用于科学研究、工程应用乃至社会、经济领域;时间序列分析建模基于一定数据假设,比如服从某平稳过程ARMA模型,或者经过差分处理的平稳过程ARIMA模型;但是,这些模型假设很难完全应用于实际的电信客户消费序列分析中;总体上看,客户的通信消费应当是一个稳定的过程,但是由于竞争对手、替代服务、以及其它不确定、突变的因素都不同程度对客户通信消费产生影响;

我们提取出一组客户消费序列,以下是通用用户消费趋势的分类以及抽样图形展示:

相对稳定的消费序列,如附图1、附图2;

趋势稳定但波动较大的消费序列,如附图3、附图4;

有明显时序倾向的消费序列,如附图5、附图6;

通信用户消费并不符合“高斯独立同分布”(I.I.D)假设,主要原因是:虽然客户消费存一定的随机性,但大多数消费序列都体现出一定连续性,与前一段时间的消费成一定相关性,并非完全的“噪声”分布;采用基于时间滑动窗口的识别手段也不理想,难以确定合适的窗口大小,统计结果表现很大的随机性,影响正常的业务分析;如果简单就“时间”和“月消费额”的二维矢量进行一般性的聚类处理,比如采用K均值算法,可能会出现非严格时序排列的聚类分割,分割的簇在时间上彼此交叉,这样不利于进行时序分析;



技术实现要素:

为了解决上述现有技术方案所存在的问题,本发明专利提出了能够根据通信用户消费序列对用户消费水平进行聚类细分;本发明专利是通过以下技术方案实现的:

通信用户消费信息采集模块:从运营商计费系统、或者数据仓库系统,采集用户消费的账单数据,并将消费数据按照用户粒度、月/日粒度进行汇总,每个用户形成一个消费序列;

在线序列聚类计算模块:根据采集模块输入的用户序列数据,进行序列聚类,将时间相近、消费差距小的点进行聚集,聚类数量根据一定测度标准,最终形成一定数量的聚类;

消费趋势分析模块:对计算形成的聚类簇均值,进行比较,可以进行聚类簇均值的环比,判定用户的消费趋势;同时对于只有1-2个成员的聚类簇,可视为消费异常点;

附图说明

结合附图,本发明专利的技术特征以及优点将会被本领域技术人员更好地理解,其中:

图1、图2为相对稳定的客户消费序列;

图3、图4为趋势稳定但波动较大的消费序列;

图5、图6为有明显时序倾向的消费序列;

图7、图8为消费序列进行聚类划分之后,对每个簇的评价,以有效反映客户不同时期的消费特性;

图9 为本发明专利基于通信消费序列数据聚类识别消费趋势的实施流程图;

图10为本发明专利基于通信消费序列数据聚类识别消费异常的实施流程图;

具体实施方式

采用聚类的基本思路,将消费相近的序列聚合成一簇,将不同时期差异化的消费水平,分离出来;为此,参考“层次聚类”分析的基本思路,对消费序列进行聚类处理,将消费相近的一类用户;

序列聚类的基本思路是:基于时间顺序,将消费额相近的数据化为一簇,进而通过簇内、簇间的数据分析描述客户的整体消费行为;参考了基于层次聚类的基本思想,具体算法如下:

序列聚类算法

1.初始化序列:将序列按照时间顺序输入数组A[]中;

2.遍历A[],按照某种测度,比较相邻两簇之间的相似性,得出最“近似”的两相邻簇:

3.进行簇归并,对归并后的模型进行评价,记入B[]中,如果已经归并到根节点,则转下一步,否则转第步;

4.遍历B[],取出模型评价最高的聚类模型,作为实际的聚类模型;

其中簇之间的“测度”可以考虑采用“簇之间均值的差异”、“归并后增加的簇内距离和”、“归并后增加的簇内平均距离”、“簇之间分布的相似性”(比如基于某类分布的优先拟合度检验)等;在原型通信用户消费序列聚类建模中,第l、3种方法受异常孤立点的干扰影响较大,倾向于“大簇”之间的归并,这样不利我们的时序分析,根据实际情况,采用第2种方法“归并后增加的簇内距离和”,用于实际的序列聚类建模;

模型评价采用基于BIC[4](Bayesian Information Criterion贝叶斯信息准则)描述:

(1)

其中是对数似然,d是模型自由参数的个数,N是样本数目;假定每个簇内,数据(己剔除孤立点)服从正态分布,求解对数似然,具体如下:

(2)

、是各个簇i的均值和方差的估计值,自由参数d设定为3M-1,M为簇的数目,是BIC对复杂模型的惩罚项,式(1)综合考虑了模型的数据拟合度和模型复杂性;在所有的聚类组合中,计算各自的BIC,选择其中的极小值;

对消费序列进行聚类划分之后,可以通过对每个簇的评价,比如簇大小、簇内均值、方差等,以及簇之间的变化能够有效反映客户不同时期的消费特性;参考附图7、附图8;

对客户历史消费序列的聚类建模,能够有效地区分出消费差异显著的不同起止时间段,为“消防趋势”提供直接的数据支持;

比如在收入流失鉴别中,通过比较时间最近两“簇”的消费平均值,作为流失评价的依据,比如将最后一“簇”的平均消费值低于前一“簇”平均值30%视为“收入流失”,并将此作为进一步个体流失分析的输入数据依据,参考图9,具体操作步骤101~104所述;

除此以外,还能够对通信消费中的异常孤立点进行监控,在上述计算方法中,孤立点是指仅仅包括1-2个点的簇,可以对个体用户的消费孤立点进行进一步分析,参考图10,具体步骤201~204。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1