一种电信用户流失预测方法、装置、设备及介质与流程

文档序号:37103583发布日期:2024-02-22 21:01阅读:21来源:国知局
一种电信用户流失预测方法、装置、设备及介质与流程

本发明涉及信息管理,具体涉及一种电信用户流失预测方法、装置、设备及介质。


背景技术:

1、随着时代的发展,运营商获取新的有价值用户的难度和成本都在增加,尽管运营商推出各种营销策略吸引用户,但由于新增市场空间狭窄,存量客户己成为市场主体,也是市场收益的主要来源。为了抢夺存量用户,各个运营商都会提出新的营销策略,必然导致运营商之间以及运营商内部存量用户的流动。因此,提前预测用户流失概率,预先感知用户流失倾向,对运营商尤为重要。

2、而通常情况下,可能流失的用户群体,大多存在以下特点:一是:体量占比较小,属于全体用户数据中的离群点;二是流失前往往会存在某些“反常”行为,如长期没有充值行为、通话行为、流量行为等,或为了尽快清空账户余额导致短期内消费水平激增、积分变动等。因此,使用离群点检测算法来挖掘出全体用户数据中的“潜在离群点”,即可能流失的用户,即能达到用户流失预测的效果。

3、虽然传统的离群点检测算法如lof算法(local outlier factor,局部离群因子检测方法)能够通过计算每个样本数据点的异常程度值来确定该点是否是异常点,易于操作和实现,但是其缺点也很明显:若数据集确定,最终的离群因子值只和参数k(k值是指每个点都要计算其k个最近邻居,k值越小,就会拉大离群点和正常点之间的差异,这样就可以使检测离群点更容易,但是这也可能导致检测误差大)有关,但是传统的lof算法的参数k都是通过人工经验值的选择,当k值选择不同时,容易导致之前是离群点的数据样本现在不再是离群点;对于未知离群点个数的数据集,人工经验选择参数k值以保证离群点的挖掘数量合理很难做到,不能较好的对用户流失进行预测。


技术实现思路

1、本发明的目的在于克服现有技术中的不足,提供一种电信用户流失预测方法、装置、设备及介质,利用用户属性和行为属性数据构建用户特征数据,使用改进的lof算法对异常点进行检测,能够有效的识别出可能流失的用户,提高预测的准确度。

2、为达到上述目的,本发明是采用下述技术方案实现的:

3、第一方面,本发明提供了一种电信用户流失预测方法,包括:

4、获取电信网络中的用户属性数据和用户行为数据,并进行预处理;

5、对预处理后的各数据点分别进行分布密度计算;

6、根据各数据点的分布密度选出其中的异常数据点,构成分布密度异常点集;

7、基于所述异常数据点的数量,通过改进的lof算法分别计算预处理后的各数据点的离群因子值,以确定lof异常点集;

8、对所述分布密度异常点集和lof异常点集取交集,获得预测流失的电信用户。

9、结合第一方面,可选的,所述用户属性数据包括用户编号、用户网龄、用户套餐资费及用户套餐等级信息;所述用户行为数据包括用户设定期间内的流量使用量、通话频率、信息频率、话费充值及积分变动信息。

10、结合第一方面,可选的,所述预处理的步骤包括:

11、将所述获取的各用户属性数据和用户行为数据按照数据维度进行拼接后合并为一个数据集;

12、对所述数据集的各数据点进行归一化处理,将各数据点缩放到(0,1)范围内,且不改变数据的分布形态。

13、结合第一方面,可选的,所述对预处理后的各数据点分别进行分布密度计算,包括以下步骤:

14、以待计算的数据点q为中心,预先设定的r为分布半径所构成的区域作为数据点q的r领域;

15、计算r邻域内的其它数据点到点q的距离的均值,作为数据点q的r邻域平均距离distr(q),其计算公式如下:

16、

17、式中,p∈nr(q)表述r邻域内除了点外q的数据点,|nr(q)|表述r邻域内其它数据点的个数;dist(p,q)表示数据点p与数据点q之间的距离,其中:

18、dist(p,q)=1-sim(p,q)

19、

20、式中,pi表述数据点向量p={p1,p2,...,pl}中的第i维数据;qi表示数据点向量q={q1,q2,...,ql}中的第i维数据,l表示数据点向量的维度;

21、基于r邻域平均距离distr(q),计算得到数据点q的分布密度ρq如下:

22、

23、结合第一方面,可选的,所述根据各数据点的分布密度选出其中的异常数据点的步骤包括:

24、对各数据点按照其分布密度的大小进行降序排序,获得分布密度序列;

25、选出排在所述分布密度序列中最前的z1个数据点和最后的z2个数据点作为异常数据点;

26、其中,z1为设定的第一数量,z2为设定的第二数量。

27、结合第一方面,可选的,所述设定的第一数量z1小于设定的第二数量z2。

28、结合第一方面,可选的,基于所述异常数据点的数量,通过改进的lof算法分别计算预处理后的各数据点的离群因子值,以确定lof异常点集,包括以下步骤:

29、初始化lof算法的参数k值,分别计算预处理后的各数据点的离群因子值;

30、统计当前次计算的各数据点中离群因子值大于1的数据点的数量m2;

31、判断m2是否符合以下条件:m1-s<m2<m1+s;其中m1为分布密度异常点集中异常数据点的数量,s为设定的第三数量;

32、若不符合,则不断调整参数k的取值,对各数据点的离群因子值进行重复计算,直至m2符合上述条件时停止计算,将此时得到的m2个数据点组合成lof异常点集。

33、第二方面,本发明提供了一种电信用户流失预测装置,所述装置包括:

34、获取数据模块,用于获取电信网络中的用户属性数据和用户行为数据,并进行预处理;

35、分布密度计算模块,用于对预处理后的各数据点分别进行分布密度计算;

36、选出异常数据点模块,用于根据各数据点的分布密度选出其中的异常数据点,构成分布密度异常点集;

37、确定lof异常点集模块,用于基于所述异常数据点的数量,通过改进的lof算法分别计算预处理后的各数据点的离群因子值,以确定lof异常点集;

38、电信用户流失预测模块,用于对所述分布密度异常点集和lof异常点集取交集,获得预测流失的电信用户。

39、第三方面,本发明提供了一种电子设备,包括处理器及存储介质;

40、所述存储介质用于存储指令;

41、所述处理器用于根据所述指令进行操作以执行如第一方面任一所述的电信用户流失预测方法的步骤。

42、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如第一方面任一所述的电信用户流失预测方法的步骤。

43、与现有技术相比,本发明所达到的有益效果:

44、本发明通过用户属性数据和行为属性数据构建用户特征数据,引入了分布密度的概念,利用数据点的分布密度来反向限制lof算法参数k的选取,并通过分布密度离群点和局部离群因子双重度量指标来挖掘和验证数据中的“潜在离群点”,极大提高了异常点检测的准确率、降低了误报率,从而精准有效的识别出可能流失的用户,达到用户流失预警的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1