一种用户流失的预测方法及系统与流程

文档序号:12124559阅读:633来源:国知局
一种用户流失的预测方法及系统与流程
本发明涉及广播电视领域,特别是涉及一种用户流失的预测方法及系统。
背景技术
:近年来,随着三网融合的加快推进,有线电视市场竞争开始趋于白热化,市场竞争压力越来越大。用户保有始终都是广电行业非常关心的一个主题,然而,在现有技术中,对保有用户和流失用户数据的研究并不系统,对用户流失的预测并不准确与科学。技术实现要素:本发明的目的是提供一种用户流失的预测方法及系统,对流失用户数据进行了系统的研究,能够预测用户的流失倾向以及流失概率,为对流失用户的准确预测提供有效、科学的参考依据。为实现上述目的,本发明提供了如下方案:根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明通过对历史用户的收视行为数据、客服业务域数据和BOSS业务域数据的进行系统分析、统计以及机器学习,得到流失用户特征模型和保有用户特征模型,通过利用流失用户特征模型对现有用户的用户数据进行处理,得到现有用户中即将流失的用户以及其即将流失的概率,为即将流失的用户的预测提供科学的数据依据。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例用户流失的预测方法的流程示意图;图2为本发明实施例拨打客服电话次数与流失、未流失用户个数的关系示意图;图3为本发明实施例宽带使用与流失、未流失用户个数的关系示意图;图4为本发明实施例业务类型和流失相关程度强弱的关系示意图;图5为本发明实施例决策树规则程序示意图;图6为本发明实施例用户流失的预测系统的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的目的是提供一种用户流失的预测方法及系统,对流失用户数据进行了系统的研究,能够预测用户的流失倾向以及流失概率,为对流失用户的准确预测企业下一步发展规划提供有效、科学的参考依据。为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。图1为本发明实施例用户流失的预测方法的流程示意图,如图1所示,本发明提供的用户流失的预测方法的具体步骤如下:步骤101:利用历史的用户数据构建数据库,所述用户数据包括用户收视行为数据、客服业务域数据和业务运营支撑系统BOSS提供的业务域数据,所述业务运营支撑系统BOSS提供的业务域数据包括用户的自身属性数据,如性别、年龄等信息,所述客服业务域数据包括用户的投诉数据,所述用户收视行为数据包括用户对频道的偏爱情况数据;构建数据库的具体过程为:对历史的用户数据进行清洗、转化,依靠Spark强大的分布式计算能力对海量数据进行清洗,并转化,为构建模型做准备;用户数据来自于广电的多个数据域,主要包括BOSS域、客服域、用户收视行为域。其中BOSS域存有用户基本属性(年龄,地区等信息),同时还包括用户是否流失等状态信心。客服域包括用户投诉的数据。用户行为域包含用户观看节目的时长等信息。这些数据都是结构化数据,清洗与转换多数都是利用SQL语句进行转化。目的是为了构建每个用户的用户特征。如用户A,喜欢看CCTV5,年龄25,投诉了3次,流失了。利用分布式文件系统HDFS、Spark汇编语言对所述清洗、转化后的所述用户数据进行处理和储存。步骤102:对所述历史的用户数据进行统计处理,得到处理后的用户数据,所述统计处理具体为:根据所述用户行为数据构建用户节目偏好矩阵;根据所述业务运营支撑系统BOSS提供的业务域数据、客服业务域数据构建用户基本信息矩阵;统计历史用户中的到期续费用户和流失用户,建立流失用户矩阵和保有用户矩阵;所述用户节目偏好矩阵、用户基本信息矩阵、流失用户矩阵和保有用户矩阵为处理后的用户数据。将流失用户矩阵和保有用户矩阵分别与用户的收视行为以及其他信息相互关联。用户拥有ID是唯一的,利用唯一ID关联多个数据域数据。比如:用户A,年龄25,A地区,喜欢CCTV5流失用户B,年龄30,B地区,喜欢CCTV5流失。用户C,年龄23,A地区,不喜欢CCTV5,没有流失。通过总结规律可以发现喜欢CCTV5的用户流失概率更大一些。如果用户D也喜欢CCTV5,我们则可以近似的预测用户D也会流失。类似的,用户的自身属性与流失的可能性也具有一定的关系。步骤103:对所述处理后的用户数据进行机器学习,得到用户流失特征模型;将所述处理后的用户数据作为所述机器学习的输入,所述机器学习采用决策树算法,得到所述流失用户的特征模型和保有用户的特征模型。机器学习采用的程序语言为R语言和sparkmlib汇编语言。采用决策树算法构造决策树来发现数据中蕴涵的分类规则,如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数据集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。C5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类变量,使用C5.0算法可以生成决策树或者规则集。C5.0模型根据能够带来的最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行指导样本子集不能在被拆分为止。最后,重新缉拿眼最低层次的拆分,哪些对模型值没有显著贡献的样本子集被提出或者修剪。C5.0算法选择分支变量的依据:以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。信息熵:信息量的数学期望,是心愿发出信息前的平均不确定性,也称先验熵。信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型,信息量(单位是bit,对的底数取2):·信息熵H(U)的性质:·H(U)=0时,表示只存在唯一的可能性,不存在不确定性;·如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k,H(U)达到最大,不确定性最大;·P(ui)差别越小,H(U)就越大;P(ui)差别大,H(U)就越小;决策树中熵的应用:设S是一个样本集合,目标变量C有K个分类,freq(Ci,S)表示属于Ci类的样本数,|S|表示样本几何S的样本数。则几何S的信息熵定义为:如果某属性变量T,有N个分类,则属性变量T引入后的条件熵定义为:属性变量T带来的信息增益为:Gain(T)=Info(S)-Info(T)本发明取7月产品即将到期用户(68965个用户),按照到期续费和不续费将用户分为正负样本,不续费用户占比为69.83%。将数据分成两部分,70%的用户作为训练集,30%的用户作为测试集,通过C5.0决策树的方法构建流失预警模型。提取模型规则,计算本月产品到期用户的流失倾向,输出高危流失用户。数据输入,将数据导入SpssModeler,选择正确的数据类型后读入数据,将流失设置为目标变量,客户编号设置为无效变量。数据处理及维度选择,针对空值、异常值,极大极小值等噪声数据清洗。对各维度与是否流失进行统计检验,挑选与流失特征明显的维度。如果维度与流失相关性不明显,则排除后再建立决策树。指标分析,分析得出流失比较相关的维度是callrf_cnt(本月拨打客服电话次数)、num(客户名下产品个数)、cm_num(宽带用户数)、busi_type(业务类型:1高清数字,2宽带,11数字,31时移客户)等。把本月拨打客服电话次数分段,拨打次数为0的分一段,拨打次数大于0分一段,图2为本发明实施例拨打客服电话次数与流失、未流失用户个数的关系示意图,图中,深色代表流失用户,浅色代表未流失用户,从图2可以看出不拨打客户电话的用户流失倾向反而大。将宽带用户数为0的用户分为第一类,大于0的用户分为第二类,图3为本发明实施例宽带使用与流失、未流失用户个数的关系示意图,图中,深色代表流失用户,浅色代表未流失用户,由图3可以看出宽带用户数为0的用户流失风险较大,由此可以推断安装宽带会增强客户的稳定性。图4为本发明实施例业务类型和流失相关程度强弱的关系示意图,线条越粗代表相关性越强,从图4中可以看出第11类即数字用户与流失的相关性很高。建立决策树及规则解读:设置决策树最小分支记录数为20,修剪严重性设置为75%,使用全局修剪。生成了一棵深度为13的决策树。图5为本发明实施例决策树规则程序示意图,如图5所示,为了方便分析,我们把决策树的规则提取出来。图5中括号里的数字,整数代表规则包含的用户数,小数点代表此规则的置信度。下面我们选取2个规则作为例子解释规则的含义,分析流失用户的特征。如图5所示,规则4:0(5726;0.994)如果callrf_cnt<=0和num>0和cm_num<=0和busi_typein[231]则0规则4代表,打客户电话次数为0,且名下产品个数至少为1,但宽带个数为0,产品类型为宽带或者时移用户,这类用户有5726,流失率为99.4%,符合这类特征的用户流失倾向很高。规则6用于0(17800;0.749)如果callrf_cnt<=0和num>0和cm_num<=0和in_months>13和busi_typein[11]则0规则6代表,打客户电话次数为0,且名下产品个数至少为1,但宽带个数为0,产品类型为数字电视,在网时长大于13个月,这类用户17800中流失率为74.9%。符合这类特征的用户流失倾向比较高。可以推测客户名下是否有宽带是很重要的维度,有宽带的用户粘性高,流失的倾向小,而数字电视产品的用户流失倾向比较高,后续可以对该产品做一些优化。计算节目权重,首先计算用户观看节目指数:用户节目得分=用户节目观看时长/该节目所有用户总时长/用户观看总时长。再将所有用户节目得分利用中位数将所有用户节目得分分为5个档次,分别用1-5数字表示。模型输入,表一为模型输入变量表,如表一所示,数据周期为月。表一步骤104:利用所述用户流失特征模型对现有用户数据进行预测,得到现有用户中即将流失的用户以及现有用户即将流失的概率。作为本发明的一个具体实施例,某地势广电的用户数量大约有200W左右,平均每月到期的用户数量为5W左右,其中大概3W人选择继续续费,2W人左右的用户选择不续费,即流失用户。系统统计最近一年的历史数据,即大概60W人的样本数据。我们使用SPARK,进行分布式计算。首先构建每个用户的收视行为矩阵,矩阵如表二所示。表二CCTV-1CCTV-2CCTV-3用户A112245用户B153412该矩阵代表某用户针对每个频道的偏爱值。同时,通过关联BOSS业务域数据,可以获得用户其他属性,如年龄、性别,通过关联客服业务域数据,可以获得用户投诉情况等属性。由此可以获得一个包含60W行,几百列的用户举证。其中有60%的左右用户处于流失状态,另一部分用户处于续费状态。由于矩阵过大,我们将其存储于HDFS中。将矩阵作为输入,利用决策树算法,总结出用户流失,保有的规则特点,获得相应的模型。通过BOSS业务域数据,系统可以确认下月到期用户,利用上述模型,可以预测下月到期用户的流失倾向如何。本发明基于用户的收视行为数据,辅以其他广电业务域数据,进行合理的清理、整合,依靠大数据的理念,分布式的计算框架,构建机器学习模型,对即将流失的用户进行预测,方便广电运营商进行针对性的用户挽留。本发明通过对历史用户的收视行为数据、客服业务域数据和BOSS业务域数据的进行系统分析、统计以及机器学习,得到流失用户特征模型和保有用户特征模型,通过利用流失用户特征模型对现有用户的用户数据进行处理,得到现有用户中即将流失的用户以及其即将流失的概率,为即将流失的用户的预测提供科学的数据依据。为达到上述目的,本发明还提供了一种用户流失的预测系统,图6为本发明实施例用户流失的预测系统的结构示意图,如图6所示,本发明提供的用户流失的预测系统包括:数据库构建模块601,用于利用历史的用户数据构建数据库,所述用户数据包括用户收视行为数据、客服业务域数据和业务运营支撑系统BOSS提供的业务域数据,所述业务运营支撑系统BOSS提供的业务域数据包括用户的自身属性数据,所述客服业务域数据包括用户的投诉数据,所述用户收视行为数据包括用户对频道的偏爱情况数据;统计处理模块602,用于对所述历史的用户数据进行统计处理,得到处理后的用户数据;机器学习模块603,用于对所述处理后的用户数据进行机器学习,得到用户流失特征模型;预测模块604,用于利用所述用户流失特征模型对现有用户数据进行预测,得到现有用户中即将流失的用户以及现有用户即将流失的概率。其中,所述数据库构建模块601,具体包括:清洗转化单元,用于对历史的用户数据进行清洗、转化;处理存储单元,用于利用分布式文件系统HDFS、Spark汇编语言对所述清洗、转化后的所述用户数据进行处理和储存。所述机器学习模块603,具体包括:机器学习单元,用于利用R语言和sparkmlib汇编语言对所述处理后的用户数据进行机器学习。机器学习单元包括机器学习子单元,用于将所述处理后的用户数据作为所述机器学习的输入,所述机器学习采用决策树算法,得到所述流失用户的特征模型和保有用户的特征模型。所述统计处理模块602,具体包括:节目偏好矩阵构建单元,用于根据所述用户行为数据构建用户节目偏好矩阵;基本信息矩阵构建单元,用于根据所述业务运营支撑系统BOSS提供的业务域数据、客服业务域数据构建用户基本信息矩阵;用户矩阵统计单元,用于统计历史用户中的到期续费用户和流失用户,建立流失用户矩阵和保有用户矩阵;所述用户节目偏好矩阵、用户基本信息矩阵、流失用户矩阵和保有用户矩阵为处理后的用户数据。本发明提供的用户流失的预测系统过对历史用户的收视行为数据、客服业务域数据和BOSS业务域数据的进行系统分析、统计以及机器学习,得到流失用户特征模型和保有用户特征模型,通过利用流失用户特征模型对现有用户的用户数据进行处理,得到现有用户中即将流失的用户以及其即将流失的概率,为即将流失的用户的预测提供科学的数据依据。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1