预测电信用户流失的装置、方法和存储介质与流程

文档序号:17290986发布日期:2019-04-03 03:57阅读:187来源:国知局
预测电信用户流失的装置、方法和存储介质与流程
本发明属于涉及电信大数据领域,尤其涉及一种预测电信用户流失的分析装置、方法和存储介质。
背景技术
:随着网络通信技术的快速发展,电信服务的种类越来越多,电信用户的选择也越来越广。电信运营商在积极开拓新客户的同时,也在防止老客户流失。电信用户流失预测分析技术受到了电信运营商的重视。传统的电信用户流失预测主要采用问卷形式或比对受控实验,获取电信用户的信息增益,并将电信用户的信息增益与预设阈值进行比较,得到电信用户的强关联属性。最终利用该强关联属性的电信用户流失概率来进行电信用户流失预警。但申请人经研究发现:电信用户的流失现象往往需要对多关联属性进行综合分析,仅利用单一强关联属性的用户流失概率作为预测用户流失的判断方式较为片面,预测结果的合理性也有所欠缺,预测的精度也较低。如何提高电信用户流失的预测精度,成为业界亟待解决的技术问题。技术实现要素:为了解决电信用户流失预测的精度较低的问题,本发明实施例提供了一种预测电信用户流失的分析装置、方法和存储介质。第一方面,提供了一种预测电信用户流失的分析装置。该装置包括:数据预处理模块,用于采集电信用户的电信数据的特征值,形成待分析的数据仓,从数据仓的全盘数据中抽离出数据样本,将数据样本随机划分为训练集和测试集;模型建立模块,用于基于拆分合并机制和判定树算法,为训练集建立预测模型;评估打分模块,利用测试集测试预测模型,根据测试结果评估预测模型的预测性能;预测分析模块,利用测试性能合格的预测模型分析全盘数据,并预测电信用户中的流失用户。第二方面,提供了一种预测电信用户流失的分析方法。该方法包括:采集电信用户的电信数据的特征值,形成待分析的数据仓,从数据仓的全盘数据中抽离出数据样本,将数据样本随机划分为训练集和测试集;基于拆分合并机制和判定树算法,在训练集上建立预测模型;利用测试集测试预测模型,根据测试结果评估预测模型的预测性能;利用测试性能合格的预测模型分析全盘数据,并预测电信用户中会流失的用户。第三方面,提供了一种预测电信用户流失的分析装置。该装置包括:存储器,用于存放程序;处理器,用于执行存储器存储的程序,程序使得处理器执行上述第二方面的方法。第四方面,提供了一种计算机可读存储介质。该存储介质包括指令,当指令在计算机上运行时,使得计算机执行上述第二方面的方法。第五方面,提供了一种包含指令的计算机程序产品。当该产品在计算机上运行时,使得计算机执行上述各方面所述的方法。第六方面,提供了一种计算机程序。当该计算机程序在计算机上运行时,使得计算机执行上述各方面所述的方法。一方面,上述发明实施例可以通过数据预处理模块采集电信用户的电信数据的特征值,形成待分析的数据仓,通过从数据仓的全盘数据中抽离出数据样本,并将数据样本随机划分为训练集和测试集等预处理数据,可以训练从海量的数据里提取较佳数据,通过较佳的数据训练和测试,不仅可以减少运算量,减少耗时,而且可以实现机器自动学习的功能。另一方面,上述发明实施例可以通过模型建立模块基于拆分合并机制和判定树算法,为训练集建立预测模型,可以解决数据倾向性的问题,消除了由于数据倾向性而带来的准确性差的缺陷,提升了数据的准确性,进而大幅度提升了预测精度。又一方面,上述发明实施例可以通过评估打分模块利用测试集测试预测模型,根据测试结果评估预测模型的预测性能;利用预测分析模块利用测试性能合格的预测模型分析全盘数据,并预测电信用户中的流失用户可以实现:有效减少整体预测所需时间,实现了用户流失预测的实时化、高效化,通过基于事件的电信用户流失预防方法,实现了对用户流失预测和预防的一体化管控。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明一实施例的预测电信用户流失的分析装置的结构示意图;图2是本发明另一实施例的预测电信用户流失的分析装置的结构示意图;图3是图2中各个功能单元分析处理数据的流程示意图;图4是图1中数据预处理模块的实现方式流程示意图;图5是图1中模型建立模块的实现方式流程示意图;图6为本发明一实施例的对数据集进行划分得到的最终划分结果图;图7为本发明一实施例的模型建立模块的拆分合并机制的示意图;图8为图7中的拆分和合并数据的流程示意图;图9为本发明一实施例的预测模型评估打分的流程图;图10为本发明一实施例的电信用户流失预防的流程图;图11是本发明一实施例的预测电信用户流失的流程示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1是本发明一实施例的预测电信用户流失的分析装置的结构示意图。如图1所示,预测电信用户流失的分析装置可以包括:数据预处理模块110、模型建立模块120、评估打分模块130和预测分析模块140。其中,数据预处理模块110可以用于采集电信用户的电信数据的特征值,形成待分析的数据仓,从数据仓的全盘数据中抽离出数据样本,将数据样本随机划分为训练集和测试集;模型建立模块120可以用于基于拆分合并机制和判定树算法,为训练集建立预测模型;评估打分模块130可以利用测试集测试预测模型,根据测试结果评估预测模型的预测性能;预测分析模块140可以利用测试性能合格的预测模型分析全盘数据,并预测电信用户中的流失用户。在一些实施例中,数据预处理模块110可以包括:采集单元、简约单元、衍生单元和统计单元。其中,采集单元可以用于采集电信用户的电信数据的原始变量;简约单元可以用于对原始变量进行完整性和/或合理性检查,删除检查未通过的数据,形成电信数据的剩余变量;衍生单元可以用于对剩余变量进行衍生,得到电信数据的原始特征值;统计单元可以用于采用皮尔逊相关系数对原始特征值进行统计分析,得到高度相关的特征值,删除高度相关的特征值,生成电信数据的特征值。由此,本发明实施例可以通过删除高度相关的特征值,减少高度相关属性,解决了现有的仅利用单一强关联属性的用户流失概率作为预测用户流失的判断方式较为片面、预测结果的合理性差的问题。在一些实施例中,数据预处理模块110采集的电信用户的电信数据的特征值可以包括以下特征值的一种或者多种:电信用户的决策行为的特征数据;电信用户的使用行为的特征数据;电信用户的忠诚度行为的特征数据。其中,决策行为特征数据主要可以包括:收入、月租、套餐类型、标准资费、套餐业务种类及用量、用户消费记录等原始变量。被行完整性和/或合理性检查之后,这些原始变量经衍生进一步得到用户支付均值、用户支付月租比、套餐使用价值、套餐使用价值率这4个综合决策行为特征数据。用户使用行为特征数据可以用于体现用户在使用运营商提供的产品或服务过程中表现出的使用行为特点。被行完整性和/或合理性检查之后,用户使用行为特征数据经衍生后主要可以包括:平均通话次数、本地通话时长、国内长途通话时长、总长途通话时长、漫游通话时长、短信条数、短信条数与通话次数之比、数据流量。用户忠诚度行为特征数据主要可以用于描述用户所订购的运营商产品的种类和数量,以及对其所订购的产品和服务的近期使用变动趋势。被行完整性和/或合理性检查之后,用户忠诚度行为特征数据经衍生后主要可以包括:产品订购数量、本地通话趋势、国内长途通话趋势、国际长途通话趋势频率、漫游通话趋势、短信发送趋势、流量用量趋势。在一些实施例中,数据仓可以用于存放待分析的数据。数据仓的全盘数据可以是数据仓中的所有数据。从数据仓的全盘数据中抽离出数据样本,可以采取随机抽取的方式,也可以采用按预设比例抽取的方式等。将数据样本随机划分为训练集和测试集的实现方式例如可是:将数据样本随机分为2n份小数据样本,将n份小数据样本作为训练集,将另n份小数据样本作为测试集。由此,数据预处理模块110可以对不同来源的特征值进行采集、衍生、过滤和划分,以满足装置或者软件系统的要求。在一些实施例中,模型建立模块120可以包括:定参单元、拆分单元、建立单元和整合单元。其中,定参单元可以用于确定训练集中流失用户与非流失用户的第一比值,以及确定子训练集中流失用户与非流失用户的第二比值;拆分单元可以用于计算第二比值与第一比例的比值的第三比值,基于第三比值,将训练集拆分为多个子训练集;建立单元可以用于根据判定树算法分别基于各个子训练集建立子预测模型;整合单元可以用于根据权重投票原则对子预测模型进行整合,生成预测模型。由此,模型建立模块120可以根据判定树算法,为训练集迅速建立预测模型,并可以引入拆分合并机制解决数据偏向性问题,提供数据整合机制,提升预测可信性。该部分内容在下文还将继续描述。评估打分模块130可以包括:测试单元、评估单元和报告单元。其中,测试单元可以用于导出预测模型的预测规则,根据预测规则对测试集进行预测,获取预测模型的模型提升率(lift)和/或预测命中率;评估单元可以用于根据lift和命中率对预测模型进行评估打分;报告单元可以用于当评估分数大于或者等于阈值时,生成评估合格的报告;当评估分数小于阈值时,生成评估不合格,需要重新采集电信用户的电信数据的特征值的报告。由此,评估打分模块130可以导出预测规则,根据预测模型的lift,和预测模型命中率来对预测模型进行打分评估。预测分析模块140可以对全盘数据进行整体分析,记录用户分析结果,对客户忠诚度进行打分。当分数低于或者等于阈值时,预测该用户会流失;当分数高于阈值时,预测该用户不会流失。在一些实施例中,电信用户的电信数据的特征值(例如,电信用户的关联数据)在经过初步的筛选后,由系统进行数据的采集和衍生,转化符合系统输入条件的优质数据,形成待分析的数据仓库,之后由仓库中抽离数据样本(包括训练集和测试集),通过数据挖掘算法建立用户流失预测模型,并利用测试集进行测试并根据预测的准确率进行打分评估,利用分值达到要求的预测模型对全盘数据进行预测,对用户的忠诚度进行打分。根据打分预测用户是否会流失。在一些实施例中,还可以包括:流失预防模块。流失预防模块可以对全盘数据进行整体分析,创建触发事件;记录用户分析结果,对客户忠诚度进行打分;根据触发事件,有针对性的生成并派发预设的电信用户维系方案,包括套餐修改意见;统一协调调度电信用户维系方案的执行;记录电信用户反馈结果,用于后期对用户维系方案的执行情况进行评估。由此,在预测用户会流失的情况下,可以利用流失预防模块执行用户维系方案以挽回预流失的用户。图2是本发明另一实施例的预测电信用户流失的分析装置的结构示意图。本实施例可以在图1的预测用户是否会流失的功能的基础上,增加了对预测为流失的用户执行用户维系方案以挽回预流失的用户的功能。如图2所示,预测电信用户流失的分析装置可以包括:数据验证单元201、拆分合并单元202、预测模型建立单元203、预测模型评估单元204、行为检测单元205、客户分析单元206、套餐匹配单元207、方案生成单元208、交互预警单元209和客户关系管理单元210。该装置不仅可以预测哪些用户会流失,而且可以对预流失的用户进行维护。本发明实施例可以通过上述功能单元可以解决如下技术问题并实现对应的效果:1、通过判定树算法利用计算机自动地在海量数据中分析挖掘电信用户流失的相关规律,在对电信用户的特征信息与电信用户流失行为进行关联分析和检测时,由系统自动对电信用户的多特征信息进行横向的信息增益比较,避免人的主观因素的干扰。2、生成易于理解的用户流失预测规则,能够反映出各项关联属性对用户流失行为综合影响的内在联系。3、通过预设拆分合并单元,解决数据偏向性问题。4、通过利在小规模的测试集上快速建立预测模型,以进行实时评估,从而应对市场发展方向的变化,确保预测模型的适用性。5通过利用训练集快速生成预测模型,解决计算耗时长不能及时发现潜在流失电信用户的问题。6、通过电信用户流失预防模块,根据预测分析结果自动形成客户维系方案,包括更适合用户的精细化套餐推荐。7、通过在号码层面感知和预测潜在可能会流失的电信用户,解决因一人多号而造成的预测误判的问题。图3是图2中各个功能单元分析处理数据的流程示意图。如图3所示,该流程可以包括以下步骤:s301,数据验证单元201可以对不同来源的数据进行采集、简约处理,以满足功能模块中软件系统要求。还可以对数据进行统计分析,衍生出关键特征数据,并随机划分出训练集和测试集。s302,拆分合并单元202对训练集的数据进行拆分和合并,由此可以减少数据偏向性对结果正确性的影响。预测模型建立单元203可以对利用判断树算法建立预测模型。(该部分内容将在下文进一步描述。)s303,利用预测模型评估单元204测试数据集对预测分析模型进行评估,形成性能分析报告,记录预测准确度。s304,判断预测准确度是否低于阈值。当预测准确度不低于阈值时,执行步骤s305。当预测准确度低于阈值时,执行步骤s301。s305,当预测准确度不低于阈值时,根据分值符合评估要求的预测分析模型,行为检测单元205利用预测规则提取器提取出判定规则(即预测规则),并利用预测规则执行引擎对全盘数据进行预测分析,创建触发事件,如事件1、事件2、事件3、事件4和事件5。具体的事件可以是:4g用户,流量多月超费,语音分钟数不足、套餐不合理等。s306:客户分析单元206根据预测分析结果中的离网概率对用户的忠实度进行打分。方案生成单元(维系方案生成与派发单元)208根据触发事件来针对性的选择派发预设的电信用户维系方案。s307:套餐匹配单元207分析用户的用量和其他客户资料,来为用户提供更加适合的套餐,作为维护用户的一种方式。s308:交互预警单元209负责根据维护方案动态选择相应的媒介(如网络、电话系统),通过合理调度资源,来具体通知执行维系方案,并在客户关系管理系统210中记录电信用户维系执行方案执行情况。图4是图1中数据预处理模块的实现方式流程示意图。如图4所示,该方法可以包括以下步骤:s401,采集数据,包括用户决策行为特征数据、用户使用行为特征数据、用户忠诚度行为特征数据。用户决策行为特征数据主要包括收入、月租、套餐类型、标准资费、套餐业务种类及用量、用户消费记录等原始变量,经衍生进一步得到用户支付均值、用户支付月租比、套餐使用价值、套餐使用价值率等综合决策行为特征数据。用户使用行为特征数据据用于体现用户在使用运营商提供的产品或服务过程中表现出的使用行为特点,经衍生后,主要包括:平均通话次数、本地通话时长、国内长途通话时长、总长途通话时长、漫游通话时长、短信条数、短信条数与通话次数之比、数据流量。用户忠诚度行为特征数据主要用于描述用户所订购的运营商产品的种类和数量,以及对其所订购的产品和服务的近期使用变动趋势。这些数据经衍生后,主要可以包括:产品订购数量、本地通话趋势、国内长途通话趋势、国际长途通话趋势频率、漫游通话趋势、短信发送趋势、流量用量趋势。s402,进行数据完整性、合理性检查。具体可以检查数据否存在空白值、是否存在不合理的取值或超出取值范围的取值。s403,采用皮尔逊相关系数r对数据进行分析。其中:在公式1中,r表示皮尔逊相关系数,x表示一特征变量,y表示另一特征变量,和分别是特征变量x和特征变量y的平均值。当0.8≤|r|<1时,表示x和y高度相关,本发明实施例可以去除高度相关属性中的其中一个。s404,随机划分数据集,形成训练集和测试集。图5是图1中模型建立模块的实现方式流程示意图。如图5所示,模型建立模块基于数据挖掘决策树算法的电信用户流失预测分析步骤可以如下所示:s501,确定样本集,待分析的属性。设n为样本集,设待分析特征集合为j,设分类类别集合为i。s502,创建根节点r。s503,判断根节点r是否属于同一类别i。s504,若n都属于同一类别i,则返回r节点,记为叶子节点,标志为类i。s505,判断特征集合为j是否为空,或者节点的样本数少于给定值。s506,如果j为空或者节点的样本数少于给定值,返回根节点r,标记为叶子节点,并注明r为n中出现最多的类。s507,计算n中每个j(j1,j2....jn)的信息增益率,选择其中具有最高信息增益率的特征作为测试特征。具体的信息增益率计算过程如下:熵的概念是用来来衡量样本集n中预测标记值的不确定性,熵值越大,不确定性越高,其公式如下:在公式2中,pi代表在预测标记值xi在集合n中的概率。条件熵表示在特征变量j取值特定的条件下,预测标记值的不确定性,其公式如下:在公式3中,pi表示特征变量j=ji在集合n中的概率。信息增益表示在得知特征j的信息后,使得n的不确定性减少的程度,其公式如下:g(n|j)=e(n)-e(n|j)(公式4)利用信息增益率可以有效解决算法对唯一变量值较多的特征进行优先划分的问题,其具体公式如下:在公式5中,gainratio(n|j)表示信息增益率。s509,如果测试特征为离散特征,则为每一个不同的特征值产生一条分枝,对该节点进行分裂。s510,如果测试特征为连续型特征,则根据该特征的分割阈值,对该节点进行分裂。连续型特征的阈值分割的具体算法可以如下所示:将连续型特征进行升序排序。将任意两个特征值的中点作为分裂点,计算每个分裂点的信息增益。为加速算法的运行速度,只计算能够使分类属性发生改变的分裂点的信息增益。具体公式如下:e(连续特征)=p≤分割阈值e(≤分割阈值)+p>分割阈值e(>分割阈值)(公式7)g(n|连续特征)=e(n)-e(连续特征)(公式8)计算分裂点的信息增益率。根据预设最大分支数,选择信息增益最大若干的分裂点作为分割阈值。s511,对于每一个分裂而产生的新节点,跳转到s503重复执行。s512,最后,根据节点的分类错误情况进行剪枝操作。具体的剪枝策略可以如下所示:将原样本集合作为测试数据,计算决策树在剪枝和不剪枝情况下相应的预测精度,如果剪掉某个子树后,预测精度不降低则剪掉子树。下面通过简单用例对用户流失预测分析过程进行说明,用例数据详见下表(1):表(1)在表(1)中,中间4列为便于说明,本实例对连续性变量设置最大分枝数为2,初始状态下作为用户特征数据,最后一列作为预测标记值。初始状态下,离网数为2,在网数为3,则该列的初始信息熵为:在公式9中,e(s)表示初始信息熵。接下来分别计算离散特征在网类型和是否欠费的条件熵,在网类型可以分为3类,分别为4g、3g、2g,数量比例为3:1:1,则该特征的条件熵为:其中:e(x)表示条件熵,信息增益的公式可以如下:g(n|在网类型)=e(n)-e(在网类型)=0.42(公式11)是否欠费分为2类,数据比为3:2。同理,该特征的条件熵为:g(n|是否欠费)=e(n)-e(是否欠费)=0.02(公式14)针对连续特征,选定可能的分裂点,并依此计算分裂点的信息增益率,分裂点选取如下面表(2)所示:在网时间00.110.120.280.39是否离网否否否是是表(2)因本实例中只有在0.12与0.28之间分类属性才发生变化,故分裂点选取唯一,取值为0.2,下面给出该分裂点具体的信息增益率的计算过程:g(n|话费波动率)=e(n)-e(话费波动率)=0.971(公式18)综合对比上述公式后,可知:gainratio(话费波动率)>gainratio(在网类型)>gainratio(是否欠费)。图6为本发明一实施例的对数据集进行划分得到的最终划分结果图。如图6所示,选择话费波动率作为本次划分的特征,对数据集进行划分,对后序子树重复此过程,得到最终划分结果图的步骤可以如下所示:s601,数据集可以包括:在网用户比例为60%、离网用户比例为40%、离网用户数为2、在网用户数3、总用户数为5。s602,选择话费波动率作为本次划分的特征,对数据集进行划分。s603,当话费波动率≤0.2时,划分后的子数据集可以为:在网用户比例为100%、离网用户比例为0%、离网用户数为0、在网用户数3、总用户数为3。s604,当话费波动率>0.2时,划分后的子数据集可以为:在网用户比例为0%、离网用户比例为100%、离网用户数为2、在网用户数0、总用户数为2。由此,通过用例数据进行预测分析,可以得到如下预测规则:预测规则1:当波动率小于等于0.2时用户不会流失。预测规则2:当波动率大于0.2时用户流失。以上用例的数据集较小,仅用于说明算法,当在海量用户特征数据集上运行该算法时,会得到更加实际的预测规则。图7为本发明一实施例的模型建立模块的拆分合并机制的示意图。如图7所示,该示意图可以包括拆分单元710和合并单元720。训练集s经过拆分单元710可以被拆分为训练集s1、训练集s2、训练集s3和训练集s4等。训练集s1、训练集s2、训练集s3和训练集s4根据判定树算法可以得到预测模型1、预测模型2、预测模型3和预测模型4。预测模型1、预测模型2、预测模型3和预测模型4经过合并单元720可以合并为预测模型。图8为图7中的拆分和合并数据的流程示意图。流失用户数量占总体用户数量的比值较低(流失用户比例一般为1.5-2%),因此一份随机选择的训练数据集可能会存在严重的数据偏向性问题,如果不能妥善处理,可能会危及预测模型的有效性,甚至造成无法生成预测模型,例如在训练集中所有用户都不是流失用户。在本实施例中,引入拆分单元和合并单元可以解决数据偏向性问题,同时避免数据的二义性。如图8所述,该流程可以包括如下步骤:s801,确定相关参数。(1)设s为训练集。(2)设n为训练集s所包含的用户总数量。(3)设流失用户与在网用户的比值为1:x。(4)设预期的训练子集流失用户与在网用户的比值为1:y。s802,拆分合并单元根据预期的数据占比从训练集s中创建多个训练子集,即将占总体用户比例较高的在网用户随机并平均的分配到每个训练子集,将占总体用户比例较低的流失用户按照预期的数据占比复制到所有训练子集,则根据步骤1相关参数,得到训练子集个数为x/y,每一个训练子集有n/(1+x)个流失用户,有n×y/(1+x)个在网用户。s803,在每一个训练子集上独立的建立预测模型。s804,由每一个预测模型单独对整体训练集中的用户实例进行预测。s805:拆分合并单元采用权重投票原则,对整体预测结果进行整合,具体来说,如果预测结果为“用户在网”的预测模型个数为n1,预测结果为“用户流失”的预测模型个数为n2。为n1指派权重w1,n2指派权重w2,则当w1×n1>w2×n2时,拆分合并单元预测结果为“用户在网”,否者,预测结果为“用户会流失”。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。例如,将加两个功能单元集成在一个单元中,也可以分为两个单独的模块等。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,当其在计算机上运行时,使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。图9为本发明一实施例的预测模型评估打分的流程图。本发明实施例在实际的预测过程中,需要实时了解预测模型的准确性,以评估是否需要对特征值进行重新选取,该评估方法的具体步骤可以如下所示:s901:确定评估参数,导出预测规则。s902:利用预测规则在测试集进行预测。s903:根据预测模型的lift,和预测模型命中率来对预测模型进行打分评估。s904:将预测结果与评估阈值进行比较,如果预测结果超过评估阈值,则转步骤s905。否者,转步骤s906。s905:完成模型评估,形成评估报告。s906,如果预测结果低于评估阈值,提示准确率不达标,重新选取特征值,检测训练集。在s903中,具体的lift和预测模型命中率计算方法如下:设a为准确预测离网用户的数量,b为错误预测用户离网的数量,则定义预测模型命中率为a/(a+b)。其中,lift(模型提升率)是指使用该预测模型时,用户的命中率除以不使用模型时用户的流失率,具体到本发明实施例,可以将用户按预测的流失可能性进行排序,定义命中率(x%)为流失可能性相对较高的前x%的用户中,用户流失的命中率,则lift=命中率(x%)/不使用该模型的流失率,例如不使用该模型时电信用户的整体流失率为2%,x=5,命中率(5%)=20%,则lift=20%/2%=10。图10为本发明一实施例的电信用户流失预防的流程图。在本发明实施例中,在得到符合评估要求的预测模型后,需要利用该预测模型对目标数据集进行分析,并根据分析结果来进行有效的用户维系,以达到预防用户离网的目的。如图10所述,该流程的具体步骤可以如下所示:s101,提取预测规则。s102,利用预测规则对目标数据集进行分析,得到分析结果。s103,根据分析结果,创建维系触发事件。s104,维系方案生成与派发单元利用触发事件,生成用户维系方案,将维系方案派发到交互预警单元。s105,交互预警单元根据沟通渠道的属性及其实时的资源利用率,采用不同的动态调度算法,统一规划媒介资源,指导执行用户维系方案,并记录方案执行结果。图11是本发明一实施例的预测电信用户流失的流程示意图。如图11所示,该流程可以包括可以步骤:s111,采集电信用户的电信数据的特征值,形成待分析的数据仓,从数据仓的全盘数据中抽离出数据样本,将数据样本随机划分为训练集和测试集。s112,基于拆分合并机制和判定树算法,在训练集上建立预测模型。s113,利用测试集测试预测模型,根据测试结果评估预测模型的预测性能。s114,利用测试性能合格的预测模型分析全盘数据,并预测电信用户中会流失的用户。一方面,上述发明实施例可以通过数据预处理模块采集电信用户的电信数据的特征值,形成待分析的数据仓,通过从数据仓的全盘数据中抽离出数据样本,并将数据样本随机划分为训练集和测试集等预处理数据,可以训练从海量的数据里提取较佳数据,通过较佳的数据训练和测试,不仅可以减少运算量,减少耗时,而且可以实现机器自动学习的功能。另一方面,本发明实施例可以通过模型建立模块基于拆分合并机制和判定树算法,为训练集建立预测模型,可以解决数据倾向性的问题,消除了由于数据倾向性而带来的准确性差的缺陷,提升了数据的准确性,进而大幅度提升了预测精度。又一方面,本发明实施例可以通过评估打分模块利用测试集测试预测模型,根据测试结果评估预测模型的预测性能;利用预测分析模块利用测试性能合格的预测模型分析全盘数据,并预测电信用户中的流失用户可以实现:有效减少整体预测所需时间,实现了用户流失预测的实时化、高效化,通过基于事件的电信用户流失预防方法,实现了对用户流失预测和预防的一体化管控。在一些实施例中,步骤s111中的采集电信用户的电信数据的特征值可以包括:采集电信用户的电信数据的原始变量;对原始变量进行完整性和/或合理性检查,删除检查未通过的数据,形成电信数据的剩余变量;对剩余变量进行衍生,得到电信数据的原始特征值;采用皮尔逊相关系数对原始特征值进行统计分析,得到高度相关的特征值,删除高度相关的特征值,生成电信数据的特征值。在一些实施例中,步骤s112中的基于拆分合并机制和判定树算法,在训练集上建立预测模型可以包括:将训练集拆分为多个子训练集;根据判定树算法分别基于各个子训练集建立子预测模型;根据权重投票原则对子预测模型进行整合,生成预测模型。在一些实施例中,步骤s113中的利用测试集测试预测模型,根据测试结果评估预测模型的预测性能可以包括:导出预测模型的预测规则,根据预测规则对测试集进行预测,获取预测模型的模型提升率lift和/或预测命中率;根据lift和命中率对预测模型进行评估打分;当评估分数大于或者等于阈值时,生成评估合格的报告;当评估分数小于阈值时,生成评估不合格,需要重新采集电信用户的电信数据的特征值的报告。在一些实施例中,预测电信用户中会流失的用户之后,还可以包括:创建触发事件,对预测出会流失的用户,触发执行预设的维护方案。在一些实施例中,电信数据的特征值包括以下特征值的一种或者多种:电信用户的决策行为的特征数据;电信用户的使用行为的特征数据;电信用户的忠诚度行为的特征数据。一方面,上述发明实施例可以利用数据挖掘技术,通过对多特征信息进行横向的信息增益自动比较,极大程度的降低了分析人员因主观因素而产生的限制,实现了用户流失预测分析的智能化。另一方面,上述发明实施例可以引入预测模型的评估机制,并利用训练集建立预测模型来有效减少整体预测所需时间,实现了用户流失预测的实时化、高效化。又一方面,上述发明实施例可以通过基于事件的电信用户流失预防方法,实现了对用户流失预测和预防的一体化管控。另外,上述发明实施例引入拆分合并机制的判定树算法,可以解决数据倾向性的问题,提高了预测的精度。需要说明的是,在不冲突的情况下,本领域的技术人员可以按实际需要将上述的操作步骤的顺序进行灵活调整,或者将上述步骤进行灵活组合等操作。为了简明,不再赘述各种实现方式。另外,各实施例的内容可以相互参考引用。另外,上述各实施例的装置可作为上述各实施例的用于各实施例的方法中的执行主体,可以实现各个方法中的相应流程,实现相同的技术效果,为了简洁,此方面内容不再赘述。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1