用户换机预测方法及装置与流程

文档序号:11621040阅读:279来源:国知局
用户换机预测方法及装置与流程

本发明涉及通信技术领域,尤其涉及一种用户换机预测方法及装置。



背景技术:

随着智能手机的普及,用户多久更换一部新终端,并且更换时会选择什么类型的终端,成为时下电信运营商、终端厂商开展终端营销工作时需要解决的重点问题。现有的用户换机预测方法主要是运营商依据电信账单,根据用户资费能力,用户过往终端使用周期、终端捆绑套餐到期情况等大数据,通过建立用户终端预测模型,预测用户终端换机倾向,但是由于电信账单数据局限性,不能直接反映用户更换终端倾向,使得预测用户换机的准确率降低。

因此,现有的换机预测方法存在着不能直接反映用户更换终端倾向,预测用户换机的准确率降低的问题。



技术实现要素:

本发明的主要目的在于提出一种用户换机预测方法及装置,旨在解决现有的换机预测方法中存在的不能直接反映用户更换终端倾向,预测用户换机的准确率低的问题。

为实现上述目的,本发明提供的一种用户换机预测方法,所述方法包括:

根据获取到的用户账单数据及预设账单换机预测方法确定第一换机用户结果数据;

根据获取到的搜索行为数据及预设搜索行为预测方法确定第二换机用户结果数据及目标终端型号数据;

对所述第一换机用户结果数据及所述第二换机用户结果数据进行比较,并根据比较结果确定预测结果数据;

根据所述预测结果数据及所述目标终端型号数据确定用户换机预测清单。

此外,为实现上述目的,本发明还提供一种用户换机预测装置,所述装置包括:

第一确定模块,用于根据获取到的用户账单数据及预设账单换机预测方法确定第一换机用户结果数据;

第二确定模块,用于根据获取到的搜索行为数据及预设搜索行为预测方法确定第二换机用户结果数据及目标终端型号数据;

第三确定模块,用于对所述第一换机用户结果数据及所述第二换机用户结果数据进行比较,并根据比较结果确定预测结果数据;

第四确定模块,用于根据所述预测结果数据及所述目标终端型号数据确定用户换机预测清单。

本发明提出的用户换机预测方法,根据获取到的用户账单数据及预设账单换机预测方法确定第一换机用户结果数据,并根据获取到的搜索行为数据及预设搜索行为预测方法确定第二换机用户结果数据及目标终端型号数据,对所述第一换机用户结果数据及所述第二换机用户结果数据进行比较,并根据比较结果确定预测结果数据,根据所述预测结果数据及所述目标终端型号数据确定用户换机预测清单。与现有技术相比,本发明将根据账单数据获取到的第一换机用户结果数据与根据搜索行为数据获取到的第二换机用户结果数据进行比较,从而确定预测结果数据,且将该预测结果数据与根据搜索行为数据确定的目标终端型号数据匹配关联,从而确定用户换机预测清单,从而可以更准确的预测出用户更换终端的倾向。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的一种用户换机预测方法的流程示意图;

图2为图1中的步骤s101的细化步骤的流程示意图;

图3为图1中的步骤s102的细化步骤的流程示意图;

图4为图1中的步骤s103的细化步骤的流程示意图;

图5为本发明第三实施例提供的一种用户换机预测装置的功能模块的示意图;

图6为本发明第三实施例中的第一确定模块601的细化功能模块的示意图;

图7为本发明第三实施例中的第二确定模块602的细化功能模块的示意图;

图8为本发明第三实施例中的第三确定模块603的细化功能模块的示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。

本发明实施例中的换机装置可以以各种形式来实施。例如,本发明中描述的换机装置可以包括诸如移动电话、智能电话、笔记本电脑、pad(平板电脑)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。

请参阅图1,图1为本发明第一实施例提供的一种用户换机预测方法的流程示意图,包括:

步骤s101、根据获取到的用户账单数据及预设账单换机预测方法确定第一换机用户结果数据;

在本发明实施例中,账单数据包括用户信息、业务基本信息、终端配置信息、合约信息、终端更换信息、使用情况等数据。

其中,预设账单换机预测方法为用户预先自定义设置,用户可以根据实际情况选择不同的方法。

步骤s102、根据获取到的搜索行为数据及预设搜索行为预测方法确定第二换机用户结果数据及目标终端型号数据;

在本发明实施例中,搜索行为数据包括用户搜索总次数、搜索的终端型号、搜索总天数、搜索的消费范围等数据。

其中,预设搜索行为预测方法为用户预先自定义设置,用户可以根据实际情况选择不同的方法,该预设搜索行为预测方法与预设账单换机预测方法可以是同一种方法也可以是不相同的方法。

步骤s103、对第一换机用户结果数据及第二换机用户结果数据进行比较,并根据比较结果确定预测结果数据;

在本发明实施例中,该预测结果数据表示预测出的可能要换机的用户信息,该预测结果数据包括预测的想要换机的用户人数,分部的地理位置等信息。

步骤s104、根据预测结果数据及目标终端型号数据确定用户换机预测清单。

在本发明实施例中,目标终端型号数据为用户搜索次数排名前n名的终端型号的数据,n为正整数。

优选的,将预测结果数据及用户搜索次数排名前n名的终端型号的数据进行关联匹配,确定用户换机预测清单。

在本发明实施例中,根据获取到的用户账单数据及预设账单换机预测方法确定第一换机用户结果数据,并根据获取到的搜索行为数据及预设搜索行为预测方法确定第二换机用户结果数据及目标终端型号数据,将第一换机用户结果数据与第二换机用户结果数据进行比较,从而确定预测结果数据,将该预测结果数据与目标终端型号数据匹配关联,从而确定用户换机预测清单,并可以更准确的预测出用户更换终端的倾向。

请参阅图2,为图1所示第一实施例步骤101的细化步骤的流程示意图,包括:

步骤s201、基于用户账单数据定义预测换机用户的数据指标;

在本发明实施例中,该预测换机用户的数据指标可以实际情况进行定义。

优选的,数据指标如表1所示:

表1

步骤s202、利用数据指标及预设筛选规则对用户账单数据进行筛选,并将筛选后的用户账单数据划分为训练数据及测试数据;

在本发明实施例中,利用数据指标对用户账单数据进行筛选,从账单数据中剔除数据指标缺失严重的数据、数据填写有误的数据及重复的数据,得到第一用户账单数据,按照预设筛选规则对第一用户账单数据进行二次筛选,其中,按照预设筛选规对第一用户账单数据进行二次筛选分为两个步骤,第一步为:剔除掉第一用户账单数据中某时间段内搜索次数小于n(n为正整数)次的数据,得到第二用户账单数据,这里的某时间段可以是一个月、两个月等;第二步为:按照预设的换机用户与不换机用户的比例对第二用户账单数据进行数据抽取。例如,第二用户账单数据为1000个用户,其中换机用户为500人,不换机用户为500人,预设的换机用户与不换机用户的比例为1:5,则从1000个用户中抽取100个换机用户和500个不换机用户,得到的筛选后的用户账单数据一共有600个用户,包括100个换机用户和500个不换机用户,若预设的换机用户与不换机用户的比例为1:3,则从1000个用户中抽取100个换机用户和300个不换机用户,得到的筛选后的用户账单数据一共有400个用户,包括为100个换机用户和300个不换机用户。

之后,按照预设划分比例对筛选后的用户账单数据划分为训练数据及测试数据。例如,训练数据及测试数据比例为1:2,按照1:2的比例对上个例子中的600个用户进行划分,得到的训练数据为200人,测试数据为400人,但是在这200个训练数据中换机用户与不换机用户的比例仍需要为1:5,即在这200个训练数据中包括33个换机用户(200乘以六分之一)和167个不换机用户(200乘以六分之五),在这400个测试数据中换机用户与不换机用户的比例仍需要为1:5,即在这400个测试数据中包括67个换机用户(400乘以六分之一)和333个不换机用户(400乘以六分之五)。

优选的,测试数据与训练数据的比为3:7。

步骤s203、利用训练数据对预设的决策树模型进行训练,得到训练后的第一决策树模型;

在本发明实施例中,决策树(decisiontree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

优选的,本发明选择的决策树模型为决策树c5.0模型。

其中,在对预设的决策树模型进行训练时,会对训练数据进行分析,并根据重要情况自动的将重要性较低的数据指标排除掉,生成一张数据表,该数据表分为两种:排除掉的数据指标和没有排除掉的数据指标。

步骤s204、基于第一决策树模型对测试数据进行测试确定预测结果;

在本发明实施例中,将测试数据输入至第一决策树模型,会得到预测结果。

步骤s205、利用预测结果评估第一决策树模型的性能是否满意预设条件;在本发明实施例中,预设条件是用户预先设置的,可根据实际情况进行设置和调整。例如,预设条件为80分,则预测结果若大于或等于80则表示第一决策树模型的性能满意预设条件,若预测结果为70分,则需要对第一决策树模型进行完善处理操作。这里的完善处理操作分为两步,第一步为:在完成步骤s203后,会得到一张数据表,观察该数据表,将排除掉的数据指标所对应的的数据重新加入训练数据中进行训练,得到完善后的第一决策树模型,之后对完善后的第一决策树模型进行测试,得到预测结果,查看该预测结果是否大于80分或等于80分,若大于80分或等于80分,则已经得到满足预设条件的第一决策树模型,结束完善处理操作,若小于80分,则进行完善处理操作的第二步,调整换机用户和不换机用户的比例,例如之前将换机用户和不换机用户的比例为1:5,此时根据实际情况将换机用户和不换机用户的比例调整为1:8,从用户账单数据中抽取100个换机用户和800个不换机用户,按照预设划分比例将这900个用户账单数据划分为训练数据及测试数据。并再次进行训练和测试,一直到得到的第一决策树模型满足预设条件。

其中,表2示出了在预设账单换机预测方法中,数据指标的关键性排名,该表中的数据指标为模型训练时不可缺少的指标。

表2

步骤s206、若满足,则将待预测数据输入第一决策树模型,且将第一决策树模型输出的结果数据确定为第一换机用户结果数据。

在本发明实施例中,在满足预设条件后,将待预测数据输入第一决策树模型,且将第一决策树模型输出的结果数据确定为第一换机用户结果数据。例如,训练和测试的数据为2017年2月的数据,为了预测出4月份的第一换机用户结果数据,则将3月份的数据(待预测数据)输入第一决策树模型,并将输出的结果数据确定为第一换机用户结果数据。

在本发明实施例中,与现有技术相比,本发明实施例基于用户账单数据定义预测换机用户的数据指标,该数据指标对模型进行训练有重要作用,利用训练数据对预设的决策树模型进行训练,得到训练后的第一决策树模型后,对该模型进行测试,若预测结果满足预设条件则将待预测数据输入满足预设条件的第一决策树模型得到第一换机用户结果数据,若预测结果不满足预设条件,则对训练数据和测试数据进行调整,调整后再次进行训练和测试,直到预测结果满足预设条件,从而可以得到准确的第一换机用户结果数据。

请参阅图3,为图1所示第一实施例步骤102的细化步骤的流程示意图,包括:

步骤s301、基于搜索行为数据定义用户搜索行为的数据指标;

在本发明实施例中,首先对信令话单数据进行筛选,提取出用户搜索行为数据,进一步的,进行关键字匹配搜索,将搜索行为数据中有手机、终端等关键字的数据提取出来。

其中,该用户搜索行为的数据指标可以根据实际情况进行定义。

优选的,数据指标如表3所示:

表3

步骤s302、利用数据指标及预设筛选规则对搜索行为数据进行筛选,并将筛选后的搜索行为数据划分为训练数据及测试数据;

在本发明实施例中,利用数据指标对搜索行为数据进行筛选,从搜索行为数据中剔除数据指标缺失严重的数据、数据填写有误的数据及重复的数据,得到第一搜索行为数据,按照预设筛选规则对第一搜索行为数据进行二次筛选,其中,按照预设筛选规对第一搜索行为数据进行二次筛选分为两个步骤,第一步为:剔除掉第一搜索行为数据中某时间段内搜索次数小于n(n为正整数)次的数据,得到第二搜索行为数据,这里的某时间段可以是一个月、两个月等;第二步为:按照预设的换机用户与不换机用户的比例对第二搜索行为数据进行数据抽取。例如,第二搜索行为数据为1000个用户,其中换机用户为500人,不换机用户为500人,预设的换机用户与不换机用户的比例为1:5,则从1000个用户中抽取100个换机用户和500个不换机用户,得到的筛选后的搜索行为数据一共有600个用户,包括100个换机用户和500个不换机用户,若预设的换机用户与不换机用户的比例为1:3,则从1000个用户中抽取100个换机用户和300个不换机用户,得到的筛选后的搜索行为数据一共有400个用户,包括为100个换机用户和300个不换机用户。

其中,第一步剔除掉第一搜索行为数据中某时间段内搜索次数小于n(n为正整数)次的数据可根据实际情况选择操作或不操作。

之后,按照预设划分比例对筛选后的搜索行为数据划分为训练数据及测试数据。例如,训练数据及测试数据比例为1:2,按照1:2的比例对上个例子中的600个用户进行划分,得到的训练数据为200人,测试数据为400人,但是在这200个训练数据中换机用户与不换机用户的比例仍需要为1:5,即在这200个训练数据中包括33个换机用户(200乘以六分之一)和167个不换机用户(200乘以六分之五),在这400个测试数据中换机用户与不换机用户的比例仍需要为1:5,即在这400个测试数据中包括67个换机用户(400乘以六分之一)和333个不换机用户(400乘以六分之五)。

优选的,测试数据与训练数据的比为3:7。

步骤s303、利用训练数据对预设的决策树模型进行训练,得到训练后的第二决策树模型;

在本发明实施例中,在对预设的决策树模型进行训练时,会对训练数据进行分析,并根据重要情况自动的将重要性较低的数据指标排除掉,生成一张数据表,该数据表分为两种:排除掉的数据指标和没有排除掉的数据指标。

步骤s304、基于第二决策树模型对测试数据进行测试确定预测结果;

在本发明实施例中,将测试数据输入至第二决策树模型,会得到一个预测结果。

步骤s305、利用预测结果评估第二决策树模型的性能是否满意预设条件;

在本发明实施例中,预设条件是用户预先设置的,可根据实际情况进行设置和调整。例如,预设条件为80分,则预测结果若大于或等于80则表示第二决策树模型的性能满意预设条件,若预测结果为70分,则需要对第二决策树模型进行完善处理操作,这里的完善处理操作分为两步,第一步为:在完成步骤s303后,会得到一张数据表,观察该数据表,将排除掉的数据指标所对应的的数据重新加入训练数据中进行训练,得到完善后的第二决策树模型,之后对完善后的第二决策树模型进行测试,得到预测结果,查看该预测结果是否大于80分或等于80分,若大于80分或等于80分,则已经得到满足预设条件的第二决策树模型,结束完善处理操作,若小于80分,则进行完善处理操作的第二步,调整换机用户和不换机用户的比例,例如之前将换机用户和不换机用户的比例为1:5,此时根据实际情况将换机用户和不换机用户的比例调整为1:8,从搜索行为数据中抽取100个换机用户和800个不换机用户,按照预设划分比例将这900个搜索行为数据划分为训练数据及测试数据,并再次进行训练和测试,一直到得到的第二决策树模型满足预设条件。

其中,表4示出了在预设搜索行为预测方法中,数据指标的关键性排名,该表中的数据指标为模型训练时不可缺少的指标。

表4

步骤s306、若满足,则将待预测数据输入第二决策树模型,且将第二决策树模型输出的结果数据确定为第二换机用户结果数据。

在本发明实施例中,在满足预设条件后,将待预测数据输入第二决策树模型,且将第二决策树模型输出的结果数据确定为第二换机用户结果数据。例如,训练和测试的数据为2017年2月的数据,为了预测出4月份的第二换机用户结果数据,则将3月份的数据(待预测数据)输入第二决策树模型,并将输出的结果数据确定为第二换机用户结果数据。

与现有技术相比,本发明实施例基于搜索行为数据定义用户搜索行为的数据指标,该数据指标对模型进行训练有重要作用,利用训练数据对预设的决策树模型进行训练,得到训练后的第二决策树模型后,对该模型进行测试,若预测结果满足预设条件则将待预测数据输入满足预设条件的第二决策树模型得到第二换机用户结果数据,若预测结果不满足预设条件,则对训练数据和测试数据进行调整,调整后再次进行训练和测试,直到预测结果满足预设条件,从而可以得到准确的第二换机用户结果数据。

请参阅图4,为图1所示第一实施例步骤103的细化步骤的流程示意图,包括:

步骤s401、比较第一换机用户结果数据及第二换机用户结果数据是否相同;

步骤s402、若相同,则将第一换机用户结果数据或第二换机用户结果数据确定为预测结果数据;

步骤s403、若不相同,则将跟用户账单数据有关的第一置信度和跟搜索行为数据有关的第二置信度进行比较;

在本发明实施例中,置信度也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。

在本发明实施例中,在用预设账单换机预测方法得到满足预设条件的第一决策树模型时,第一决策树模型可以给出第一置信度,在用预设搜索行为预测方法得到满足预设条件的第一决策树模型时,第一决策树模型可以给出第二置信度,将跟用户账单数据有关的第一置信度和跟搜索行为数据有关的第二置信度进行比较。

步骤s404、若第一置信度大于第二置信度,则确定第一换机用户结果数据为预测结果数据,若第二置信度大于第一置信度,则确定第二换机用户结果数据为预测结果数据。

在本发明实施例中,置信度越高预测的准确程度越大。例如,置信度为0.95表示:估计正确的概率为95%,出现错误的概率为5%,置信度为0.85表示:估计正确的概率为85%,出现错误的概率为15%。

在本发明实施例中,在第一换机用户结果数据与第二换机用户结果数据不相同的时候,比较将跟用户账单数据有关的第一置信度和跟搜索行为数据有关的第二置信度的大小,根据该置信度的大小比较可以得到更加正确的预测结果数据,从而可以得到更加准确的用户换机预测清单,从而可以更准确的预测出用户更换终端的倾向。

请参阅图5,图5为本发明第二实施例提供的一种用户换机预测装置的功能模块示意图,包括:

第一确定模块501,用于根据获取到的用户账单数据及预设账单换机预测方法确定第一换机用户结果数据;

在本发明实施例中,账单数据包括用户信息、业务基本信息、终端配置信息、合约信息、终端更换信息、使用情况等数据。

其中,预设账单换机预测方法为用户预先自定义设置,用户可以根据实际情况选择不同的方法。

第二确定模块502,用于根据获取到的搜索行为数据及预设搜索行为预测方法确定第二换机用户结果数据及目标终端型号数据;

在本发明实施例中,搜索行为数据包括用户搜索总次数、搜索的终端型号、搜索总天数、搜索的消费范围等数据。

其中,预设搜索行为预测方法为用户预先自定义设置,用户可以根据实际情况选择不同的方法,该预设搜索行为预测方法与预设账单换机预测方法可以是同一种方法也可以是不相同的方法。

第三确定模块503,用于对第一换机用户结果数据及第二换机用户结果数据进行比较,并根据比较结果确定预测结果数据;

在本发明实施例中,该预测结果数据表示预测出的可能要换机的用户信息,该预测结果数据包括预测的想要换机的用户人数,分部的地理位置等信息。

第四确定模块504,用于根据预测结果数据及目标终端型号数据确定用户换机预测清单。

在本发明实施例中,目标终端型号数据为用户搜索次数排名前n名的终端型号的数据,n为正整数。

优选的,将预测结果数据及用户搜索次数排名前n名的终端型号的数据进行关联匹配,确定用户换机预测清单。

在本发明实施例中,第一确定模块501根据获取到的用户账单数据及预设账单换机预测方法确定第一换机用户结果数据,第二确定模块502并根据获取到的搜索行为数据及预设搜索行为预测方法确定第二换机用户结果数据及目标终端型号数据,第三确定模块503将第一换机用户结果数据与第二换机用户结果数据进行比较,从而确定预测结果数据,第四确定模块504将该预测结果数据与目标终端型号数据匹配关联,从而确定用户换机预测清单,并可以更准确的预测出用户更换终端的倾向。

请参阅图6,为图5所示第二实施例中第一确定模块501的细化功能模块示意图,包括:

第一定义单元601,用于基于用户账单数据定义预测换机用户的数据指标;

在本发明实施例中,该预测换机用户的数据指标可以实际情况进行定义。

优选的,数据指标如第一实施例中的表1所示。

第一划分单元602,用于利用数据指标及预设筛选规则对用户账单数据进行筛选,并将筛选后的用户账单数据划分为训练数据及测试数据;

在本发明实施例中,利用数据指标对用户账单数据进行筛选,从账单数据中剔除数据指标缺失严重的数据、数据填写有误的数据及重复的数据,得到第一用户账单数据,按照预设筛选规则对第一用户账单数据进行二次筛选,其中,按照预设筛选规对第一用户账单数据进行二次筛选分为两个步骤,第一步为:剔除掉第一用户账单数据中某时间段内搜索次数小于n(n为正整数)次的数据,得到第二用户账单数据,这里的某时间段可以是一个月、两个月等;第二步为:按照预设的换机用户与不换机用户的比例对第二用户账单数据进行数据抽取。例如,第二用户账单数据为1000个用户,其中换机用户为500人,不换机用户为500人,预设的换机用户与不换机用户的比例为1:5,则从1000个用户中抽取100个换机用户和500个不换机用户,得到的筛选后的用户账单数据一共有600个用户,包括100个换机用户和500个不换机用户,若预设的换机用户与不换机用户的比例为1:3,则从1000个用户中抽取100个换机用户和300个不换机用户,得到的筛选后的用户账单数据一共有400个用户,包括为100个换机用户和300个不换机用户。

之后,按照预设划分比例对筛选后的用户账单数据划分为训练数据及测试数据。例如,训练数据及测试数据比例为1:2,按照1:2的比例对上个例子中的600个用户进行划分,得到的训练数据为200人,测试数据为400人,但是在这200个训练数据中换机用户与不换机用户的比例仍需要为1:5,即在这200个训练数据中包括33个换机用户(200乘以六分之一)和167个不换机用户(200乘以六分之五),在这400个测试数据中换机用户与不换机用户的比例仍需要为1:5,即在这400个测试数据中包括67个换机用户(400乘以六分之一)和333个不换机用户(400乘以六分之五)。

优选的,测试数据与训练数据的比为3:7。

第一训练单元603,用于利用训练数据对预设的决策树模型进行训练,得到训练后的第一决策树模型;

在本发明实施例中,在对预设的决策树模型进行训练时,会对训练数据进行分析,并根据重要情况自动的将重要性较低的数据指标排除掉,并生成一张数据表,该数据表分为两种:排除掉的数据指标和没有排除掉的数据指标。

第一测试单元604,用于基于第一决策树模型对测试数据进行测试确定预测结果;

第一评估单元605,用于利用预测结果评估第一决策树模型的性能是否满意预设条件;

在本发明实施例中,预设条件是用户预先设置的,可根据实际情况进行设置和调整。例如,预设条件为80分,则预测结果若大于或等于80则表示第一决策树模型的性能满意预设条件,若预测结果为70分,则需要对第一决策树模型进行完善处理操作。这里的完善处理操作分为两步,第一步为:在对预设的决策树模型进行训练后,会得到一张数据表,观察该数据表,将排除掉的数据指标所对应的的数据重新加入训练数据中进行训练,得到完善后的第一决策树模型,之后对完善后的第一决策树模型进行测试,得到预测结果,查看该预测结果是否大于80分或等于80分,若大于80分或等于80分,则已经得到满足预设条件的第一决策树模型,结束完善处理操作,若小于80分,则进行完善处理操作的第二步,调整换机用户和不换机用户的比例,例如之前将换机用户和不换机用户的比例为1:5,此时根据实际情况将换机用户和不换机用户的比例调整为1:8,从用户账单数据中抽取100个换机用户和800个不换机用户,按照预设划分比例将这900个用户账单数据划分为训练数据及测试数据,并再次进行训练和测试,一直到得到的第一决策树模型满足预设条件。

其中,第一实施例中的表2示出了在预设账单换机预测方法中,数据指标的关键性排名,该表中的数据指标为模型训练时不可缺少的指标。

第一确定单元606,用于若满足,则将待预测数据输入第一决策树模型,且将第一决策树模型输出的结果数据确定为第一换机用户结果数据。

在本发明实施例中,在满足预设条件后,将待预测数据输入第一决策树模型,且将第一决策树模型输出的结果数据确定为第一换机用户结果数据。例如,训练和测试的数据为2017年2月的数据,为了预测出4月份的第一换机用户结果数据,则将3月份的数据(待预测数据)输入第一决策树模型,并将输出的结果数据确定为第一换机用户结果数据。

与现有技术相比,本发明实施例基于用户账单数据定义预测换机用户的数据指标,该数据指标对模型进行训练有重要作用。其中,利用训练数据对预设的决策树模型进行训练,得到训练后的第一决策树模型后,对该模型进行测试,若预测结果满足预设条件则将待预测数据输入满足预设条件的第一决策树模型得到第一换机用户结果数据,若预测结果不满足预设条件,则对训练数据和测试数据进行调整,调整后再次进行训练和测试,直到预测结果满足预设条件,从而可以得到准确的第一换机用户结果数据。

请参阅图7,为图5所示第二实施例中第二确定单元502的细化功能模块示意图,包括:

第二定义单元701,用于基于搜索行为数据定义用户搜索行为的数据指标;

在本发明实施例中,第二定义单元701首先对信令话单数据进行筛选,提取出用户搜索行为数据,进一步的,进行关键字匹配搜索,将搜索行为数据中有手机、终端等关键字的数据提取出来。

在本发明实施例中,该用户搜索行为的数据指标可以实际情况进行定义。

优选的,数据指标如第一实施例中的表3所示。

第二划分单元702,用于利用数据指标及预设筛选规则对搜索行为数据进行筛选,并将筛选后的搜索行为数据划分为训练数据及测试数据;

在本发明实施例中,第二划分单元702利用数据指标对搜索行为数据进行筛选,从搜索行为数据中剔除数据指标缺失严重的数据、数据填写有误的数据及重复的数据,得到第一搜索行为数据,按照预设筛选规则对第一搜索行为数据进行二次筛选,其中,按照预设筛选规对第一搜索行为数据进行二次筛选分为两个步骤,第一步为:剔除掉第一搜索行为数据中某时间段内搜索次数小于n(n为正整数)次的数据,得到第二搜索行为数据,这里的某时间段可以是一个月、两个月等;第二步为:按照预设的换机用户与不换机用户的比例对第二搜索行为数据进行数据抽取。例如,第二搜索行为数据为1000个用户,其中换机用户为500人,不换机用户为500人,预设的换机用户与不换机用户的比例为1:5,则从1000个用户中抽取100个换机用户和500个不换机用户,得到的筛选后的搜索行为数据一共有600个用户,包括100个换机用户和500个不换机用户,若预设的换机用户与不换机用户的比例为1:3,则从1000个用户中抽取100个换机用户和300个不换机用户,得到的筛选后的搜索行为数据一共有400个用户,包括为100个换机用户和300个不换机用户。

之后,按照预设划分比例对筛选后的搜索行为数据划分为训练数据及测试数据。例如,训练数据及测试数据比例为1:2,按照1:2的比例对上个例子中的600个用户进行划分,得到的训练数据为200人,测试数据为400人,但是在这200个训练数据中换机用户与不换机用户的比例仍需要为1:5,即在这200个训练数据中包括33个换机用户(200乘以六分之一)和167个不换机用户(200乘以六分之五),在这400个测试数据中换机用户与不换机用户的比例仍需要为1:5,即在这400个测试数据中包括67个换机用户(400乘以六分之一)和333个不换机用户(400乘以六分之五)。

优选的,测试数据与训练数据的比为3:7。

第二训练单元703,用于利用训练数据对预设的决策树模型进行训练,得到训练后的第二决策树模型;

在本发明实施例中,在对预设的决策树模型进行训练时,会对训练数据进行分析,并根据重要情况自动的将重要性较低的数据指标排除掉,并生成一张数据表,该数据表分为两种:排除掉的数据指标和没有排除掉的数据指标。

第二测试单元704,用于基于第二决策树模型对测试数据进行测试确定预测结果;

第二评估单元705,用于利用预测结果评估第二决策树模型的性能是否满意预设条件;

在本发明实施例中,预设条件是用户预先设置的,可根据实际情况进行设置和调整。例如,预设条件为80分,则预测结果若大于或等于80则表示第二决策树模型的性能满意预设条件,若预测结果为70分,则需要对第二决策树模型进行完善处理操作。这里的完善处理操作分为两步,第一步为:在完成步骤s303后,会得到一张数据表,观察该数据表,将排除掉的数据指标所对应的的数据重新加入训练数据中进行训练,得到完善后的第二决策树模型,对完善后的第二决策树模型进行测试,得到预测结果,查看该预测结果是否大于80分或等于80分,若大于80分或等于80分,则已经得到满足预设条件的第二决策树模型,结束完善处理操作,若小于80分,则进行完善处理操作的第二步,调整换机用户和不换机用户的比例,例如之前将换机用户和不换机用户的比例为1:5,此时根据实际情况将换机用户和不换机用户的比例调整为1:8,从搜索行为数据中抽取100个换机用户和800个不换机用户,按照预设划分比例将这900个搜索行为数据划分为训练数据及测试数据,再次进行训练和测试,一直到得到的第二决策树模型满足预设条件。

其中,第一实施例中的表4示出了在预设搜索行为预测方法中,数据指标的关键性排名,该表中的数据指标为模型训练时不可缺少的指标。

第二确定单元706,用于若满足,则将待预测数据输入第二决策树模型,且将第二决策树模型输出的结果数据确定为第二换机用户结果数据。

在本发明实施例中,在满足预设条件后,将待预测数据输入第二决策树模型,且将第二决策树模型输出的结果数据确定为第二换机用户结果数据。例如,训练和测试的数据为2017年2月的数据,为了预测出4月份的第二换机用户结果数据,则将3月份的数据(待预测数据)输入第二决策树模型,并将输出的结果数据确定为第二换机用户结果数据。

与现有技术相比,本发明实施例基于搜索行为数据定义用户搜索行为的数据指标,该数据指标对模型进行训练有重要作用。其中,利用训练数据对预设的决策树模型进行训练,得到训练后的第二决策树模型后,对该模型进行测试,若预测结果满足预设条件则将待预测数据输入满足预设条件的第二决策树模型得到第二换机用户结果数据,若预测结果不满足预设条件,则对训练数据和测试数据进行调整,调整后再次进行训练和测试,直到预测结果满足预设条件,从而可以得到准确的第二换机用户结果数据。

请参阅图8,为图5所示第二实施例中第三确定模块的细化功能模块示意图,包括:

第一比较单元801,用于比较第一换机用户结果数据及第二换机用户结果数据是否相同;

第三确定单元802,用于若相同,则将第一换机用户结果数据或第二换机用户结果数据确定为预测结果数据;

第二比较单元803,用于若不相同,则将跟用户账单数据有关的第一置信度和跟搜索行为数据有关的第二置信度进行比较;

在本发明实施例中,在用预设账单换机预测方法得到满足预设条件的第一决策树模型时,第一决策树模型可以给出第一置信度,在用预设搜索行为预测方法得到满足预设条件的第一决策树模型时,第一决策树模型可以给出第二置信度,将跟用户账单数据有关的第一置信度和跟搜索行为数据有关的第二置信度进行比较。

第四确定单元804,用于若第一置信度大于第二置信度,则确定第一换机用户结果数据为预测结果数据,若第二置信度大于第一置信度,则确定第二换机用户结果数据为预测结果数据。

在本发明实施例中,在第一换机用户结果数据与第二换机用户结果数据不相同的时候,第二比较单元803比较跟用户账单数据有关的第一置信度和跟搜索行为数据有关的第二置信度的大小,根据该置信度的大小比较可以得到更加正确的预测结果数据,从而可以得到更加准确的用户换机预测清单,从而可以更准确的预测出用户更换终端的倾向。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1