预测叫车平台的用户流失的方法和装置制造方法

文档序号:6637877阅读:189来源:国知局
预测叫车平台的用户流失的方法和装置制造方法
【专利摘要】本发明的实施例提供了一种预测叫车平台的用户流失的方法,包括:基于用户的行为变量来获得预定的预测模型的输入变量;将判断用户是否将会流失的变量确定为预测模型的输出变量;将输入变量和输出变量作为历史数据,对预测模型进行训练;以及基于经训练的预测模型,来预测用户是否将会流失。本发明的实施例还提供了一种预测叫车平台的用户是否将会流失的装置。使用本发明的实施例的方法和装置,可以在预测用户是否将会流失时,能够提前一定时间给出流失用户清单并且保证高准确率、高覆盖率,降低维系难度;缩小目标用户群,降低维系活动成本。
【专利说明】预测叫车平台的用户流失的方法和装置

【技术领域】
[0001] 本公开的实施例一般设及一种预测方法和装置,并且更特别地,设及一种预测叫 车平台的用户流失的方法和装置。

【背景技术】
[0002] 随着移动互联网的高速发展,大多数司机已经习惯用软件接单、乘客习惯用软件 叫单。W当下流行的在移动终端上使用的叫车平台应用软件为例,乘客打开软件发出打车 需求,消息被推送到叫车平台的服务器,叫车平台的服务器利用大数据在线分析,把订单精 准推送给附近的司机。该样一来有利于降低司机空驶,提升司机收入等。但可能由于对软 件操作方法不熟、软件定位信息不准、抢单成功率低等原因,导致司机流失。
[0003] 司机流失过多将导致叫车平台的供求不均衡,不利于乘客叫单成功W及叫车平台 的稳定。发展一个新司机用户的成本远远高于维系一个老司机用户的成本。运营人员为了 挽回流失的司机,只能在司机已经不使用软件一段时间后,才会采取相应措施,但此时挽回 难度极大;若是对全部司机进行挽留活动则成本极高。例如,司机张师傅在8月常使用某叫 车平台软件,由于某些问题导致张师傅在9月已经不再使用,运营人员在10月才知道张师 傅在9月未使用后,便会对张师傅发放一些回归奖励金额等。但由于司机较长时间未用,可 能已经使用竞争对手软件等,很难挽回。
[0004] 如果能在司机用户即将流失前进行挽留活动,则可W极大地提高了挽留的成功率 并且可W极大地降低挽留活动的成本。继续W上面的张师傅为例,如果能根据张师傅在8 月中使用某叫车平台软件的数据分析预测出张师傅将在9月份不再使用该叫车平台软件, 则对于维护和挽留用户张师傅是极为有利的。


【发明内容】

[0005] 鉴于现有技术中存在的上述问题,本发明的实施例的目的在于:提供一种预测叫 车平台的用户流失的方法和装置,W便于在预测用户是否将会流失时,能够提前一定时间 给出流失用户清单并且保证高准确率、高覆盖率,降低维系难度;缩小目标用户群,降低维 系活动成本。
[0006] 根据本发明的第一方面,提供了一种预测叫车平台的用户流失的方法,包括:基于 用户的行为变量来获得预定的预测模型的输入变量;将判断用户是否将会流失的变量确定 为所述预测模型的输出变量;将所述输入变量和所述输出变量作为历史数据,对所述预测 模型进行训练;W及基于经训练的所述预测模型,来预测用户是否将会流失。
[0007] 根据本发明的一些实施例,所述预定的预测模型包括;基于神经网络算法的模型、 基于决策树的模型、或者基于逻辑回归算法的模型。
[000引根据本发明的一些实施例,基于用户的行为变量来获得预定的预测模型的输入变 量包括:基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多 个所述输入变量。
[0009] 根据本发明的一些实施例,基于用户的多个行为变量中的每个用户行为变量在不 同时间段中的取值来获得多个所述输入变量包括:通过用户的所述多个行为变量中的每个 用户行为变量在不同时间段中的取值、该些取值之间的差值、该些取值之间的比值、该些取 值的平均值、W及该些取值的方差值中的至少一项,来获得多个所述输入变量。
[0010] 根据本发明的一些实施例,用户的所述行为变量包括:接单次数和在线时长。
[0011] 根据本发明的一些实施例,将判断用户是否将会流失的变量确定为所述预测模型 的输出变量包括;将只有两种可能取值的变量作为所述输出变量,所述两种可能取值分别 对应于用户将会流失和用户将不会流失。
[0012] 根据本发明的一些实施例,该方法进一步包括:基于对输入变量和输出变量所进 行的相关性分析或数据分布分析,来进一步筛选所述预定的预测模型的输入变量。
[0013] 根据本发明的一些实施例,将所述输入变量和所述输出变量作为历史数据,对预 测模型进行训练包括;将所述输入变量输入所述预测模型,计算得出所述输出变量的取值; 将计算得出所述输出变量的取值与所述输出变量的已知值相比较而得到误差;根据所述误 差来调整所述预测模型;W及迭代进行所述计算、所述比较和所述调整,直到所述误差为零 或者迭代次数达到预定最大次数。
[0014] 根据本发明的一些实施例,如果所述预测模型是基于神经网络算法的模型,则根 据所述误差来调整所述预测模型包括:根据所述误差来调整所述基于神经网络算法的模型 的输入变量的数量、隐层的数量、隐层神经元的数量、隐层的传递函数、W及输出层的传递 函数中的至少一项。
[0015] 根据本发明的一些实施例,该方法进一步包括对所述预测模型进行评价。
[0016] 根据本发明的一些实施例,使用W下各项中至少一项作为评价指标来评价所述预 测模型的预测结果;准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比 率、W及在所有实际为流失的样本中被错误判断为流失之比率;并且基于所述评价来调整 优化所述预测模型,或者从多个经训练的预测模型中选出最优的预测模型。
[0017] 根据本发明的一些实施例,使用ROC空间的方法来评价所述预测模型的预测结 果。
[0018] 根据本发明的第二方面,提供了一种预测叫车平台的用户流失的装置,包括:输入 变量确定单元,被配置为基于用户的行为变量来获得预定的预测模型的输入变量;输出变 量确定单元,被配置为将判断用户是否将会流失的变量确定为所述预测模型的输出变量; 训练单元,被配置为将所述输入变量和所述输出变量作为历史数据,对所述预测模型进行 训练;W及预测单元,被配置为基于经训练的所述预测模型,来预测用户是否将会流失。
[0019] 总之,为了提前挽回用户、降低维系成本,使用本发明的实施例,能够W司机历史 的在线、听单、抢单等使用行为信息预测出一定时间内司机是否即将流失的预测模型。该预 测模型利用历史上已流失司机、未流失司机行为做样本,通过选取预测模型算法(诸如,BP 神经网络算法)进行模型训练,将现有司机数据输入模型,可输出即将流失司机的清单。利 用清单,业务人员马上可W进行维系挽留工作,W提高成功率。

【专利附图】

【附图说明】
[0020] 通过参考附图阅读下文的详细描述,本发明的实施例的上述W及其他目的、特征 和优点将变得容易理解。在附图中,w示例性而非限制性的方式示出了本发明的若干实施 例,其中:
[0021] 图1示出了根据本发明的一个实施例的一种预测叫车平台的用户流失的方法的 流程图;
[0022] 图2示出了根据本发明的一个实施例的一种预测叫车平台的用户流失的装置的 框图;
[0023] 图3示出了根据本发明的一个实施例的基于神经网络算法的预测模型的结构框 图;
[0024] 图4示出了根据本发明的一个实施例的预测模型的输入参数之间的相关性分析 结果的示意图;
[0025] 图5示出了根据本发明的一个实施例的预测模型的数据分布观察的示意图;
[0026] 图6示出了根据本发明的一个实施例的预测模型的准确率和命中率的示意图;W 及
[0027] 图7示出了根据本发明的一个实施例的预测模型的ROC曲线的示意图。

【具体实施方式】
[002引下面将参考附图中所示出的若干示例性实施例来描述本发明的原理和精神。应当 理解,描述该些实施例仅是为了使本领域的技术人员能够更好地理解并实现本发明,而并 非W任何方式限制本发明的范围。
[0029] 参考图1,图1示出了根据本发明的一个实施例的一种预测叫车平台的用户流失 的方法100的流程图。根据本发明的一个实施例的方法100需要解决的预测问题是,根据 叫车平台的已知的关于用户使用叫车平台的使用数据来预测该用户未来还是否会继续使 用该叫车平台。W下详细地介绍方法100的各个步骤。
[0030] 方法100开始于步骤101,在步骤101中,基于用户的行为变量来获得预定的预测 模型的输入变量。
[0031] 本领域的技术人员可W理解,在预测叫车平台的用户是否流失的该个问题中,预 测问题是一个二分类问题,即流失或者不流失。而用来预测的基础是用户使用叫车平台的 历史数据,也就是用户的行为变量。对于该样一个二分类的预测问题,可W基于各种算法来 建立预测模型,该些算法包括但不限于;神经网络、决策树、或者逻辑回归算法等,其中神经 网络可W是BP神经网络。应当理解,本领域的技术人员还可W根据具体的应用环境W及其 他的相关背景来选取本文中没有提到的其他预测模型,本发明的实施并不限于特定的预测 模型。
[0032] 在确定了预定的预测模型之后,接下来的问题是如何获得用于该预定的预测模型 的输入变量。根据本发明的一些实施例,在方法100中,基于用户的行为变量来获得预定 的预测模型的输入变量。如此,用户使用该叫车平台的历史行为特征被考虑在该预定的预 测模型中,从而实现了基于用户的历史使用行为特征来预测用户未来是否会流失的预测方 案。
[0033] 根据本发明的一些实施例,方法100可W基于用户的多个行为变量中的每个用户 行为变量在不同时间段中的取值来获得多个输入变量。例如,如果预测模型需要N个输入 变量,而被考虑的行为变量包括两个行为变量,即行为变量A和行为变量B,则可W根据行 为变量A在上个月的上旬的取值A1、行为变量A在上个月的中旬的取值A2、行为变量A在 上个月的下旬的取值A3 ; W及行为变量B在上个月的上旬的取值B1、行为变量B在上个月 的中旬的取值B2、行为变量B在上个月的下旬的取值B3来获得该N个输入变量,具体的方 法可W是对行为变量在不同时间段中的取值进行预定的运算,从而可W得到比=个更多的 输入变量值。
[0034] 本领域的技术人员应当理解,上面的示例仅是用于解释和说明本发明的实施例的 具体示例。本发明的范围并不限于该具体的示例,例如,本发明的输入变量的个数N可W根 据具体的预测要求或者预测结构的好坏进行适应性地设置。此外,用户行为变量的个数也 不限于两个,可W根据实际的应用情况来选择更多或者更少个数的行为变量来产生N个输 入变量。进一步地,上面的示例中的"上个月"、"上旬"、"中旬"、"下旬"也都是对于方法100 中的"不同时间段"的具体示例,在实际的应用中,本领域的技术人员可W根据实际情况进 行其他选取,例如,"上两个月"、"上周"、或者更长或更短的时间范围,本发明的保护范围不 限于此。最后,如下面进一步讨论的,对行为变量在不同时间段中的取值进行的预定运算并 不限于某一种特定的运算,而是只要能够根据行为变量在不同时间段中的取值而产生N个 输入变量W输入预测模型的运算都是该里所谓的"预定的运算"。
[0035] 根据本发明的一些实施例,方法100可W通过用户的所述多个行为变量中的每个 用户行为变量在不同时间段中的取值、该些取值之间的差值、该些取值之间的比值、该些取 值的平均值、W及该些取值的方差值中的至少一项,来获得多个所述输入变量。例如,还 是接着采用上面提到的示例,方法100可W使用A1、A2、A3和B1、B2、B3本身,W及类似 (A1-A2)、炬 1-B2)、(A1-B2)等差值,类似 A1/A2、B1/B3、A1/B1 等的比值,A1 至 A3 和 B1 至 B3的平均值和方差等来形成N个输入变量。应当理解,本领域的技术人员还可W采用本发 明的实施例中未提到的其他运算来从每个用户行为变量在不同时间段中的取值获得多个 输入变量。
[0036] 根据本发明的一些实施例,方法100中所采用的用户的行为变量包括接单次数和 在线时长。预测将流失的用户在流失前的使用行为会下降,即用户行为变量的取值通常会 下降,因此可W首选接单次数、在线时长等使用行为变量来进行方法100,因为在线时长和 接单次数可能是其他间接原因导致的直接结果变量。但是,本领域的技术人员可W理解,如 果通过该两个变量的变化不能很好的得出预测流失的预测模型,则可添加其他直接体验参 数对预测模型调优,例如,未使用叫车平台的天数等。
[0037] 接着,方法100前进至步骤102。在步骤102中,将判断用户是否将会流失的变量 确定为预测模型的输出变量。如上面所提到的,预测叫车平台的用户是否流失的该个问题 中,预测问题是一个二分类问题,即流失或者不流失。因此,预测模型的输出变量应当是一 个只有两种可能取值的变量,并且该两种可能取值分别对应于用户将会流失和用户将不会 流失。
[003引根据本发明的一些实施例,方法100还可W基于对输入变量和输出变量所进行的 相关性分析或数据分布分析,来进一步筛选预定的预测模型的输入变量。例如,可W首选 对输入变量、输出变量进行相关性、数据分布等基础分析,意在剔除输入参数之间相关性大 的、输入变量与输出变量相关性较小的、数据分布趋于集中的等,并进行不规则数据的清 洗。
[0039] 接着,方法100前进至步骤103。在步骤103中,将输入变量和输出变量作为历史 数据,对预测模型进行训练。根据本发明的一些实施例,该样的训练包括如下的具体步骤: 将输入变量输入预测模型,计算得出输出变量的取值;将计算得出输出变量的取值与输出 变量的已知值相比较而得到误差;根据该误差来调整预测模型;W及迭代进行计算、比较 和调整,直到该误差为零或者迭代次数达到预定最大次数。本领域的技术人员可W理解,该 最大次数可W由技术人员根据具体的应用环境来设置。
[0040] 根据本发明的一些实施例,如果预测模型是基于神经网络算法的模型,则根据该 误差来调整预测模型包括;根据该误差来调整基于神经网络算法的模型的输入变量的数 量、隐层的数量、隐层神经元的数量、隐层的传递函数、W及输出层的传递函数中的至少一 项。其中,调整隐层的传递函数还包括调整各个神经元的权系数。
[0041] 在使用历史数据对预测模型训练完毕之后,接下来,方法100前进至步骤104。在 步骤104中,基于经训练的所述预测模型,来预测用户是否将会流失。根据本发明的一些实 施例,根据用户最近使用叫车平台而新产生的行为变量来得到N个输入变量的值,将输入 变量的值输入到经训练预测模型,经过经训练预测模型的计算,可W得出用户是否将会流 失的预测结果。
[0042] 在得到了经训练的预测模型,W及使用经训练的预测模型来进行预测的预测结果 之后,可W对该预测模型进行模型的评估和调优。
[0043] 根据本发明的一些实施例,可W使用W下各项中至少一项作为评价指标来评价预 测模型的预测结果;准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比 率、W及在所有实际为流失的样本中被错误判断为流失之比率;并且基于该评价来调整优 化预测模型,或者从多个经训练的预测模型中选出最优的预测模型。
[0044] 下面详细地介绍各个评价指标,准确率二预测的准确流失司机数/预测的所有流 失司机数,准确率越高,模型效果越好。覆盖率二预测的准确流失司机数/全部实际流失司 机数,覆盖率越高,模型效果越好。TPR ;在所有实际为流失的样本中,被正确地判断为流失 之比率,TPR = TP/(TP+FN)。FPR ;在所有实际为非流失的样本中,被错误地判断为流失之 比率,FPR = FP/(FP+TN)。其中,TP是被正确地判断为流失的样本,(TP+FN)是所有实际为 流失的样本;FP是被错误地判断为流失的样本,(FP+TN)是所有实际为非流失的样本。图 6中示出了根据本公开内容稍后描述的一个具体实施例的预测模型的准确率和命中率的示 意图。
[0045] 根据本发明的一些实施例,可W使用ROC空间的方法来评价预测模型的预测结 果。
[0046] 图7示出了根据本公开内容稍后描述的一个具体实施例的预测模型的ROC曲线的 示意图。如图7所示,ROC空间将FPR定义为X轴,TPR定义为Y轴。给定一个的阔值,就能 从所有样本的(流失/非流失)真实值和预测值计算出一个狂=FPR,Y = TPR)坐标点。 所有坐标点绘制出了该条曲线,ROC曲线下方的面积称为AUC,AUC值越大的分类器,正确率 越高。
[0047] 根据本发明的一些实施例,如果预测模型是基于神经网络的模型,则调优可W通 过对输入样本的精准筛选,输入变量的增加、减少,对隐层神经元个数的设置等等来进行。
[0048] 根据本发明的一些实施例,对预测模型的评估包括,例如;W 6月有使用量、7月上 旬无使用量用户司机做输入样本训练,训练得到=组最优的流失预测模型。通过7月有使 用量、8月上旬无使用司机作为样本输入到模型,输出得到标记清单,对比实际流失数据,得 到命中率、准确率分别进行对比,可选出最优的一组作为最终模型。
[0049] 图2示出了根据本发明的一个实施例的一种预测叫车平台的用户流失的装置200 的框图。如图2所示出的,装置200可W包括输入变量确定单元201、输出变量确定单元 202、训练单元203、W及预测单元204。
[0化0] 根据本发明的一些实施例,输入变量确定单元201可W被配置为,基于用户的行 为变量来获得预定的预测模型的输入变量;输出变量确定单元202被配置为,将判断用户 是否将会流失的变量确定为预测模型的输出变量;训练单元203被配置为,将输入变量和 输出变量作为历史数据,对预测模型进行训练;并且预测单元204被配置为,基于经训练的 预测模型,来预测用户是否将会流失。
[0化1] 根据本发明的一些实施例,预定的预测模型可W包括;基于神经网络算法的模型、 基于决策树的模型、或者基于逻辑回归算法的模型。
[0化2] 根据本发明的一些实施例,输入变量确定单元201可W进一步被配置为;基于用 户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个输入变量。 [0化3] 根据本发明的一些实施例,输入变量确定单元201可W进一步被配置为;通过用 户的多个行为变量中的每个用户行为变量在不同时间段中的取值、该些取值之间的差值、 该些取值之间的比值、该些取值的平均值、W及该些取值的方差值中的至少一项,来获得多 个输入变量。
[0化4] 根据本发明的一些实施例,用户的行为变量可W包括;接单次数和在线时长。 [0化5] 根据本发明的一些实施例,输出变量确定单元202可W进一步被配置为;将只有 两种可能取值的变量作为输出变量,两种可能取值分别对应于用户将会流失和用户将不会 流失。
[0化6] 根据本发明的一些实施例,输入变量确定单元201可W进一步被配置为;基于对 输入变量和输出变量所进行的相关性分析或数据分布分析,来进一步筛选预定的预测模型 的输入变量。
[0化7] 根据本发明的一些实施例,训练单元203可W进一步被配置为:将输入变量输入 所述预测模型,计算得出输出变量的取值;将计算得出输出变量的取值与输出变量的已知 值相比较而得到误差;根据误差来调整预测模型;W及迭代进行计算、比较和调整,直到误 差为零或者迭代次数达到预定最大次数。
[0化引根据本发明的一些实施例,如果预测模型是基于神经网络算法的模型,则训练单 元203可W进一步被配置为:根据误差来调整基于神经网络算法的模型的输入变量的数 量、隐层的数量、隐层神经元的数量、隐层的传递函数、W及输出层的传递函数中的至少一 项。
[0化9] 根据本发明的一些实施例,装置200可W进一步包括评价单元,该评价单元可W 被配置为对预测模型进行评价。
[0060] 根据本发明的一些实施例,可W使用W下各项中至少一项作为评价指标来评价预 测模型的预测结果;准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比 率、w及在所有实际为流失的样本中被错误判断为流失之比率;并且基于所述评价来调整 优化所述预测模型,或者从多个经训练的预测模型中选出最优的预测模型。根据本发明的 一些实施例,可W使用ROC空间的方法来评价预测模型的预测结果。
[0061] 下面W基于神经网络的预测模型为例来具体地描述根据本发明的一个具体实施 例的实施方式。
[0062] 图3示出了根据本发明的一个实施例的基于神经网络算法的预测模型的结构框 图。如图3所示出的,该预测模型包括;包括多个输入节点的输入层,在图中W Input示出; 包括多个隐层神经元的隐层,在图中W Hidden示出;W及包括多个输出节点的输出层,在 图中W Ou化ut示出。
[0063] 首先举例定义几组数据进行说明,负样本;8月有使用行为,8月上旬无使用行为 的司机。正样本;8月有使用行为,8月上旬依然有使用行为的司机。待预测样本:假设今天 是10月1日,可W得到9月有使用行为司机数据,但在10月1日的时间点上不知道有多少 在10月上旬会流失,要基于现有数据进行预测司机是否流失。
[0064] 将历史上的正样本、负样本数据进行训练,评估后得到一组最优模型。该模型是将 正样本、负样本司机在8月的不同使用行为作为各自特征,可W对新输入数据的特征与正 样本、负样本相比较,再把新输入数据归类为正样本或负样本的同类。即待预测样本作为输 入,通过训练好的流失模型进行一系列计算,输出结果会对输入的司机清单进行两种标记, 1会流失,-1不会流失。该样便在10月1日提前知道了在10月上旬即将流失的司机清单。 [00化]预测模型的训练计算过程如下,在图3中,X1,X2,…,Xn是输入样本的各个变量, W1,W2,…,Wn是权系数。
[0066] Hi =E Wi*Xi = W1 X1+W2 X化…+Wn Xn,
[0067] 其中HI,肥,…,化是隐层神经元,WH1,W肥,…,WHn是化的各个权系数。
[0068] Y(t) = f ( E WHi地i-日),0 是偏移量
[0069] f[u]是阶跃函数:
[0070]

【权利要求】
1. 一种预测叫车平台的用户流失的方法,包括: 基于用户的行为变量来获得预定的预测模型的输入变量; 将判断用户是否将会流失的变量确定为所述预测模型的输出变量; 将所述输入变量和所述输出变量作为历史数据,对所述预测模型进行训练;以及 基于经训练的所述预测模型,来预测用户是否将会流失。
2. 根据权利要求1所述的方法,其中所述预定的预测模型包括: 基于神经网络算法的模型、基于决策树的模型、或者基于逻辑回归算法的模型。
3. 根据权利要求1所述的方法,其中基于用户的行为变量来获得预定的预测模型的输 入变量包括: 基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个 所述输入变量。
4. 根据权利要求3所述的方法,其中基于用户的多个行为变量中的每个用户行为变量 在不同时间段中的取值来获得多个所述输入变量包括: 通过用户的所述多个行为变量中的每个用户行为变量在不同时间段中的取值、这些取 值之间的差值、这些取值之间的比值、这些取值的平均值、以及这些取值的方差值中的至少 一项,来获得多个所述输入变量。
5. 根据权利要求1所述的方法,其中用户的所述行为变量包括:接单次数和在线时长。
6. 根据权利要求1所述的方法,其中将判断用户是否将会流失的变量确定为所述预测 模型的输出变量包括: 将只有两种可能取值的变量作为所述输出变量,所述两种可能取值分别对应于用户将 会流失和用户将不会流失。
7. 根据权利要求1所述的方法,进一步包括: 基于对输入变量和输出变量所进行的相关性分析或数据分布分析,来进一步筛选所述 预定的预测模型的输入变量。
8. 根据权利要求1所述的方法,其中将所述输入变量和所述输出变量作为历史数据, 对预测模型进行训练包括: 将所述输入变量输入所述预测模型,计算得出所述输出变量的取值; 将计算得出所述输出变量的取值与所述输出变量的已知值相比较而得到误差; 根据所述误差来调整所述预测模型;以及 迭代进行所述计算、所述比较和所述调整,直到所述误差为零或者迭代次数达到预定 最大次数。
9. 根据权利要求8所述的方法,其中在所述预测模型是基于神经网络算法的模型时, 根据所述误差来调整所述预测模型包括: 根据所述误差来调整所述基于神经网络算法的模型的输入变量的数量、隐层的数量、 隐层神经元的数量、隐层的传递函数、以及输出层的传递函数中的至少一项。
10. 根据权利要求1所述的方法,进一步包括对所述预测模型进行评价。
11. 根据权利要求10所述的方法,其中使用以下各项中至少一项作为评价指标来评价 所述预测模型的预测结果:准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失 之比率、以及在所有实际为流失的样本中被错误判断为流失之比率;并且基于所述评价来 调整优化所述预测模型,或者从多个经训练的预测模型中选出最优的预测模型。
12. 根据权利要求10所述的方法,其中使用ROC空间的方法来评价所述预测模型的预 测结果。
13. -种预测叫车平台的用户流失的装置,包括: 输入变量确定单元,被配置为基于用户的行为变量来获得预定的预测模型的输入变 量; 输出变量确定单元,被配置为将判断用户是否将会流失的变量确定为所述预测模型的 输出变量; 训练单元,被配置为将所述输入变量和所述输出变量作为历史数据,对所述预测模型 进行训练;以及 预测单元,被配置为基于经训练的所述预测模型,来预测用户是否将会流失。
14. 根据权利要求13所述的装置,其中所述预定的预测模型包括:基于神经网络算法 的模型、基于决策树的模型、或者基于逻辑回归算法的模型。
15. 根据权利要求13所述的装置,其中所述输入变量确定单元进一步被配置为: 基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个 所述输入变量。
16. 根据权利要求15所述的装置,其中所述输入变量确定单元进一步被配置为: 通过用户的所述多个行为变量中的每个用户行为变量在不同时间段中的取值、这些取 值之间的差值、这些取值之间的比值、这些取值的平均值、以及这些取值的方差值中的至少 一项,来获得多个所述输入变量。
17. 根据权利要求13所述的装置,其中用户的所述行为变量包括:接单次数和在线时 长。
18. 根据权利要求13所述的装置,其中所述输出变量确定单元进一步被配置为: 将只有两种可能取值的变量作为所述输出变量,所述两种可能取值分别对应于用户将 会流失和用户将不会流失。
19. 根据权利要求13所述的装置,其中所述输入变量确定单元进一步被配置为: 基于对输入变量和输出变量所进行的相关性分析或数据分布分析,来进一步筛选所述 预定的预测模型的输入变量。
20. 根据权利要求13所述的装置,其中所述训练单元进一步被配置为: 将所述输入变量输入所述预测模型,计算得出所述输出变量的取值; 将计算得出所述输出变量的取值与所述输出变量的已知值相比较而得到误差; 根据所述误差来调整所述预测模型;以及 迭代进行所述计算、所述比较和所述调整,直到所述误差为零或者迭代次数达到预定 最大次数。
21. 根据权利要求20所述的装置,其中在所述预测模型是基于神经网络算法的模型 时,所述训练单元进一步被配置为: 根据所述误差来调整所述基于神经网络算法的模型的输入变量的数量、隐层的数量、 隐层神经元的数量、隐层的传递函数、以及输出层的传递函数中的至少一项。
22. 根据权利要求13所述的装置,进一步包括:评价单元,被配置为对所述预测模型进 行评价。
23. 根据权利要求22所述的装置,其中使用以下各项中至少一项作为评价指标来评价 所述预测模型的预测结果:准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失 之比率、以及在所有实际为流失的样本中被错误判断为流失之比率;并且基于所述评价来 调整优化所述预测模型,或者从多个经训练的预测模型中选出最优的预测模型。
24. 根据权利要求22所述的装置,其中使用ROC空间的方法来评价所述预测模型的预 测结果。
【文档编号】G06Q50/30GK104504460SQ201410748736
【公开日】2015年4月8日 申请日期:2014年12月9日 优先权日:2014年12月9日
【发明者】陈国宝 申请人:北京嘀嘀无限科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1