用户流失预测方法、系统、设备和存储介质与流程

文档序号:20192137发布日期:2020-03-27 19:46阅读:208来源:国知局
用户流失预测方法、系统、设备和存储介质与流程

本发明涉及互联网产品技术领域,特别涉及一种用户流失预测方法、系统、设备和存储介质。



背景技术:

机票产品是ota(onlinetravelagency,在线旅游)平台重要的流量入口。用户在ota平台上购买机票产品不仅会为机票本身带来一定的利润,同时也会为平台上其他产品(如酒店、度假、商旅、签证服务等)带来流量和转化。针对机票用户流失进行预测对于整个ota平台都有着重要的意义。

现有的做法通常是通过运营人员利用现有规则手工圈定可能流失的用户。处理效率较低;同时手工圈定的方式对用户流失的概率进行预测的准确率也不高。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中通过运营人员利用现有规则手工圈定可能流失的用户存在处理效率较低,对用户流失的概率进行预测的准确率不高的缺陷,提供一种用户流失预测方法、系统、设备和存储介质。

本发明是通过下述技术方案来解决上述技术问题:

本发明提供了一种用户流失预测方法,所述用户流失预测方法包括:

获取历史数据,所述历史数据包括用户的历史行为数据和历史订单数据;

对所述历史数据中的所述用户进行圈定,以得到标签数据;

对所述标签数据进行预处理以得到样本数据,所述样本数据包括若干个变量维度;

基于所述样本数据对回归模型进行训练,以得到训练好的预测模型;

获取待预测用户的数据,对所述待预测用户的数据进行预处理以得到包括所述若干变量维度的待预测数据;

基于所述待预测数据使用所述预测模型对所述待预测用户进行预测,以得到所述待预测用户的流失的概率。

本方案中,利用机器学习的方法构建出准确预测用户流失的方法,解决了通过运营人员利用现有规则手工圈定可能流失的用户存在处理效率较低,对用户流失的概率进行预测的准确率不高的问题。

较佳地,所述用户流失预测方法还包括以下步骤:

将所述预测模型序列化为文件存储至服务器。

本方案中,进一步对模型进行序列化是为了方便传输和存储。本方案中,训练模型和线上部署预测模型是在不同服务器上,另外将预测模型序列化后存储成文件也方便做版本管理和回滚。

较佳地,所述历史行为数据包括历史搜索数据和/或历史浏览数据。

较佳地,所述历史数据为x个月之前的历史数据;

所述对所述历史数据中的所述用户进行圈定,以得到标签数据的步骤包括:

圈定连续n个月内成功订单大于m张且在后续x个月中未下单的所述历史数据中的所述用户为流失用户,所述历史数据中的所述用户中的剩余用户为未流失用户;

对所述流失用户的历史数据打标签,以得到流失标签数据;对所述未流失用户的历史数据打标签,以得到未流失标签数据;

所述标签数据包括所述流失标签数据和所述未流失标签数据;

其中,m、n、x均为正整数。

本方案中,进一步的限定了历史数据,使得输入数据更加准确,提高了用户流失预测的准确率。

较佳地,所述变量维度包括最近搜索时间、过去第一预设时间段内的搜索次数、最近访问时间、过去第二预设时间段内的访问次数、最近下单时间、过去第三预设时间段内的订单数、网页最大访问深度中的至少一种。

本方案中,进一步限定了具体的变量维度,提高了模型训练的准确性。

较佳地,所述回归模型包括逻辑回归、决策树回归、随机森林、xgboost(extremegradientboosting,极端梯度提升)中的任意一种。

本发明还提供了一种用户流失预测系统,所述用户流失预测系统包括:

获取模块,用于获取历史数据,所述历史数据包括用户的历史行为数据和历史订单数据;

圈定模块,用于对所述历史数据中的所述用户进行圈定,以得到标签数据;

预处理模块,用于对所述标签数据进行预处理以得到样本数据,所述样本数据包括若干个变量维度;

训练模块,用于基于所述样本数据对回归模型进行训练,以得到训练好的预测模型;

数据生成模块,用于获取待预测用户的数据,对所述待预测用户的数据进行预处理以得到包括所述若干变量维度的待预测数据;

预测模块,用于基于所述待预测数据使用所述预测模型对所述待预测用户进行预测,以得到所述待预测用户的流失的概率。

较佳地,所述用户流失预测系统还包括序列化模块,所述序列化模块用于将所述预测模型序列化为文件存储至服务器。

较佳地,所述历史行为数据包括历史搜索数据和/或历史浏览数据。

较佳地,所述历史数据为x个月之前的历史数据;

所述圈定模块包括:

圈定单元,用于圈定连续n个月内成功订单大于m张且在后续x个月中未下单的所述历史数据中的所述用户为流失用户,所述历史数据中的所述用户中的剩余用户为未流失用户;

标签单元,用于对所述流失用户的历史数据打标签,以得到流失标签数据;还用于对所述未流失用户的历史数据打标签,以得到未流失标签数据;

所述标签数据包括所述流失标签数据和所述未流失标签数据;

其中,m、n、x均为正整数。

较佳地,所述变量维度包括最近搜索时间、过去第一预设时间段内的搜索次数、最近访问时间、过去第二预设时间段内的访问次数、最近下单时间、过去第三预设时间段内的订单数、网页最大访问深度中的至少一种。

较佳地,所述回归模型包括逻辑回归、决策树回归、随机森林、xgboost中的任意一种。

本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的用户流失预测方法。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的用户流失预测方法的步骤。

本发明的积极进步效果在于:

本发明通过对历史数据中的用户进行圈定后打上标签,再预处理后得到包括变量维度的样本数据,基于样本数据对回归模型进行训练,以得到训练好的预测模型,使用该预测模型实现了对用户流失的概率进行预测,对比现有的运营人员利用现有规则手工圈定可能流失的用户的方式,本发明能够高效率并准确地对用户流失的概率进行预测。

附图说明

图1为本发明实施例1的用户流失预测方法的流程图。

图2为本发明实施例1中步骤102的流程图。

图3为本发明实施例2的用户流失预测系统的模块示意图。

图4为本发明实施例2中圈定模块的结构示意图。

图5为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示,本实施例公开了一种用户流失预测方法,包括以下步骤:

步骤s101、获取x个月之前的历史数据,该历史数据包括用户的历史行为数据和历史订单数据;其中历史行为数据包括历史搜索数据和/或历史浏览数据。

本实施例中,历史行为数据即包括历史搜索数据又包括历史浏览数据。更近一步地,历史数据还可以包括宏观经济数据、机场城市运力等。

本实施例可以应用在多种场景的用户流失的预测,例如用于ota平台中机票产品对应的机票频道的用户流失的预测。该场景引入用户在ota机票频道的搜索数据和订单数据,引入用户在ota所有频道的浏览数据;还可以通过第三方数据补充用户在其他ota网站可能的行为数据,共同构成历史数据。因为机票属于低频消费,所以在圈定流失的时间窗口比一般电商产品要长,所以历史数据按月选择时间窗口。

步骤s102、对历史数据中的用户进行圈定,以得到标签数据。

步骤s103、对标签数据进行预处理以得到样本数据,样本数据包括若干个变量维度。

对可能影响用户是否流失的变量进行整理。其中,变量维度包括最近搜索时间、过去第一预设时间段内的搜索次数、最近访问时间、过去第二预设时间段内的访问次数、最近下单时间、过去第三预设时间段内的订单数、网页最大访问深度中的至少一种。

具体应用到ota平台时,基于ota自身数据仓库中的浏览、搜索、下单数据,经etl数据预处理,得到样本数据的各个变量维度。

步骤s104、基于样本数据对回归模型进行训练,以得到训练好的预测模型。其中,回归模型包括逻辑回归、决策树回归、随机森林、xgboost中的任意一种。本实施例中采用逻辑回归模型进行模型训练。

步骤s105、获取待预测用户的数据,对该待预测用户的数据进行预处理以得到包括若干变量维度的待预测数据。

步骤s106、将预测模型序列化为文件存储至服务器。

步骤s107、基于待预测数据使用预测模型对待预测用户进行预测,以得到待预测用户的流失的概率。

具体应用时,可以调用存储至服务器的模型文件,能够得到当天的预测结果,即站在当天的角度,每个用户在未来x个月中流失的概率。可以将此流失概率的结果存储至数据库表中。以数据报表或邮件的形式将用户的流失概率的预测结果发送给相关人员。还可以对所涉及的待预测用户的预测结果进一步处理,例如分层输出,包括可以根据实际应用场景选择直接输出概率,也可以选择高、中、低多个等级概率。本实施例能够有效地识别高概率、中等概率和低概率流失的用户,进一步地还可以对高概率流失的用户进行预警。

如图2所示,本实施例中,步骤s102还包括以下步骤:

步骤s1021、圈定连续n个月内成功订单大于m张且在后续x个月中未下单的历史数据中的用户为流失用户,历史数据中的用户中的剩余用户为未流失用户。

步骤s1022、对流失用户的历史数据打标签,以得到流失标签数据;对未流失用户的历史数据打标签,以得到未流失标签数据;

标签数据包括流失标签数据和未流失标签数据;

其中,m、n、x均为正整数。

继续以机票为例对流失用户进行圈定进行说明。根据机票产品的特点和ota典型用户的机票购买行为(主要是下单数据),圈定典型的流失用户,从而获得流失用户和未流失用户即对应的标签数据。具体地,取x个月之前的历史数据,可以圈定高频用户的流失为过去在连续n个月内成功订单大于m张,且在后续未来x个月中未下单的用户为流失用户。举例说明,当前为10月,如设定n=12,m=3,x=6,则取去年4月~今年3月订单数大于3张的用户为样本集;依据今年4月~今年9月这段时间是否下单来圈定用户是否流失,若已下单,则圈定该用户为未流失用户,若未下单,则圈定该用户为已流失用户。本实施例公开的用户流失预测方法能够对ota机票频道用户的流失概率进行预测,从而识别出可能的流失用户尤其是高流失概率的用户。基于本实施例识别出的用户,跟踪其在未来一段时间内在ota平台的回访、回购情况,以此确定该用户是否的确流失。对比运营人员利用现有规则手工圈定的可能流失的用户,本实施例可以更准确的识别到真正流失的用户,验证了本实施例的有效性。

具体应用时可以定时进行etl数据预处理流程,对新增的历史数据进行清洗整合处理,整合得到当天待训练的回归模型的输入。具体地,可每月月初定时执行etl数据预处理以得到更新的样本数据的流程,根据用户在上一个月的浏览、搜索、下单数据更新流失用户和非流失用户的样本数据的变量维度,保证数据的时效性。进而得到更新后的预测模型。

本实施例公开的用户流失预测方法,利用机器学习的方法构建出准确预测用户流失的方法。通过对历史数据中的用户进行圈定后打上标签,再预处理后得到包括变量维度的样本数据,基于样本数据对回归模型进行训练,以得到训练好的预测模型,使用该预测模型实现了对用户流失的概率进行预测,对比现有的运营人员利用现有规则手工圈定可能流失的用户的方式,本实施例能够高效率并准确地对用户流失的概率进行预测。

实施例2

如图3所示,本实施例提供了一种用户流失预测系统,包括获取模块1、圈定模块2、预处理模块3、训练模块4、数据生成模块5、预测模块6和序列化模块7。

获取模块1用于获取历史数据,该历史数据包括用户的历史行为数据和历史订单数据;其中历史行为数据包括历史搜索数据和/或历史浏览数据。本实施例中,历史行为数据即包括历史搜索数据又包括历史浏览数据。更近一步地,历史数据还可以包括宏观经济数据、机场城市运力等。

本实施例提供的用户流失预测系统可以应用在多种场景的用户流失的预测,例如用于ota平台中机票产品对应的机票频道的用户流失的预测。该场景引入用户在ota机票频道的搜索数据和订单数据,引入用户在ota所有频道的浏览数据;还可以通过第三方数据补充用户在其他ota网站可能的行为数据,共同构成历史数据。因为机票属于低频消费,所以在圈定流失的时间窗口比一般电商产品要长,所以历史数据按月选择时间窗口。

圈定模块2用于对历史数据中的用户进行圈定,以得到标签数据。

预处理模块3用于对标签数据进行预处理以得到样本数据,该样本数据包括若干个变量维度。

预处理模块3对可能影响用户是否流失的变量进行整理。其中,变量维度包括最近搜索时间、过去第一预设时间段内的搜索次数、最近访问时间、过去第二预设时间段内的访问次数、最近下单时间、过去第三预设时间段内的订单数、网页最大访问深度中的至少一种。

具体应用到ota平台时,基于ota自身数据仓库中的浏览、搜索、下单数据,经etl数据预处理,得到样本数据的各个变量维度。

训练模块4用于基于样本数据对回归模型进行训练,以得到训练好的预测模型。

其中,回归模型包括逻辑回归、决策树回归、随机森林、xgboost中的任意一种。本实施例中采用逻辑回归模型进行模型训练。

数据生成模块5用于获取待预测用户的数据,对待预测用户的数据进行预处理以得到包括所述若干变量维度的待预测数据。

序列化模块7用于将预测模型序列化为文件存储至服务器。

预测模块6用于基于待预测数据使用预测模型对待预测用户进行预测,以得到待预测用户的流失的概率。

具体应用时,用户流失预测系统可以调用存储至服务器的模型文件,能够得到当天的预测结果,即站在当天的角度,每个用户在未来x个月中流失的概率。可以将此流失概率的结果存储至数据库表中。以数据报表或邮件的形式将用户的流失概率的预测结果发送给相关人员。还可以对所涉及的待预测用户的预测结果进一步处理,例如分层输出,包括可以根据实际应用场景选择直接输出概率,也可以选择高、中、低多个等级概率。本实施例能够有效地识别高概率、中等概率和低概率流失的用户,进一步地还可以对高概率流失的用户进行预警。

如图4所示,本实施例中,圈定模块2包括圈定单元1和标签单元2。

圈定单元1用于圈定连续n个月内成功订单大于m张且在后续x个月中未下单的所述历史数据中的所述用户为流失用户,所述历史数据中的所述用户中的剩余用户为未流失用户。

标签单元2用于对流失用户的历史数据打标签,以得到流失标签数据;还用于对所述未流失用户的历史数据打标签,以得到未流失标签数据。

标签数据包括流失标签数据和未流失标签数据。

其中,m、n、x均为正整数。

继续以机票为例,对圈定单元1对流失用户进行圈定进行说明。根据机票产品的特点和ota典型用户的机票购买行为(主要是下单数据),圈定典型的流失用户,从而获得流失用户和未流失用户即对应的标签数据。具体地,取x个月之前的历史数据,可以圈定高频用户的流失为过去在连续n个月内成功订单大于m张,且在后续未来x个月中未下单的用户为流失用户。举例说明,当前为10月,如设定n=12,m=3,x=6,则取去年4月~今年3月订单数大于3张的用户为样本集;依据今年4月~今年9月这段时间是否下单来圈定用户是否流失,若已下单,则圈定该用户为未流失用户,若未下单,则圈定该用户为已流失用户。本实施例公开的用户流失预测系统能够对ota机票频道用户的流失概率进行预测,从而识别出可能的流失用户尤其是高流失概率的用户。基于本实施例识别出的用户,跟踪其在未来一段时间内在ota平台的回访、回购情况,以此确定该用户是否的确流失。对比运营人员利用现有规则手工圈定的可能流失的用户,本实施例可以更准确的识别到真正流失的用户,验证了本实施例的有效性。

本实施例提供的用户流失预测系统,利用机器学习的方法实现了准确预测用户流失的概率。通过圈定模块对历史数据中的用户进行圈定后打上标签,再利用预处理模块对数据进行预处理后得到包括变量维度的样本数据,基于样本数据对回归模型进行训练,以得到训练好的预测模型,使用该预测模型实现了对用户流失的概率进行预测,对比现有的运营人员利用现有规则手工圈定可能流失的用户的方式,本实施例能够高效率并准确地对用户流失的概率进行预测。

实施例3

图5为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所提供的用户流失预测方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器,例如随机存取存储器(ram)321和/或高速缓存存储器322,还可以进一步包括只读存储器(rom)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的用户流失预测方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的用户流失预测方法的步骤。

其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所提供的用户流失预测方法中的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1