用户流失预测方法、装置及电子设备与流程

文档序号:17445181发布日期:2019-04-17 05:28阅读:161来源:国知局
用户流失预测方法、装置及电子设备与流程

本发明涉及互联网产品技术领域,具体而言,涉及一种用户流失预测方法、装置及电子设备。



背景技术:

在互联网产品领域,用户生命周期是指用户从对产品产生兴趣开始使用到停止使用且不再关注产品的全过程。在该领域,用户生命周期有可能很短,因为互联网产品用户在每一个过程中都有可能直接走向流失。因此,互联网产品运营商几乎都需要制定针对自己产品的流失用户召回策略。

但现有技术中,仍然没有较为可靠的方法确定流失用户,故而制定的流失用户召回策略便没有较强的针对性,进而无法保证流失用户的召回效果。因此,如何准确高效的预测流失用户,使得互联网产品运营商制定的流失用户召回策略能够有的放矢,从而增强流失用户的召回效果,成为互联网产品技术领域亟待解决的技术难题。



技术实现要素:

有鉴于此,本发明实施例的目的在于提供一种用户流失预测方法、装置及电子设备,以有效改善上述问题。

本发明实施例提供的用户流失预测方法,包括:

获取目标产品对应的用户历史活跃记录,并基于所述用户历史活跃记录确定出流失判断周期;

基于所述流失判断周期在所述目标产品的历史使用时段中选取目标时段,获取所述目标时段内的样本用户集合;

利用所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型;

基于所述流失判断周期在所述历史使用时段中选取预测数据获取时段,使得所述预测数据获取时段的时长等于所述流失判断周期,并获得所述预测数据获取时段内的待预测用户的特征数据;

基于待预测用户的特征数据和所述流失概率预估模型,获得针对所述待预测用户的用户流失预测结果。

进一步地,所述获取目标产品对应的用户历史活跃记录,并基于所述用户历史活跃记录确定出流失判断周期,包括:

基于所述用户历史活跃记录,获得所述历史使用时段内的用户累计留存率变化曲线;

基于所述用户累计留存率变化曲线获得所述流失判断周期。

进一步地,所述基于所述用户累计留存率变化曲线获得所述流失判断周期,包括:

从所述历史使用时段的起始时间点,按照预设时间步长获取n个待分析时段,所述n个待分析时段具有相同时长,其中,n≥2,且为正整数;

分别将每个待分析时段的截至时间点对应的累计留存率与起始时间点对应的累计留存率相减,得到对应的留存率差值;

将n个待分析时段对应的留存率差值与预设阈值进行对比,确定出小于或等于所述预设阈值的m个留存率差值,其中,m≤n,且为正整数;

从所述m个留存率差值中确定出数值最大的留存率差值,作为目标留存率差值;

将所述历史使用时段的起始时间点到所述目标留存率差值对应的起始时间点的间隔时长作为所述用户流失周期。

进一步地,所述基于所述流失判断周期在所述目标产品的历史使用时段中选取目标时段,获取所述目标时段内的样本用户集合,包括:

基于流失判断周期在所述目标产品的历史使用时段中选取第一目标时段和位于所述第一目标时段之后的第二目标时段,使得所述第一目标时段内的时长和所述第二目标时段内的时长都等于所述流失判断周期;

获得所述样本用户集合中的各个样本用户在所述第一目标时段中的特征数据;

根据所述第二目标时段中所述目标产品对应的用户历史活跃记录确定出样本用户集合中的各个样本用户的流失判定标签,所述流失判定标签包括未流失标签和已流失标签,其中,所述未流失标签用于表征对应的样本用户不具有流失倾向,所述已流失标签用于表征对应的样本用户具有流失倾向。

进一步地,所述利用所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,包括:

利用所述样本用户集合中的各个样本用户的特征数据和所述样本用户集合中的各个样本用户的流失判定标签对所述目标机器学习模型进行训练,获得所述流失概率预测模型。

进一步地,所述目标机器学习模型具有两个以上;

所述利用所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,包括:

将所述样本用户集合划分为训练集和测试集;

利用所述训练集中的各个样本用户的特征数据和所述训练集中的各个样本用户的流失判定标签对两个以上所述目标机器学习模型进行训练,获得两个以上的训练模型;

利用所述测试集分别对所述两个以上的训练模型进行测试,得到对应的测试结果;

利用预设判定指标对所述两个以上的训练模型对应的测试结果进行评估,获得评估结果最好的训练模型,作为所述流失概率预测模型。

本发明实施例提供的用户流失预测装置,包括:

流失判断周期获取模块,用于获取目标产品对应的用户历史活跃记录,并基于所述用户历史活跃记录确定出流失判断周期;

样本用户集合获取模块,用于基于所述流失判断周期在所述目标产品的历史使用时段中选取目标时段,获取所述目标时段内的样本用户集合;

流失概率预测模型获取模块,用于利用所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型;

特征数据获取模块,用于基于所述流失判断周期在所述历史使用时段中选取预测数据获取时段,使得所述预测数据获取时段的时长等于所述流失判断周期,并获得所述预测数据获取时段内的待预测用户的特征数据;

用户流失预测结果获取模块,用于基于待预测用户的特征数据和所述流失概率预估模型,获得针对所述待预测用户的用户流失预测结果。

进一步地,所述流失判断周期获取模块,具体用于:

基于所述用户历史活跃记录,获得所述历史使用时段内的用户累计留存率变化曲线;

基于所述用户累计留存率变化曲线获得所述流失判断周期。

进一步地,所述流失判断周期获取模块,又具体用于:

从所述历史使用时段的起始时间点,按照预设时间步长获取n个待分析时段,所述n个待分析时段具有相同时长,其中,n≥2,且为正整数;

分别将每个待分析时段的截至时间点对应的累计留存率与起始时间点对应的累计留存率相减,得到对应的留存率差值;

将n个待分析时段对应的留存率差值与预设阈值进行对比,确定出小于或等于所述预设阈值的m个留存率差值,其中,m≤n,且为正整数;

从所述m个留存率差值中确定出数值最大的留存率差值,作为目标留存率差值;

将所述历史使用时段的起始时间点到所述目标留存率差值对应的起始时间点的间隔时长作为所述用户流失周期。

进一步地,所述样本用户集合获取模块,具体用于:

基于流失判断周期在所述目标产品的历史使用时段中选取第一目标时段和位于所述第一目标时段之后的第二目标时段,使得所述第一目标时段内的时长和所述第二目标时段内的时长都等于所述流失判断周期;

获得所述样本用户集合中的各个样本用户在所述第一目标时段中的特征数据;

根据所述第二目标时段中所述目标产品对应的用户历史活跃记录确定出样本用户集合中的各个样本用户的流失判定标签,所述流失判定标签包括未流失标签和已流失标签,其中,所述未流失标签用于表征对应的样本用户不具有流失倾向,所述已流失标签用于表征对应的样本用户具有流失倾向。

进一步地,所述流失概率预测模型获取模块,具体用于:

利用所述样本用户集合中的各个样本用户的特征数据和所述样本用户集合中的各个样本用户的流失判定标签对所述目标机器学习模型进行训练,获得所述流失概率预测模型。

进一步地,所述目标机器学习模型具有两个以上;

所述流失概率预测模型获取模块,具体用于:

将所述样本用户集合划分为训练集和测试集;

利用所述训练集中的各个样本用户的特征数据和所述训练集中的各个样本用户的流失判定标签对两个以上所述目标机器学习模型进行训练,获得两个以上的训练模型;

利用所述测试集分别对所述两个以上的训练模型进行测试,得到对应的测试结果;

利用预设判定指标对所述两个以上的训练模型对应的测试结果进行评估,获得评估结果最好的训练模型,作为所述流失概率预测模型。

本发明实施例中提供的电子设备包括处理器、存储器和上述用户流失预测装置,所述用户流失预测装置包括一个或多个存储于所述存储器并由所述处理器执行的软件功能模块。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,可以实现上述用户流失预测装置方法。

本发明实施例提供的用户流失预测方法、装置及电子设备通过获取目标产品对应的用户历史活跃记录,并基于所述用户历史活跃记录确定出流失判断周期,基于所述流失判断周期在所述目标产品的历史使用时段中选取目标时段,获取所述目标时段内的样本用户集合,根据所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,基于所述流失判断周期在所述历史使用时段中选取预测数据获取时段,使得所述预测数据获取时段的时长等于所述流失判断周期,并获得所述预测数据获取时段内的待预测用户的特征数据,以及基于待预测用户的特征数据和所述流失概率预估模型,获得针对所述待预测用户的用户流失预测结果。如此,针对某个互联网产品,便可以在确定出流失判断周期后,进一步获取样本用户集合,根据所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,此后,便可以基于待预测用户的特征数据和流失概率预估模型,直接获得针对待预测用户的用户流失预测结果,整个过程高效快捷,且预测效果较佳。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的示意性结构框图。

图2为本发明实施例提供的用户流失预测方法的流程示意性。

图3为本发明实施例提供的一种用户累计留存率变化曲线的示意性。

图4为本发明实施例提供的用户流失预测装置的示意性结构框图。

图标:100-电子设备;110-用户流失预测装置;111-流失判断周期获取模块;112-样本用户集合获取模块;113-流失概率预测模型获取模块;114-特征数据获取模块;115-用户流失预测结果获取模块;120-处理器;130-存储器。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

请参阅图1,为本发明实施例提供的一种应用用户流失预测方法及装置的电子设备100的示意性结构框图。进一步地,本发明实施例中,电子设备100包括用户流失预测装置110、处理器120和存储器130。

处理器120和存储器130之间直接或间接地电性连接,以实现数据的传输或交互,例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。用户流失预测装置110包括至少一个可以软件或固件(firmware)的形式存储在存储器130中或固化在电子设备100的操作系统(operatingsystem,os)中的软件模块。处理器120用于执行存储器130中存储的可执行模块,例如,用户流失预测装置110所包括的软件功能模块及计算机程序等。处理器120可以在接收到执行指令后,执行计算机程序。

其中,处理器120可以是一种集成电路芯片,具有信号处理能力。处理器120也可以是通用处理器,例如,可以是数字信号处理器(dsp)、专用集成电路(asic)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。

此外,存储器130可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦可编程序只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦编程只读存储器electricerasableprogrammableread-onlymemory,eeprom)等。存储器130用于存储程序,处理器120在接收到执行指令后,执行该程序。

应当理解,图1所示的结构仅为示意,本发明实施例提供的电子设备100还可以具有比图1更少或更多的组件,或是具有与图1所示不同的配置。此外,图1所示的各组件可以通过软件、硬件或其组合实现。

请参阅图2,图2为本发明实施例提供的用户流失预测方法的流程示意图,该方法应用于图1所示的电子设备100。所应说明的是,本发明实施例提供的用户流失预测方法不以图2及以下所示的顺序为限制。

下面结合图2对用户流失预测方法的具体流程及步骤进行详细阐述。

步骤s100,获取目标产品对应的用户历史活跃记录,并基于用户历史活跃记录确定出流失判断周期。

本发明实施例中,目标产品可以是网络游戏、快视频等。此外,本发明实施例中,用户历史活跃记录记载有目标产品对应的各个被观察用户在历史使用时段内每天的活跃情况,其中,活跃情况可以包括活跃状态(活跃或未活跃),以及每天的活跃时长等。本发明实施例中,被观察用户在某天的活跃状态可以根据被观察用户在该天内是否使用过目标产品确定,例如,被观察用户在某天内使用过目标产品,则将被观察用户在该天的活跃状态确定为活跃,否则,将被观察用户在该天的活跃状态确定为未活跃。

实际实施时,可以基于用户历史活跃记录,获得历史使用时段内的用户累计留存率变化曲线,再基于用户累计留存率变化曲线获得流失判断周期。

首先,可以获取历史使用时段内每天的用户累积留存率,再在预先建立的横坐标为时间,纵坐标为用户累计留存率的二维坐标系中建立用于表征用户累计留存率关于时间的变化情况的曲线,作为用户累计留存率变化曲线。

当被观察用户为x个,历史使用时段内的第一天到第y天内活跃状态出现过活跃的被观察用户为z个时,历史使用时段内第y天的累积留存率为z/x,其中,z≤x。以图3所示的用户累计留存率变化曲线为例,假设,被观察用户为10000个,历史使用时段内的第一天内活跃的被观察用户为6750个,则第一天的累积留存率为67.50%,历史使用时段内的第一天到第二天内活跃的被观察用户为7353个,则第二天的累积留存率为73.53%,历史使用时段内的第一天到第三天内活跃的被观察用户为7760个,则第三天的累积留存率为77.60%。

本发明实施例中,基于用户累计留存率变化曲线获得流失判断周期,可以包括以下步骤。

从历史使用时段的起始时间点,按照预设时间步长获取n个待分析时段,n个待分析时段具有相同时长。其中,n≥2,且为正整数,预设时间步长可以是1天,也可以是2天,还可以是3天,本发明实施例中,为保证流失判断周期的可靠性,优选为1天,待分析时段的时长可以是7天,也可以是15天,还可以是20天,具体可以根据目标产品的具体类型确定,本发明实施例对此不作具体限制。以图3所示的用户累计留存率变化曲线为例,预设时间步长为1天,待分析时段的时长为7天,获取的n个待分析时段包括第一待分析时段、第三十七待分析时段,以及第一待分析时段的起始时间点和第三十七待分析时段的截止时间点之间的其他三十五个待分析时段。其中,第一待分析时段为历史使用时段内的第一天到第七天,第二待分析时段为历史使用时段内的第二天到第八天,第三待分析时段为历史使用时段内的第三天到第九天,以此类推。

分别将每个待分析时段的截至时间点对应的累计留存率与起始时间点对应的累计留存率相减,得到对应的留存率差值。以图3所示的用户累计留存率变化曲线为例,第一待分析时段的截至时间点对应的累计留存率为92.15%,第一待分析时段的起始时间点对应的累计留存率为67.50%,则第一待分析时段的对应的留存率差值为24.56%,第七待分析时段的截至时间点对应的累计留存率为95.50%,第七待分析时段的起始时间点对应的累计留存率为92.15%,则第七待分析时段的对应的留存率差值为3.35%,第十三待分析时段的截至时间点对应的累计留存率为96.60%,第七待分析时段的起始时间点对应的累计留存率为95.50%,则第七待分析时段的对应的留存率差值为1.10%。

将n个待分析时段对应的留存率差值与预设阈值进行对比,确定出小于或等于预设阈值的m个留存率差值,其中,m≤n,且为正整数,预设阈值可以为0.50%,也可以为1.00%,还可以为1.50%,具体可以根据目标产品的具体类型确定,本发明实施例对此不作具体限制。以图3所示的用户累计留存率变化曲线为例,当预设阈值为0.50%时,确定出的小于或等于预设阈值的m个留存率差值包括第二十五待分析时段对应的留存率差值,以及第二十五待分析时段的起始时间点之后的所有待分析时段对应的留存率差值。

从m个留存率差值中确定出数值最大的留存率差值,作为目标留存率差值,并将历史使用时段的起始时间点到目标留存率差值对应的起始时间点的间隔时长作为用户流失周期。以图3所示的用户累计留存率变化曲线为例,当预设阈值为o.50%时,目标留存率差值为第二十五待分析时段对应的留存率差值,历史使用时段的起始时间点到目标留存率差值对应的起始时间点的间隔时长为31天,则可以将31天作为用户流失周期。

可以理解的是,本发明实施例中,目标留存率差值对应的起始时间点为活跃状态出现过活跃的被观察用户的数目趋于稳定的时间点,也即,用户累积留存率趋于饱和的时间点,在这个时间点之后,活跃状态未出现过活跃的被观察用户主动活跃,以使累积留存率继续增大的概率较小,因此,将历史使用时段的起始时间点到目标留存率差值对应的起始时间点的间隔时长作为用户流失周期。

步骤s200,基于流失判断周期在目标产品的历史使用时段中选取目标时段,获取目标时段内的样本用户集合。

实际实施时,首先,可以基于流失判断周期在目标产品的历史使用时段中选取第一目标时段和位于第一目标时段之后的第二目标时段,使得第一目标时段内的时长和第二目标时段内的时长都等于流失判断周期。进一步地,本发明实施例中,第二目标时间段的起始时间点可以为第一目标时间段的截至时间点。但需要说明的是,对于用户的活跃状态具有明显周期性的目标产品而言,选取的第一目标时段和第二目标时段需要具有时间对应性,这里,时间对应性可以是第一目标时段的起始时间点的星期数和第二目标时间段的起始时间点的星期数相同。例如,对于网络游戏而言,某个用户在双休日的活跃状态为活跃的概率普遍大于在工作日的活跃状态为活跃的概率,因此,当第一目标时段的起始时间点的星期数为星期二时,第二目标时段的起始时间点的星期数也需要为星期二。

选取第一目标时段之后,获得样本用户集合中的各个样本用户在第一目标时段中的特征数据。

本发明实施例中,特征数据可以包括原始数据。具体地,原始数据包括用户基础属性数据、业务公共特征数据和业务强相关数据。其中,用户基础属性数据又包括用户自然属性和设备自然属性,而用户自然属性又包括性别、年龄、地域等,设备自然属性又包括用户使用目标产品所采用的设备品牌、设备机型,以及设备使用的网络环境等。业务公共特征数据包括用户在第一目标时段内的活跃天数、每天的活跃次数、每天的活跃时长,以及总活跃时长等。当目标产品为网络游戏时,业务强相关数据包括游戏类型、用户在第一目标时段内的游戏总时长、消费次数,以及每次消费对应的消费金额等,当目标产品为快视频时,业务强相关数据包括用户在第一目标时段内的视频播放数量、刷新次数、互动次数等。

本发明实施例中,特征数据还可以包括衍生数据。衍生数据为基于原始数据进行衍生获得的数据。例如,当目标产品为网络游戏时,衍生数据还可以是根据游戏类型对样本用户集合中的各个样本用户在第一目标时段内的游戏总时长进行归一化处理得到的归一化值。

选取第二目标时段之后,根据第二目标时段中目标产品对应的用户历史活跃记录确定出样本用户集合中的各个样本用户的流失判定标签。本发明实施例中,流失判定标签包括未流失标签和已流失标签,其中,未流失标签用于表征对应的样本用户不具有流失倾向,可以记作1,已流失标签用于表征对应的样本用户具有流失倾向,可以记作0。

具体地,当目标产品为网络游戏时,针对样本用户集合中的某个样本用户,若该样本用户在第二目标时段内的活跃状态始终为未活跃,且在第一目标时段内的总活跃时长低于样本用户集合中95%的用户的总活跃时长,或该样本用户在第二目标时段内的活跃状态出现过活跃,且在第一目标时段内的总活跃时长低于样本用户集合中75%的用户的用户的总活跃时长时,则确认该样本用户的流失判定标签为0,否则,确认该样本用户的流失判定标签为1。

具体地,当目标产品为快视频时,针对某个样本用户,若该样本用户在第二目标时段内的活跃状态始终为未活跃,则确认该样本用户的流失判定标签为0,否则确认该样本用户的流失判定标签为1。

步骤s300,利用样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型。

本发明实施例中,作为第一种实施方式,可以直接利用样本用户集合中的各个样本用户的特征数据和样本用户集合中的各个样本用户的流失判定标签对目标机器学习模型进行训练,获得流失概率预测模型。其中,目标机器模型可以为逻辑回归模型、随机森林分类模型、梯度提升决策树或xgboost中的任意一种。

本发明实施例中,为了提高流失概率预测模型预测,作为第二种实施方式,目标机器学习模型可以具有两个以上。基于此,利用样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,可以包括以下步骤。

首先,将样本用户集合划分为训练集和测试集。本发明实施例中,测试集中样本用户的数量为训练集中样本的数量的1/5~1/3。例如,当测试集中样本用户的数量为10000个时,训练集中样本的数量为2000~3333个。

利用训练集中的各个样本用户的特征数据和训练集中的各个样本用户的流失判定标签对两个以上目标机器学习模型进行训练,获得两个以上的训练模型。

具体地,将训练集中的各个样本用户的特征数据作为输入参数,将训练集中的各个样本用户的流失判定标签作为输出参数,利用输入参数和输出参数对所述两个以上待选机器学习模型进行训练,获得两个以上的训练模型。

具体实施时,在利用训练集中的各个样本用户的特征数据和训练集中的各个样本用户的流失判定标签对两个以上目标机器学习模型进行训练之前,需要预先判断训练集中的样本用户是否满足相对平衡条件。这里,相对平衡条件可以是,第一训练子集中样本用户的数量和第二训练子集中样本用户的数量的差值小于训练集中总样本数量的20%,当然,为了使得训练模型具有更好的预测效果,相对平衡条件也可以是第一训练子集中样本用户的数量和第二训练子集中样本用户的数量相等。其中,第一训练子集为训练集中流失判定标签为1的样本用户组成的集合,第二训练子集为训练集中流失判定标签为0的样本用户组成的集合。

当训练集中的样本用户不满足相对平衡条件时,需要对训练集样本进行样本平衡处理。本发明实施例中,可以采用过采样处理方式和/或欠采样处理方式对训练集样本进行样本平衡处理。假设,训练集中包括10000个样本用户,第一训练子集中包括8000个样本用户,第二训练子集中包括2000个样本用户。若采用过采样处理方式,则是对数量偏少的训练子集进行样本扩增,也即,需要对第二训练子集中的样本用户进行扩增,以使第二训练子集中具有8000个样本用户,具体的扩增的方法可以是直接复制第二训练子集中包括的样本用户,也可是采用smote类算法对第二训练子集中的样本用户进行扩增。若欠采样处理方式,则需要对数量偏多的训练子集进行样本删减,也即,需要对第一训练子集中的样本用户进行删减,以使第一训练子集中具有2000个样本用户。如此,便可以大大提高训练模型的范化能力,保证训练模型具有较高的auc值,从而使得训练模型具有更好预测效果。若同时采用过采样处理方式和欠采样处理方式,则可以对数量偏少的训练子集进行样本扩增,同时对数量偏多的训练子集进行样本删减。例如,对第二训练子集中的样本用户进行扩增,以使第二训练子集中具有5000个样本用户,同时,对第一训练子集中的样本用户进行删减,以使第一训练子集中具有5000个样本用户。

同样,为了使得训练模型具有更好预测效果,在实际实施时,在利用训练集中的各个样本用户的特征数据和训练集中的各个样本用户的流失判定标签对两个以上目标机器学习模型进行训练之前,还需要预先判断训练集中是否存在特征数据缺失的样本用户。

当训练集中存在特征数据缺失的样本用户时,需要对特征数据缺失的样本用户的进行缺失值填充。本发明实施例中,可以根据数据类型先对特征数据进行数据分箱,再针对存在特征数据缺失的样本用户,确定其所有的缺失特征数据,并针对每类缺失特征数据,获取该类缺失特征数据对应分箱中特征数据的均值或中位数,用于对该缺失特征数据进行缺失值填充。

获得两个以上的训练模型后,利用测试集分别对两个以上的训练模型进行测试,得到对应的测试结果。接着,利用预设判定指标对两个以上的训练模型对应的测试结果进行评估,获得评估结果最好的训练模型,作为流失概率预测模型。

本发明实施例中,可以利用精确率(precision)、召回率(recall)、f1-score、auc等多个预设判定指标中的多个判定指标对两个以上的训练模型对应的测试结果进行评估。此后,根据目标产品的类型,并结合各个预设判定指标对应的评估值,获得评估结果最好的训练模型,作为流失概率预测模型。

步骤s400,基于流失判断周期在历史使用时段中选取预测数据获取时段,使得预测数据获取时段的时长等于流失判断周期,并获得预测数据获取时段内的待预测用户的特征数据。实际实施时,预测数据获取时段的截至时间点与历史使用时段的截至时间点相同。

步骤s500,基于待预测用户的特征数据和流失概率预估模型,获得针对待预测用户的用户流失预测结果。

将带预测用户的特征数据输入流失概率预估模型,获得待预测用户的流失概率,再根据流失概率获得针对待预测用户的用户流失预测结果。具体地,当流失概率大于或等于预设概率阈值时,获得针对待预测用户的用户流失预测结果为已流失,也即,待预测用户具有流失倾向,否则,获得针对待预测用户的用户流失预测结果为未流失,也即,待预测用户不具有流失倾向。其中,预设概率阈值可以时0.75,也可以为0.80,还可以为0.85,具体可以根据目标产品的具体类型确定,本发明实施例对此不作具体限制。如此,针对某个互联网产品,便可以在确定该互联网产品的待预测用户为已流失用户后,针对该待预测用户,采取个性化的用户召回策略尝试召回该待预测用户,从而提高召回效果。

基于与上述用户流失预测方法同样的发明构思,本发明实施例还提供了一种用户流失预测装置110。请参阅图3,用户流失预测装置110包括流失判断周期获取模块111、样本用户集合获取模块112、流失概率预测模型获取模块113、特征数据获取模块114和用户流失预测结果获取模块115。

流失判断周期获取模块111,用于获取目标产品对应的用户历史活跃记录,并基于用户历史活跃记录确定出流失判断周期。

流失判断周期获取模块111,具体用于:

基于用户历史活跃记录,获得历史使用时段内的用户累计留存率变化曲线;

基于用户累计留存率变化曲线获得流失判断周期。

流失判断周期获取模块111,又具体用于:

从历史使用时段的起始时间点,按照预设时间步长获取n个待分析时段,n个待分析时段具有相同时长,其中,n≥2,且为正整数;

分别将每个待分析时段的截至时间点对应的累计留存率与起始时间点对应的累计留存率相减,得到对应的留存率差值;

将n个待分析时段对应的留存率差值与预设阈值进行对比,确定出小于或等于预设阈值的m个留存率差值,其中,m≤n,且为正整数;

从m个留存率差值中确定出数值最大的留存率差值,作为目标留存率差值;

将历史使用时段的起始时间点到目标留存率差值对应的起始时间点的间隔时长作为用户流失周期。

关于流失判断周期获取模块111的描述具体可参考上述步骤s100的详细描述,也即,步骤s100可以由流失判断周期获取模块111执行,此处不再赘述。

样本用户集合获取模块112,用于基于流失判断周期在目标产品的历史使用时段中选取目标时段,获取目标时段内的样本用户集合。

样本用户集合获取模块112,具体用于:

基于流失判断周期在目标产品的历史使用时段中选取第一目标时段和位于第一目标时段之后的第二目标时段,使得第一目标时段内的时长和第二目标时段内的时长都等于流失判断周期;

获得样本用户集合中的各个样本用户在第一目标时段中的特征数据;

根据第二目标时段中目标产品对应的用户历史活跃记录确定出样本用户集合中的各个样本用户的流失判定标签,流失判定标签包括未流失标签和已流失标签,其中,未流失标签用于表征对应的样本用户不具有流失倾向,已流失标签用于表征对应的样本用户具有流失倾向。

关于样本用户集合获取模块112的描述具体可参考上述步骤s200的详细描述,也即,步骤s200可以由样本用户集合获取模块112执行,此处不再赘述。

流失概率预测模型获取模块113,用于利用样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型。

本发明实施例中,作为第一种实施方式,流失概率预测模型获取模块113,具体用于:

利用样本用户集合中的各个样本用户的特征数据和样本用户集合中的各个样本用户的流失判定标签对目标机器学习模型进行训练,获得流失概率预测模型。

本发明实施例中,作为第二种实施方式,目标机器学习模型可以具有两个以上,基于此,流失概率预测模型获取模块113,还可以具体用于:

将样本用户集合划分为训练集和测试集;

利用训练集中的各个样本用户的特征数据和训练集中的各个样本用户的流失判定标签对两个以上目标机器学习模型进行训练,获得两个以上的训练模型;

利用测试集分别对两个以上的训练模型进行测试,得到对应的测试结果;

利用预设判定指标对两个以上的训练模型对应的测试结果进行评估,获得评估结果最好的训练模型,作为流失概率预测模型。

关于流失概率预测模型获取模块113的描述具体可参考上述步骤s300的详细描述,也即,步骤s300可以由流失概率预测模型获取模块113执行,此处不再赘述。

特征数据获取模块114,用于基于流失判断周期在历史使用时段中选取预测数据获取时段,使得预测数据获取时段的时长等于流失判断周期,并获得预测数据获取时段内的待预测用户的特征数据。

关于特征数据获取模块114的描述具体可参考上述步骤s400的详细描述,也即,步骤s400可以由特征数据获取模块114执行,此处不再赘述。

用户流失预测结果获取模块115,用于基于待预测用户的特征数据和流失概率预估模型,获得针对待预测用户的用户流失预测结果。

关于用户流失预测结果获取模块115的描述具体可参考上述步骤s500的详细描述,也即,步骤s500可以由用户流失预测结果获取模块115执行,此处不再赘述。

综上所述,本发明实施例提供的用户流失预测方法、装置及电子设备通过获取目标产品对应的用户历史活跃记录,并基于用户历史活跃记录确定出流失判断周期,基于流失判断周期在目标产品的历史使用时段中选取目标时段,获取目标时段内的样本用户集合,根据样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,基于流失判断周期在历史使用时段中选取预测数据获取时段,使得预测数据获取时段的时长等于流失判断周期,并获得预测数据获取时段内的待预测用户的特征数据,以及基于待预测用户的特征数据和流失概率预估模型,获得针对待预测用户的用户流失预测结果。如此,针对某个互联网产品,便可以在确定出流失判断周期后,进一步获取样本用户集合,根据样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,此后,便可以基于待预测用户的特征数据和流失概率预估模型,直接获得针对待预测用户的用户流失预测结果,整个过程高效快捷,且预测效果较佳。

在本发明实施例所提供的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本公开的可选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

a1.一种用户流失预测方法,包括:

获取目标产品对应的用户历史活跃记录,并基于所述用户历史活跃记录确定出流失判断周期;

基于所述流失判断周期在所述目标产品的历史使用时段中选取目标时段,获取所述目标时段内的样本用户集合;

利用所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型;

基于所述流失判断周期在所述历史使用时段中选取预测数据获取时段,使得所述预测数据获取时段的时长等于所述流失判断周期,并获得所述预测数据获取时段内的待预测用户的特征数据;

基于待预测用户的特征数据和所述流失概率预估模型,获得针对所述待预测用户的用户流失预测结果。

a2.根据权利要求al所述的用户流失预测方法,所述获取目标产品对应的用户历史活跃记录,并基于所述用户历史活跃记录确定出流失判断周期,包括:

基于所述用户历史活跃记录,获得所述历史使用时段内的用户累计留存率变化曲线;

基于所述用户累计留存率变化曲线获得所述流失判断周期。

a3.根据权利要求a2所述的用户流失预测方法,所述基于所述用户累计留存率变化曲线获得所述流失判断周期,包括:

从所述历史使用时段的起始时间点,按照预设时间步长获取n个待分析时段,所述n个待分析时段具有相同时长,其中,n≥2,且为正整数;

分别将每个待分析时段的截至时间点对应的累计留存率与起始时间点对应的累计留存率相减,得到对应的留存率差值;

将n个待分析时段对应的留存率差值与预设阈值进行对比,确定出小于或等于所述预设阈值的m个留存率差值,其中,m≤n,且为正整数;

从所述m个留存率差值中确定出数值最大的留存率差值,作为目标留存率差值;

将所述历史使用时段的起始时间点到所述目标留存率差值对应的起始时间点的间隔时长作为所述用户流失周期。

a4.根据权利要求al所述的用户流失预测方法,所述基于所述流失判断周期在所述目标产品的历史使用时段中选取目标时段,获取所述目标时段内的样本用户集合,包括:

基于流失判断周期在所述目标产品的历史使用时段中选取第一目标时段和位于所述第一目标时段之后的第二目标时段,使得所述第一目标时段内的时长和所述第二目标时段内的时长都等于所述流失判断周期;

获得所述样本用户集合中的各个样本用户在所述第一目标时段中的特征数据;

根据所述第二目标时段中所述目标产品对应的用户历史活跃记录确定出样本用户集合中的各个样本用户的流失判定标签,所述流失判定标签包括未流失标签和已流失标签,其中,所述未流失标签用于表征对应的样本用户不具有流失倾向,所述已流失标签用于表征对应的样本用户具有流失倾向。

a5.根据权利要求a4所述的用户流失预测方法,所述利用所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,包括:

利用所述样本用户集合中的各个样本用户的特征数据和所述样本用户集合中的各个样本用户的流失判定标签对所述目标机器学习模型进行训练,获得所述流失概率预测模型。

a6.根据权利要求a5所述的用户流失预测方法,所述目标机器学习模型具有两个以上;

所述利用所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型,包括:

将所述样本用户集合划分为训练集和测试集;

利用所述训练集中的各个样本用户的特征数据和所述训练集中的各个样本用户的流失判定标签对两个以上所述目标机器学习模型进行训练,获得两个以上的训练模型;

利用所述测试集分别对所述两个以上的训练模型进行测试,得到对应的测试结果;

利用预设判定指标对所述两个以上的训练模型对应的测试结果进行评估,获得评估结果最好的训练模型,作为所述流失概率预测模型。

b7.一种用户流失预测装置,包括:

流失判断周期获取模块,用于获取目标产品对应的用户历史活跃记录,并基于所述用户历史活跃记录确定出流失判断周期;

样本用户集合获取模块,用于基于所述流失判断周期在所述目标产品的历史使用时段中选取目标时段,获取所述目标时段内的样本用户集合;

流失概率预测模型获取模块,用于根据所述样本用户集合对目标机器学习模型进行训练,获得对应的流失概率预测模型;

特征数据获取模块,用于基于所述流失判断周期在所述历史使用时段中选取预测数据获取时段,使得所述预测数据获取时段的时长等于所述流失判断周期,并获得所述预测数据获取时段内的待预测用户的特征数据;

用户流失预测结果获取模块,用于基于待预测用户的特征数据和所述流失概率预估模型,获得针对所述待预测用户的用户流失预测结果。

b8.根据权利要求b7所述的用户流失预测装置,所述流失判断周期获取模块,具体用于:

基于所述用户历史活跃记录,获得所述历史使用时段内的用户累计留存率变化曲线;

基于所述用户累计留存率变化曲线获得所述流失判断周期。

b9.根据权利要求b8所述的用户流失预测装置,所述流失判断周期获取模块,又具体用于:

从所述历史使用时段的起始时间点,按照预设时间步长获取n个待分析时段,所述n个待分析时段具有相同时长,其中,n≥2,且为正整数;

分别将每个待分析时段的截至时间点对应的累计留存率与起始时间点对应的累计留存率相减,得到对应的留存率差值;

将n个待分析时段对应的留存率差值与预设阈值进行对比,确定出小于或等于所述预设阈值的m个留存率差值,其中,m≤n,且为正整数;

从所述m个留存率差值中确定出数值最大的留存率差值,作为目标留存率差值;

将所述历史使用时段的起始时间点到所述目标留存率差值对应的起始时间点的间隔时长作为所述用户流失周期。

b10.根据权利要求b7所述的用户流失预测装置,所述样本用户集合获取模块,具体用于:

基于流失判断周期在所述目标产品的历史使用时段中选取第一目标时段和位于所述第一目标时段之后的第二目标时段,使得所述第一目标时段内的时长和所述第二目标时段内的时长都等于所述流失判断周期;

获得所述样本用户集合中的各个样本用户在所述第一目标时段中的特征数据;

根据所述第二目标时段中所述目标产品对应的用户历史活跃记录确定出样本用户集合中的各个样本用户的流失判定标签,所述流失判定标签包括未流失标签和已流失标签,其中,所述未流失标签用于表征对应的样本用户不具有流失倾向,所述已流失标签用于表征对应的样本用户具有流失倾向。

b11.根据权利要求b10所述的用户流失预测装置,所述流失概率预测模型获取模块,具体用于:

利用所述样本用户集合中的各个样本用户的特征数据和所述样本用户集合中的各个样本用户的流失判定标签对所述目标机器学习模型进行训练,获得所述流失概率预测模型。

b12.根据权利要求b11所述的用户流失预测装置,所述目标机器学习模型具有两个以上;

所述流失概率预测模型获取模块,具体用于:

将所述样本用户集合划分为训练集和测试集;

利用所述训练集中的各个样本用户的特征数据和所述训练集中的各个样本用户的流失判定标签对两个以上所述目标机器学习模型进行训练,获得两个以上的训练模型;

利用所述测试集分别对所述两个以上的训练模型进行测试,得到对应的测试结果;

利用预设判定指标对所述两个以上的训练模型对应的测试结果进行评估,获得评估结果最好的训练模型,作为所述流失概率预测模型。

c13.一种电子设备,包括处理器、存储器和权利要求b7-b12所述的用户流失预测装置,所述用户流失预测装置包括一个或多个存储于所述存储器并由所述处理器执行的软件功能模块。

d14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,可以实现权利要求a1-a6中任意一项所述的用户流失预测装置方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1