潜在流失用户识别方法、装置、存储介质及电子设备与流程

文档序号:25172118发布日期:2021-05-25 14:42阅读:71来源:国知局
潜在流失用户识别方法、装置、存储介质及电子设备与流程

本申请涉及计算机技术领域,尤其涉及一种潜在流失用户识别方法、装置、存储介质及电子设备。



背景技术:

随着网络技术的不断发展,应用程序的种类越来越多。如果应用平台上的产品对用户的吸引力减小,应用上的有些用户的活跃度将随之下降,致使应用平台上的用户量减小。

在实际应用中,针对应用(如游戏、视听等应用)而言,每天活跃着成千上万的用户,但是可能总有一些用户处于即将流失的状态。这部分即将流失用户的挽回,常是稳定应用中活跃用户人数的重要手段。



技术实现要素:

本申请实施例提供了一种潜在流失用户识别方法、装置、存储介质及电子设备,可以准确预测潜在流失用户。本申请实施例的技术方案如下:

第一方面,本申请实施例提供了一种潜在流失用户识别方法,所述方法包括:

获取第一应用中目标非流失用户的第一应用日志,基于所述第一应用日志确定预测输入特征;

将所述预测输入特征输入至流失预测模型中,输出流失预测值,并基于所述流失预测值确定所述目标非流失用户是否为潜在流失用户;

其中,所述流失预测模型基于至少一个第二应用的采样流失周期所确定的第二应用日志训练得到,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,所述第一应用与所述第二应用属于同一应用类型。

第二方面,本申请实施例提供了一种潜在流失用户识别装置,所述装置包括:

特征确定模块,用于获取第一应用中目标非流失用户的第一应用日志,基于所述第一应用日志确定预测输入特征;

流失预测模块,用于将所述预测输入特征输入至流失预测模型中,输出流失预测值,并基于所述流失预测值确定所述目标非流失用户是否为潜在流失用户;其中,所述流失预测模型基于至少一个第二应用的采样流失周期所确定的第二应用日志训练得到,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,所述第一应用与所述第二应用属于同一应用类型。

第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括:

在本申请一个或多个实施例中,电子设备预先基于至少一个第二应用的采样流失周期所确定的第二应用日志训练流失预测模型,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,在潜在流失用户识别阶段,可获取与第二应用属于同一应用类型的第一应用中的目标非流失用户的第一应用日志,然后基于所述第一应用日志确定预测输入特征,将所述预测输入特征输入至流失预测模型中,基于输出的流失预测值来确定目标非流失用户是否为潜在流失用户,可以在“目标非流失用户”未流失前准确识别出其为潜在流失用户并且存在较大概率流失,起到提前进行潜在流失的用户预警的效果,以及可以起到较好的防止用户流失的效果,避免错过防止用户流失的最佳时机。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种潜在流失用户识别方法的流程示意图;

图2是本申请实施例提供的另一种潜在流失用户识别方法的流程示意图;

图3是本申请实施例提供的另一种潜在流失用户识别方法的流程示意图;

图4是本申请实施例提供的一种用户登录率对应的采样表;

图5是本申请实施例提供的一种参数变化曲线的示意图;

图6是本申请实施例提供的一种深度神经网络的示意图;

图7是本申请实施例提供的一种潜在流失用户识别装置的结构示意图;

图8是本申请实施例提供的一种特征确定模块的结构示意图;

图9是本申请实施例提供的另一种潜在流失用户识别装置的结构示意图;

图10是本申请实施例提供的一种周期确定模块的结构示意图;

图11是本申请实施例提供的一种模型训练模块的结构示意图;

图12是本申请实施例提供的一种电子设备的结构示意图;

图13是本申请实施例提供的操作系统和用户空间的结构示意图;

图14是图13中安卓操作系统的架构图;

图15是图13中ios操作系统的架构图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本申请进行详细说明。

在一个实施例中,如图1所示,特提出了一种潜在流失用户识别方法,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的潜在流失用户识别装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。

潜在流失用户识别装置可以是一种电子设,所述电子设备包括但不限于:服务器、电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、个人数字处理(personaldigitalassistant,pda)、5g网络或未来演进网络中的终端设备等。

具体的,该潜在流失用户识别方法包括:

步骤s101:获取第一应用中目标非流失用户的第一应用日志,基于所述第一应用日志确定预测输入特征。

所述第一应用可以理解为当前待识别“潜在流失用户”的目标应用,在本申请中,基于实际应用需求,需要对某一应用所包含的非流失用户进行“潜在流失用户”识别或挖掘时,上述“某一应用”即为第一应用;

进一步的,随着相应类型应用的快速普及,某一类型下的各应用之间的用户存在用户流失,且随着时间的递增,用户流失形势严峻,对相应类型的应用而言,用户粘度和应用体验感影响较大,在相关技术中,在用户未具有已经流失的用户特征之前,常常是依赖人工规则将其与流失用户具备的流失特征进行分析对比,这往往不能提前精准的衡量用户流失的可能性。

在本申请中,可以对某一类型的应用下的非流失用户进行挖掘或识别,从非流失用户中确定或挖掘出高潜流失的用户,也即对应用(如第一应用)即将流失的潜在流失用户进行精准识别和确定,实际应用中,可对这些潜在流失用户进行流失挽回处理,从而提高潜在流失用户的用户粘度和相应应用(如第一应用)的应用体验感,进一步可实现对潜在流失用户的用户类型转化,也即将潜在流失用户识别出后,可进一步进行流失挽回处理,如将其转化为稳定活跃用户。

在实际应用中,对于第一应用的所有用户而言,各用户至少可分为非流失用户和稳定活跃用户,所述目标非流失用户可以理解为当前需要对非流失用户进行“潜在流失用户识别”的用户。

具体的,针对某一应用(如第一应用)的用户而言,可预设设置标准评测指标,以对某一应用(第一应用)的用户进行用户类型的区分,从而分辨出某一应用(第一应用)中的非流失用户和稳定活跃用户。

具体的,以第一应用为例,预先可在一定统计期内获取第一应用的某一用户相关联的目标应用日志,从目标应用日志中选取“某一用户”的m种评测指标。其中,标准评测指标与评测指令相对应,且用于基于评测指标来识别该用户为非流失用户或稳定活跃用户,通常标准评测指标可以为下述指标中的至少一个,且标准评测指标与评测指标相关联。

其中,所述评测指标可以是与反馈用户登录情况或维度的相关参数,在一些实施例中,包括当不限于统计期内登录率、登录时长、登录评率、登录波动率、登录次数等参数中的至少一种。

实际应用中,判断某一用户的用户类型,可以是基于用户对应的评测指标,将评测指标小于设定的标准评测指标的用户划分为流失用户,将评测指标大于标准评测指标的用户划分为非流失用户。进一步的,若当前的目标用户的评测指标大于标准评测指标,则确定目标用户为目标非流失用户。

所述第一应用日志为目标非流失用户在第一应用中的相关应用日志,如,第一应用为某一游戏类型的应用,则第一应用日志可为该目标非流失用户在游戏应用中的游戏应用日志。第一应用日志通常包含用户登录/付费流水日志,用户在应用内的等级段位、关卡、好友数、日周月活跃度、弹幕信息、用户每日全量安装列表等数据中的至少一种。

具体的,电子设备在获取第一应用中目标非流失用户的第一应用日志之后,可以从第一应用日志中对目标非流失用户的数据进行分析处理,确定各个维度因素所对应的特征,从而可以提取出用于“潜在流失用户”预测的预测输入特征,预测输入特征可以由多个维度因素的子特征构成,通常每一维度子特征用于衡量或表征用户潜在流失的程度,在一些实施例中,以第一应用为游戏类型为例,各维度的子特征可以是用户等级、用户胜负率、关卡、日/周活跃度、间隔登陆时长、在线时长、好友数量、用户交互参数等用户类别的用户特征;在一些实施例中,各维度的子特征可以是应用名称/.标识、应用类目、应用标签、开发者、当前下载量、应用更新次数、应用包容量、应用评分、应用留存率等应用维度的应用特征。一些实施例中,各维度的子特征可以是上述用户特征和应用特征中的一种或多种的拟合,进一步的,可基于应用的不同来设置不同维度不同数量的且由各维度因素的子特征构成的预测输入特征、

进一步的,在一些实施例中,可基于实际应用环境,来确定预测输入特征的特征数量,在本申请中,可从用户侧因素和/或应用侧因素来综合全面考虑应用对用户的潜在流失程度的影响,进一步对潜在流失程度进行量化,相比相关技术中单一因素维度的量化效果更优,准确率更高。

在一种具体的实施方式中,电子设备在获取第一应用中目标非流失用户的第一应用日志之后,可以从第一应用日志中对目标非流失用户的数据进行分析处理,通常可相应获取确定“各个维度因素所对应的特征”所对应的数据,按照相应维度的子特征生成规则对数据进行分析处理从而获取到,进而确定各个维度因素所对应的特征,从而可以提取出用于“潜在流失用户”预测的所述非流失用户对应的用户特征以及所述第一应用对应的应用特征。然后可基于所述用户特征以及所述应用特征,生成预测输入特征。具体实施中,可对用户特征和应用特征进行特征组合处理,构成相应的特征矩阵或特征序列,从而得到预存输入特征,通过将单独或单一维度的特征进行组合(如特征相乘、特征求平方)而形成的合成特征。特征组合有助于表示潜在流失程度的非线性关系,已达到更好的模型判决效果,提高模型输出的准确率。

步骤s102:将所述预测输入特征输入至流失预测模型中,输出流失预测值,并基于所述流失预测值确定所述目标非流失用户是否为潜在流失用户。

所述流失预测模型可以是使用大量的样本数据对初始流失预测模型进行训练的,如流失预测模型可以是基于逻辑回归模型(logisticregression,lr)、支持向量机(supportvectormachine,svm)、决策树、朴素贝叶斯分类器、卷积神经网络(convolutionalneuralnetwork,cnn)、递归神经网络(recurrentneuralnetworks,rnn)等中的一种或多种实现。在一些实施例中,可以基于已经标注用户类型标签的样本数据对初始的流失预测模型进行训练,可以得到训练好的流失预测模型。

在实际应用中,电子设备在确定预测输入特征之后,即可将预测输入特征输入至流失预测模型中,由流失预测模型基于预测输入特征对目标非流失用户进行识别处理,然后流失预测模型可输入流失预测值,所述流失预测值用于表征当前模型预测用户(如目标非流失用户)为潜在流失用户的概率,基于该流失预测值,电子设备可确定所述目标非流失用户是否为潜在流失用户。

在一种可行的实施方式中,可预先设置第一应用的用于衡量潜在流失用户对应的预测阈值,所述预测阈值为流失预测值的门限值或临界值,通常可基于实际应用环境获取大量样本数据并采用相应数理分析方法确定的一个经验值。进一步的,当所述流失预测值大于预测阈值时,电子设备可确定所述目标非流失用户为潜在流失用户;当所述流失预测值小于或等于所述预测阈值时,电子设备可确定所述目标非流失用户为稳定活跃用户。

可选的,在本申请中流失预测模型可针对同一类型下的不同应用进行潜在流失用户的预测,如均属于游戏应用类型、即时通讯类型、音视频类型等等。且在训练时可采用迁移学习、多类型应用训练等模型训练方式,对初始的流失预测模型进行训练,以使其适用于更多的同一应用类型下的不同类型应用,与相关技术不同的是,本申请中模型的模型识别适用范围可以是同一类型下的不同应用并非仅针对单一应用,如均可针对游戏类型的应用进行潜在流失用户的预测,且在模型训练阶段,可基于至少一个第二应用的采样流失周期所确定的第二应用日志训练得到,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,所述第一应用与所述第二应用属于同一应用类型。

其中,在一些实施例中,第二应用可以与第一应用相同,也即为同一应用。在一些实施例中,第二应用可以与第一应用不相同,也可以是第二应用包含第一应用,实际实施中,第二应用为在模型训练阶段用于样本数据采集时的参考样本应用,通过预先获取第二应用下采样流失周期指示的用户的样本日志,基于样本日志对初始的流失预测模型进行训练,得到训练好的流失预测模型。在本实施例中仅对模型训练过程进行粗略释义,具体训练过程可参考后续实施例中的详细释义。

在本申请实施例中,电子设备预先基于至少一个第二应用的采样流失周期所确定的第二应用日志训练流失预测模型,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,在潜在流失用户识别阶段,可获取与第二应用属于同一应用类型的第一应用中的目标非流失用户的第一应用日志,然后基于所述第一应用日志确定预测输入特征,将所述预测输入特征输入至流失预测模型中,基于输出的流失预测值来确定目标非流失用户是否为潜在流失用户,可以在“目标非流失用户”未流失前准确识别出其为潜在流失用户并且存在较大概率流失,起到提前进行潜在流失的用户预警的效果,以及可以起到较好的防止用户流失的效果,避免错过防止用户流失的最佳时机。

请参见图2,图2是本申请提出的一种潜在流失用户识别方法的另一种实施例的流程示意图。具体的:

步骤s201:获取第一应用中目标非流失用户的第一应用日志,从所述第一应用日志确定所述目标非流失用户对应的用户特征以及所述第一应用对应的应用特征。

根据一些实施例中,对于第一应用的所有用户而言,各用户至少可分为非流失用户和稳定活跃用户,所述目标非流失用户可以理解为当前需要对非流失用户进行“潜在流失用户识别”的用户。

根据一些实施例中,用户特征包括但不限于用户等级、用户胜负率、关卡、日/周活跃度、间隔登陆时长、在线时长、好友数量、用户交互参数等与当前用户强相关用户特征中的一种或多种的拟合。应用特征包括但不限于应用名称/标识、应用类目、应用标签、开发者、当前下载量、应用更新次数、应用包容量、应用评分、应用留存率等应用维度的应用特征。在本实施例中,基于实际应用环境,在对目标非流失用户进行预测时,从第一应用相关的用户侧因素和应用侧因素来综合全面考虑应用运营对用户的潜在流失程度的影响,进一步对潜在流失程度进行量化,相比相关技术中单一因素维度的量化效果更优,准确率更高。

根据一些实施例中,电子设备在获取第一应用中目标非流失用户的第一应用日志之后,可以从第一应用日志中对目标非流失用户的数据进行分析处理,通常可相应获取确定“用户维度因素和应用维度因素”所对应的数据,按照相应维度的特征生成/提取规则对相应位置数据进行分析处理从而获取到,进而可确定各个维度因素所对应的特征,从而可以提取出用于“潜在流失用户”预测的所述目标非流失用户对应的用户特征以及所述第一应用对应的应用特征。

步骤s202:获取所述第一应用对应的应用标识。

所述应用标识用于表征所述第一应用的身份,可以是应用名称、应用对应的字符串、自定义的字符、应用的版本号等。

其中,第一应用对应的应用标识的获取可基于第一应用日志获取到,也可在本地通过获取第一应用的应用数据解析得到,如应用包。

步骤s203:将所述用户特征以及所述应用特征分别与所述应用标识进行特征交叉处理,生成预测输入特征。

在本申请中流失预测模型可针对同一类型下的不同应用进行潜在流失用户的预测,如均属于游戏应用类型、即时通讯类型、音视频类型等等。且在训练时可采用迁移学习、多类型应用训练等模型训练方式,对初始的流失预测模型进行训练,以使其适用于更多的同一应用类型下的不同类型应用,与相关技术不同的是,本申请中模型的模型识别适用范围可以是同一类型下的不同应用并非仅针对单一应用,如均可针对游戏类型的应用进行潜在流失用户的预测,在一些实施例中,为了提高模型较高的泛化效果以及较高的扩展性,可以适用于同一类型下(如游戏类型)更多的应用,实现对多种应用的非流失用户中的潜在流失用户的预测,在模型训练阶段以及模型应用阶段,通过将确定的应用的所有特征(用户特征和应用特征)与应用标识进行特征交叉处理,构成相应的特征矩阵或特征序列,从而得到预存输入特征,通过将单独或单一维度的特征与非线性的应用标识进行组合(如特征相乘、特征求平方)而形成的交叉之后的特征。特征交叉组合有助于表示影响潜在流失程度的应用标识与用户特征以及应用特征的非线性关系,已达到更好的模型判决效果,进一步的,在本申请中,将所述用户特征以及所述应用特征分别与所述应用标识进行特征交叉,建立应用与目标非流失用户相对应的所有特征的逻辑连接,通常特征交叉后生成的预测输入特征可以组成独热编码后的具有多元特征的特征向量,由于通常流失预测模型具有对多个不同应用的潜在识别用户的识别能力,生成这样的预测输入特征可以在模型识别阶段乃至模型训练阶段,便于模型识别沿期望输出路径正向经模型各层(神经网络模型的各层)进行传播,起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。

在一种可行的实施方式中,特征交叉处理方式可以是计算所述行为特征以及所述应用特征分别与所述应用标识的笛卡尔积,也即将行为特征以及所述应用特征作为一个特征集合或特征矩阵,将其与应用标识进行笛卡尔交叉,计算笛卡尔积,从而将所有交叉后的特征作为预测输入特征,也即流失预测模型的输入。采用该特征交叉处理方式,不需要额外对实际应用环境中的不同应用场景的不同应用进行额外建模,可以对一类具有共性的应用,如同一类型的应用,通过统一的流失预测模型进行模型训练以及训练完成后的模型应用,起到模型的泛化效果,在模型应用阶段,仅仅只需将所述用户特征以及所述应用特征分别与所述应用标识进行特征交叉,这样流失预测模型可对多个不同应用中目标应用(如第一应用)的潜在识别用户的识别能力;同时在特征输入前引入应用标识,生成的预测输入特征可一定程度上对不具线性关系或逻辑连接的特征进行聚合或组合,便于模型识别沿期望输出路径正向经模型各层(神经网络模型的各层)进行传播,起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。

可选的,所述特征交叉处理方还可以是基于一定规则的特征组合,即按照一定的特征组合时序将“用户特征、应用特征与所述应用标识”进行特征拼接。

步骤s204:将所述预测输入特征输入至流失预测模型中,输出流失预测值。

具体可参见步骤s102,此处不再赘述。

步骤s205:当所述流失预测值小于或等于所述预测阈值时,确定所述目标非流失用户为潜在流失用户;

具体可参见步骤s102,此处不再赘述。

步骤s206:基于所述流失预测值,确定所述潜在流失用户对应的用户挽留策略。

步骤s207:基于所述用户挽留策略对所述潜在流失用户进行用户挽留处理。

由于当前目标非流失用户的用户类型为潜在流失用户,说明当前的第一应用对该用户的吸引力减小,潜在流失用户的活跃度下降,潜在流失用户极有可能会流失,为了有效地防止应用下的用户流失,提高目标应用下的用户数量,在确定诸如第一应用下的目标非流失用户的用户类型为潜在流失用户后,本实施例提供的方法可进一步基于所述流失预测值和/或所述第一应用日志,确定所述潜在流失用户对应的用户挽留策略,一种用户挽留策略可以是将在第一应用下向潜在流失用户推送用于提升活跃度和登录率的相关拉活数据。其中,用于提升活跃度的拉活数据可以是广告、第一应用下的道具、礼包、虚拟数字资产等数据,本实施例不对用于提升活跃度和登录率的相关拉活数据进行限定。一种用户挽留策略可以是向潜在流失用户推送针对诸如第一应用的应用测评报告,便于潜在流失用户及时反馈测评信息,以基于测评信息对第一应用进行处理,如更改应用服务方式等等;

进一步地,为了提升潜在流失用户的活跃度和登录率,防止用户流失,本实施例可采用用户分级的挽留策略,针对不同的流失预测值的用户,设置有不同的参考挽留策略,电子设备可基于流失预测值从至少一个参考挽留策略中确定当前的用户挽留策略。

进一步地,电子设备可基于流失预测值,从第一应用日志中获取目标指标特征,基于目标指标特征生成针对潜在流失用户的应用活动,将其作为用户挽留策略,通过基于流失预测值获取有效有用的目标指标特征为参考,基于目标指标特征为向潜在流失用户对应的一类用户推送活动进行挽留,可以有效地防止应用程序下用户流失,达到提高了用户量的目的。此外,当电子设备将能够提升应用活跃度的活动推送到应用平台后,一些未登录的用户在看到应用平台上的这些活动后,在应用平台上这些活动的吸引下,登录目标应用程序,同样能提高目标应用程序下目标用户的用户量。

其中,目标指标特征可以是前述实施例中用户特征以及应用特征中一种或多种的拟合,目标指标特征的数量以及类目基于流失预测值确定,可以预先基于不同的参考流失预测值设置不同的“指标特征的数量以及类目”。

优选地,为了使电子设备推送到应用上的活动在对“潜在流失用户对应的一类用户”进行挽留时,效果更佳、更有针对性,在向诸如第一应用下的“潜在流失用户对应的一类用户”推送活动后,还将对推送的活动进行活动效果测评,并根据测评结果实时对活动的相关活动指标进行优化调整处理,活动指标包括但不限于活动时长、活动难度、活动道具、活动礼包、虚拟数字资产等等。测评时,包括但不限于采用如下方法:可以获取推送活动前后目标用户的用户数据;其次,根据获取到的推送活动前后用户的用户数据进行活动效果测评;再次,根据活动测评结果,判断是否达到预期目标,若未达到预期目标,则根据活动测评结果对活动的的相关活动指标进行优化调整。

在本申请实施例中,电子设备预先基于至少一个第二应用的采样流失周期所确定的第二应用日志训练流失预测模型,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,在潜在流失用户识别阶段,可获取与第二应用属于同一应用类型的第一应用中的目标非流失用户的第一应用日志,然后基于所述第一应用日志确定预测输入特征,将所述预测输入特征输入至流失预测模型中,基于输出的流失预测值来确定目标非流失用户是否为潜在流失用户,可以在“目标非流失用户”未流失前准确识别出其为潜在流失用户并且存在较大概率流失,起到提前进行潜在流失的用户预警的效果,以及可以起到较好的防止用户流失的效果,避免错过防止用户流失的最佳时机;以及识别时采用与应用标识特征交叉处理起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。

请参见图3,图3是本申请提出的一种潜在流失用户识别方法的另一种实施例的流程示意图。具体的:

步骤s301:确定第二应用对应的采样流失周期。

根据一些实施例中,第二应用可以与上述的第一应用相同,也即为同一应用。第二应用可以与第一应用不相同,也可以是第二应用包含第一应用,实际实施中,第二应用为在模型训练阶段用于样本数据采集时的参考样本应用,通过预先获取第二应用下采样流失周期指示的用户的样本日志,基于样本日志对初始的流失预测模型进行训练,得到训练好的流失预测模型。另外,第二应用可以与第一应用不相同的情况下,通常所述第一应用与所述第二应用属于同一类型,如属于同一应用类型、同一架构类型、同一服务类型等等,也即第一应用于第二应用可相关。

所述采样流失周期用于在模型训练阶段获取不同用户类型的样本数据,基于采用流失周期确定不同样本类型的用户,假设采用流失周期为n,正样本用户定义:自采样日算起,n天前当天有登录行为,接下来n天持续未登录的用户,也可理解为流失用户;负样本用户定义,自采样日期算起,n天前当天有登录行为,接下来n天任何某一天有过登录行为的用户,也即在采样周期内至少登录过一天的用户,也可理解为非流失用户,在本申请中,“正样本用户与负样本用户”仅基于采样流失周期来确定。进而来获取第二应用下正样本用户的应用日志作为正样本日志,获取第二应用下负样本用户的应用日志作为负样本日志,另外,正样本日志和负样本日志中用户数据的选取可以是:选择采样流失周期对应的用户数据,如采样流失周期为n天,则自采样初始日期起,选取n天的用户数据作为正样本日志或负样本日志;正样本日志和负样本日志中用户数据的选取可以是:如采样流失周期为n天,则自采样初始日期起,选取小于n天的周期的用户数据作为正样本日志或负样本日志。具体可基于实际应用环境确定,此处不作具体限定。

进一步的,采取不同用户类型的正/负样本日志在模型训练阶段可提高模型的输出准确率,起到更好的泛化效果。在实际应用中,本申请涉及到的流失预测模型需要对非流失用户进行预测,来判断其潜在流失程度,因此采样流失周期的确定尤为重要。

所述变化特征值为反馈用户登录率变化的临界值,在该临界值之后,通常用户登录率的波动较小趋向平稳,在该变化特征值之前用户登录率变化波动较大。

以下对采样流失周期的确定过程进行释义

1、电子设备获取自采样初始日起第二应用对应的多个用户登陆率,基于各所述用户登陆率确定变化特征值。

所述采样初始日可基于实际应用环境自定义设置,可以是选取第二应用登录用户数最多的时期,也可任意选取大于一定用户数量的时期,等等,具体不作限定。

所述用户登录率是自采样初始日期,每日的用户登录率,其定义可基于实际环境进行自定义;可以是自采样初始日期起,连续i天未登陆的用户占连续i-1天未登陆用户的比例。

具体的,假设采样初始日为a,则获取自采样初始日起,各采样日对应的用户登录率。

示意性的,如图4所示,图4是本申请涉及的用户登录率对应的采样表,在图4中:

日期:20170701为采样初始日期;

采样初始日期“20170701”的登录用户数为12452265;

日期20170702;当天有2015149用户没有连续登录;

日期20170703,当天有1264891用户持续没有登录,则用户登录率为62.769;

日期20170704,当天有948673用户持续没有登录,则用户登录率为75.000;

日期20170705,当天有765414用户持续没有登录,则用户登录率为80.683;

日期20170706,当天有646470用户持续没有登录,则用户登录率为84.460;

....

在一种可行的实施方式,电子设备可基于各所述用户登陆率确定参数变化曲线,也即根据各所述用户登陆率来绘制参数变化曲线,以采样间隔日为因变量,以用户登录率为自变量,示意性的,如图5所示,图5是一种参数变化曲线的示意图,电子设备可基于所述参数变化曲线进行数理分析,确定所述参数变化曲线的拐点值,将所述拐点值作为变化特征值。可以理解的是,拐点,也称反曲点,常指改变曲线向上或向下方向的点,直观地说拐点是使切线穿越曲线的点(即连续曲线的凹弧与凸弧的分界点),在本申请中,在该拐点值之后,通常用户登录率的波动较小趋向平稳,在该变化特征值之前用户登录率变化波动较大。

在一种可行的实施方式,电子设备也可以基于各所述用户登陆率绘制概率分布图,对该概率分布图进行近似拟合,确定与所述曲线相拟合的概率分布函数,如正态分布、柏松分布等,从而确定所述概率分布函数对应的概率特征值,将所述概率特征值作为变化特征值。

2、电子设备获取所述变化特征值对应的参考日期,将所述采样初始日至所述参考日期间的差值作为采样流失周期。

确定变化特征值后,获取变化特征值对应的参考日期,在图5中,拐点值可为曲线上方形点标记的位置,确定该拐点值对应的日期,也即拐点值对应的日期“20170710”,基于“20170710”和采样初始日“20170701”即可差值为采样流失周期。

步骤s302:基于采样流失周期获取流失用户对应的正样本日志以及非流失用户对应的负样本日志。

基于采用流失周期确定不同样本类型的用户,假设采用流失周期为n,正样本用户定义:自采样日算起,n天前当天有登录行为,接下来n天持续未登录的用户,也可理解为流失用户;负样本用户定义,自采样日期算起,n天前当天有登录行为,接下来n天任何某一天有过登录行为的用户,也即在采样周期内至少登录过一天的用户,也可理解为非流失用户,在本申请中,“正样本用户与负样本用户”仅基于采样流失周期来确定。进而来获取第二应用下正样本用户的应用日志作为正样本日志,获取第二应用下负样本用户的应用日志作为负样本日志,另外,正样本日志和负样本日志中用户数据的选取可以是:选择采样流失周期对应的的用户数据,如采样流失周期为n天,则自采样初始日期起,选取n天的用户数据作为正样本日志或负样本日志;正样本日志和负样本日志中用户数据的选取可以是:如采样流失周期为n天,则自采样初始日期起,选取小于n天的周期的用户数据作为正样本日志或负样本日志。具体可基于实际应用环境确定,此处不作具体限定。

正/负样本日志为流失/非流失用户在第二应用中的相关应用日志,如,第二应用为某一游戏类型的应用,则应用日志可为该流失/非流失用户在游戏应用中的游戏应用日志。应用日志通常包含用户登录/付费流水日志,用户在应用内的等级段位、关卡、好友数、日周月活跃度、弹幕信息、用户每日全量安装列表等数据中的至少一种。

步骤s303:分别提取所述正样本日志以及所述负样本日志对应的样本行为特征,所述样本行为特征包括样本用户特征以及样本应用特征;

样本用户特征包括但不限于用户等级、用户胜负率、关卡、日/周活跃度、间隔登陆时长、在线时长、好友数量、用户交互参数等与当前用户强相关用户特征中的一种或多种的拟合。样本应用特征包括但不限于应用名称/标识、应用类目、应用标签、开发者、当前下载量、应用更新次数、应用包容量、应用评分、应用留存率等应用维度的应用特征。在本实施例中,基于实际应用环境,在对模型进行训练前时,从第二应用相关的用户侧因素和应用侧因素来综合全面考虑应用运营对用户的潜在流失程度的影响,进一步对潜在流失程度进行量化,相比相关技术中单一因素维度的量化效果更优,准确率更高。

根据一些实施例中,电子设备在获取第二应用中用户的正样本日志和负样本日志之后,可以从正样本日志中对流失用户的数据进行分析处理,通常可相应获取确定“用户维度因素和应用维度因素”所对应的数据,按照相应维度的特征生成/提取规则对相应位置数据进行分析处理从而获取到,进而可确定各个维度因素所对应的特征,从而可以提取出用于“潜在流失用户”预测的所述流失用户对应的样本用户特征以及所述第二应用对应的正样本日志应用特征。同理,可从负样本日志中对流失用户的数据进行分析处理,通常可相应获取确定“用户维度因素和应用维度因素”所对应的数据,按照相应维度的特征生成/提取规则对相应位置数据进行分析处理从而获取到,进而可确定各个维度因素所对应的特征,从而可以提取出用于“潜在流失用户”预测的所述非流失用户对应的样本用户特征以及所述第二应用对应的负样本日志的样本应用特征。

步骤s304:基于所述样本行为特征,生成样本输入特征。

在一种可行的实施方式中,在确定样本行为特征之后,基于所述样本用户特征以及所述样本应用特征,生成样本输入特征。具体实施中,可对样本用户特征和样本应用特征进行特征组合处理,构成相应的样本特征矩阵或样本特征序列,从而得到样本输入特征,通过将单独或单一维度的样本特征进行组合(如特征相乘、特征求平方)而形成的样本合成特征。样本特征组合有助于表示潜在流失程度的非线性关系,已达到更好的模型判决训练效果,提高模型输出的准确率。

在一种可行的实施方式中,本申请流失预测模型可针对同一类型下的不同应用进行潜在流失用户的预测,如均属于游戏应用类型、即时通讯类型、音视频类型等等。且在训练时可采用迁移学习、多类型应用训练等模型训练方式,对初始的流失预测模型进行训练,以使其适用于更多的同一应用类型下的不同类型应用,与相关技术不同的是,本申请中模型的模型识别适用范围可以是同一类型下的不同应用并非仅针对单一应用,如均可针对游戏类型的应用进行潜在流失用户的预测,且在模型训练阶段,可基于至少一个第二应用的采样流失周期所确定的第二应用日志训练得到,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,所述第一应用与所述第二应用属于同一应用类型。

具体实施中,电子设备获取所述第二应用对应的第二应用标识,然后将所述样本行为特征分别与所述第二应用标识进行特征交叉处理,生成样本输入特征。

在一些实施例中,为了提高模型较高的泛化效果以及较高的扩展性,可以适用于同一类型下(如游戏类型)更多的应用,实现对多种应用的非流失用户中的潜在流失用户的预测,在模型训练阶段以及模型应用阶段,通过将确定的应用的所有样本行为特征(样本用户特征和样本应用特征)与第二应用标识进行特征交叉处理,构成相应的样本特征矩阵或样本特征序列,从而得到样本输入特征,通过将单独或单一维度的特征与非线性的应用标识进行组合(如特征相乘、特征求平方)而形成的交叉之后的样本特征。样本特征交叉组合有助于表示影响潜在流失程度的应用标识与用户特征以及应用特征的非线性关系,已达到更好的模型判决效果,进一步的,在本申请中,将所述样本用户特征以及所述样本应用特征分别与所述第二应用标识进行特征交叉,建立第二应用与样本用户相对应的所有特征的逻辑连接,通常特征交叉后生成的样本输入特征可以组成独热编码后的具有多元特征的样本特征向量,由于通常流失预测模型具有对多个不同应用的潜在识别用户的识别能力,生成这样的样本输入特征可以在模型识别阶段乃至模型训练阶段,便于模型识别沿期望输出路径正向经模型各层(神经网络模型的各层)进行传播,起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。

在一种可行的实施方式中,特征交叉处理方式可以是计算所述样本行为特征以及所样本述应用特征分别与所述第二应用标识的笛卡尔积,也即将行为特征以及所述应用特征作为一个特征集合或特征矩阵,将其与第二应用标识进行笛卡尔交叉,计算笛卡尔积,从而将所有交叉后的特征作为样本输入特征,也即流失预测模型的样本输入。采用该特征交叉处理方式,不需要额外对实际应用环境中的不同应用场景的不同应用进行额外建模,可以对一类具有共性的应用,如同一类型的应用,通过统一的流失预测模型进行模型训练以及训练完成后的模型应用,起到模型的泛化效果,在模型训练阶段,仅仅只需将样本用户特征以及样本应用特征分别与第二应用标识进行特征交叉,多个第二应用的情况也类似,这样流失预测模型可对多个不同应用中目标应用(如多个第二应用)的潜在识别用户的识别能力;同时在特征输入前引入第二应用标识,生成的预测输入特征可一定程度上对不具线性关系或逻辑连接的特征进行聚合或组合,便于模型识别沿期望输出路径正向经模型各层(神经网络模型的各层)进行传播,起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。

另外,在样本输入特征确定阶段还可对不同的样本用户特征和样本应用特征进行特征预处理,为了让样本行为特征发挥效果,可以对不同的特征,进行分析影响用户流失的区分度,预处理过程中可以进行诸如特征归一化、离散化等分析预处理,尽量选择并确定出表达性显著的特征。例如,某游戏应用中周活跃度在200以上用户流失率是周活跃度200以下的用户流失率的34%,这样在构造样本用户特征-周活跃用户活跃度特征是,取周活跃大于200和小于200的用户来做特征离散化,相比其他特征,区分度效果更明显。

步骤s305:将所述样本输入特征输入至初始流失预测模型进行训练,得到训练后的流失预测模型。

所述流失预测模型可以是基于神经网络的使用大量的样本数据对初始流失预测模型进行训练得到的。在一些实施例中,可以基于已经标注用户类型标签的样本数据对初始的流失预测模型进行训练,可以得到训练好的流失预测模型。用户类型标签可以是标注正样本用户或负样本用户,流失预测模型的输出为一预测值,实际应用中模型判决的对象通常为非流失用户,也即预测该非流失用户转化为流失用户的概率值。

所述神经网络模型可以是基于卷积神经网络(convolutionalneuralnetwork,cnn)模型,深度神经网络(deepneuralnetwork,dnn)模型、循环神经网络(recurrentneuralnetworks,rnn)、模型、嵌入(embedding)模型、梯度提升决策树(gradientboostingdecisiontree,gbdt)模型、逻辑回归(logisticregression,lr)模型等模型中的一种或多种的拟合实现的。在本实施例中,优选采用基于深度神经网络的隐马尔可夫模型,即dnn-hmm,在现有神经网络模型基础上引入误差反向传播算法进行优化,提高神经网络模型的识别准确率。

具体的,电子设备确定样本输入特征之后,然后将样本输入特征输入到所述初始的流失预测模型中进行训练,在训练过程中,计算初始的流失预测模型的实际输出值与期望输出值的期望误差,基于所述期望误差调整所述流失预测模型的参数,训练完成后,生成流失预测模型。

可选的,在对基于神经网络的初始的流失预测模型进行训练,可以是采用基于动态时间规整的训练方法(dtw),可以是基于矢量量化的训练方法(vq),还可以是基于特征的时间序列的训练方法(hmm),等等。

另外,在上述样本确定阶段,为了针对同一类型下的不同应用进行潜在流失用户的预测,如均属于游戏应用类型、即时通讯类型、音视频类型等等。且在训练时可采用迁移学习的方式进行,实际应用中,同一类型的第二应用(如游戏应用)对应的样本数量可能不同,有些第二应用(如大型网游应用)的样本数据较多,有些第二应用(如小型游戏网页应用)的样本数据较少,为了提高模型的扩展性,以及模型在多个第二应用同时训练时过拟合情况,在训练阶段,一方面生成样本输入特征时,将样本行为特征与第二应用标识进行交叉处理;另一方面,针对作为样本应用的第二应用的用户体量进行划分(基于用户量阈值划分),可以划分出用户体量大的目标第二应用,和用户体量小的参考第二应用,将用户体量大的目标第二应用对应的样本输入特征先输入至初始的流失预测模型中训练,生成初始的第一流失预测模型;然后用户体量小的参考第二应用对应的样本输入特征先输入至第一流失预测模型中训练,生成最终的流失预测模型。

在一种具体的实施场景中,可以采用基于深度神经网络的隐马尔可夫模型,即dnn-hmm模型,在现有神经网络模型基础上引入误差反向传播算法进行优化,提高神经网络模型的识别准确率。

所述深度神经网络由输入层、隐层、输出层组成,如图6所示,图6是本申请涉及的一种深度神经网络的示意图,所述输入层用于根据输入所述深度神经网络的样本输入特征计算输入至最底层的隐层单元的输出值,所述输入层通常包括多个输入单元,所述输入单元用于根据输入的样本输入特征计算输入至最底层的隐层单元的输出值。将所述样本输入特征输入至所述输入单元后,所述输入单元根据自身的加权值利用输入至所述输入单元的样本输入特征计算向最底层的隐层输出的输出值。

所述隐层通常为多个,每一层隐层包括多个隐层单元,所述隐层单元接收来自于下一隐层中的隐层单元的输入值。根据本层的加权值对来自于下一层隐层中的隐层单元的输入值进行加权求和,并将加权求和的结果作为输出至上一层隐层的隐层单元的输出值。

所述输出层包括多个输出单元,所述输出单元接收来自于最上层隐层中的隐层单元的输入值,根据本层的加权值对来自于最上层隐层中的隐层单元的输入值进行加权求和,根据加权求和的结果计算实际输出值,基于期望输出值(通常可基于预先标注的标签可确定)与实际输出值的误差从输出层反向传播并沿输出路径调整各层连接权重值和阈值。

具体的,本实施例中采用引入误差反向传播算法的dnn-hmm模型创建初始模型,在提取样本输入特征之后,将所述样本输入特征输入到所述神经网络模型中,所述神经网络模型的训练过程通常由正向传播和反向传播两部分组成,在正向传播过程中,用户终端输入样本输入特征从所述神经网络模型的输入层经过隐层神经元(也称节点)的传递函数(又称激活函数、转换函数)运算后,传向输出层,其中每一层神经元状态影响下一层神经元状态,在输出层计算实际输出值-第一语音标识,计算所述实际输出值与期望输出值的期望误差,基于所述期望误差调整所述神经网络模型的参数,所述参数包含每一层的权重值和阈值,训练完成后,生成流失预测模型。

具体的,所述期望误差可以是计算模型的准确度和/或覆盖度,基于准确度和/或覆盖度,来对流失预测模型的参数进行调整。

其中,

准确度:预测某第二应用i天内将要流失且真实流失的用户/预测某第二应用i天内将要流失的用户。

覆盖度:预测某第二应用i天内将要流失且实际流失的用户/某第二应用i天内所有实际流失用户。

其中,上述各类型用户基于实际应用中设置的参考评测指标确定,可预设设置参考评测指标,以对某第二应用的用户进行用户类型的区分,从而分辨出某一应用“将要流失且真实流失的用户”、“将要流失的用户”、“将要流失且实际流失的用户”以及“实际流失用户”。参考评测指标包括但不限于日周月活跃度、好友数、虚拟数字资产、间隔登陆时长、在线时长等。

在一些实施例中,所述期望误差可以是计算实际输出值与期望输出值的均方误差mse,均方误差mse。

步骤s306:获取第一应用中目标非流失用户的第一应用日志,基于所述第一应用日志确定预测输入特征。

具体可参见步骤s101,此处不再赘述。

步骤s307:将所述预测输入特征输入至流失预测模型中,输出流失预测值,并基于所述流失预测值确定所述目标非流失用户是否为潜在流失用户。

具体可参见步骤s102,此处不再赘述。

在本申请实施例中,电子设备预先基于至少一个第二应用的采样流失周期所确定的第二应用日志训练流失预测模型,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,在潜在流失用户识别阶段,可获取与第二应用属于同一应用类型的第一应用中的目标非流失用户的第一应用日志,然后基于所述第一应用日志确定预测输入特征,将所述预测输入特征输入至流失预测模型中,基于输出的流失预测值来确定目标非流失用户是否为潜在流失用户,可以在“目标非流失用户”未流失前准确识别出其为潜在流失用户并且存在较大概率流失,起到提前进行潜在流失的用户预警的效果,以及可以起到较好的防止用户流失的效果,避免错过防止用户流失的最佳时机;以及识别时采用与应用标识特征交叉处理起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。以及,针对不同应用,通过分析用户连续未登录的天数导致流失的诸如拐点等变化特征值来评估其用户的采样流失周期,基于采样流失周期来构建样本,进一步提高模型的识别效果,可以从非流失用户中挖掘出较高准确率、召回率的潜在流失用户。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

请参见图7,其示出了本申请一个示例性实施例提供的潜在流失用户识别装置的结构示意图。该潜在流失用户识别装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括特征确定模块11以及流失预测模块12。

特征确定模块11,用于获取第一应用中目标非流失用户的第一应用日志,基于所述第一应用日志确定预测输入特征;

流失预测模块12,用于将所述预测输入特征输入至流失预测模型中,输出流失预测值,并基于所述流失预测值确定所述目标非流失用户是否为潜在流失用户;其中,所述流失预测模型基于至少一个第二应用的采样流失周期所确定的第二应用日志训练得到,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,所述第一应用与所述第二应用属于同一应用类型。

可选的,如图8所示,所述特征确定模块11,包括:

特征确定单元111,用于从所述第一应用日志确定所述目标非流失用户对应的用户特征以及所述第一应用对应的应用特征;

特征生成单元112,用于基于所述用户特征以及所述应用特征,生成预测输入特征。

可选的,如图8所示,所述特征确定模块11,还包括:

标识获取单元113,用于获取所述第一应用对应的应用标识;

所述特征生成单元112,还用于:

将所述用户特征以及所述应用特征分别与所述应用标识进行特征交叉处理,生成预测输入特征。

可选的,所述特征生成单元112,具体用于:

计算所述行为特征以及所述应用特征分别与所述应用标识的笛卡尔积,得到预测输入特征。

可选的,如图9所示,所述装置1,还包括:

周期确定模块13,用于确定第二应用对应的采样流失周期,基于采样流失周期获取流失用户对应的正样本日志以及非流失用户对应的负样本日志;

模型训练模块14,用于基于所述正样本日志以及所述负样本日志,对初始流失预测模型进行训练,得到训练后的流失预测模型。

可选的,如图10所示,所述周期确定模块13,包括:

特征值确定单元131,用于获取自采样初始日起第二应用对应的多个用户登陆率,基于各所述用户登陆率确定变化特征值;

周期确定单元132,用于获取所述变化特征值对应的参考日期,将所述采样初始日至所述参考日期间的差值作为采样流失周期。

可选的,所述特征值确定单元131,具体用于:

基于各所述用户登陆率确定参数变化曲线,确定所述参数变化曲线的拐点值,将所述拐点值作为变化特征值。

可选的,如图11所示,所述模型训练模块14,包括:

样本特征确定单元141,用于分别提取所述正样本日志以及所述负样本日志对应的样本行为特征,所述样本行为特征包括样本用户特征以及样本应用特征;

样本特征生成单元142,用于基于所述样本行为特征,生成样本输入特征;

模型训练单元143,用于将所述样本输入特征输入至初始流失预测模型进行训练,得到训练后的流失预测模型。

可选的,所述样本特征生成单元141,具体用于:

获取所述第二应用对应的第二应用标识;

将所述样本行为特征分别与所述第二应用标识进行特征交叉处理,生成样本输入特征。

可选的,所述流失预测模块12,具体用于:

当所述流失预测值大于预测阈值时,确定所述目标非流失用户为潜在流失用户;

当所述流失预测值小于或等于所述预测阈值时,确定所述目标非流失用户为稳定活跃用户。

可选的,所述装置1,还用于:

基于所述流失预测值,确定所述潜在流失用户对应的用户挽留策略;

基于所述用户挽留策略对所述潜在流失用户进行用户挽留处理。

需要说明的是,上述实施例提供的潜在流失用户识别装置在执行潜在流失用户识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的潜在流失用户识别装置与潜在流失用户识别方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请实施例中,电子设备预先基于至少一个第二应用的采样流失周期所确定的第二应用日志训练流失预测模型,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,在潜在流失用户识别阶段,可获取与第二应用属于同一应用类型的第一应用中的目标非流失用户的第一应用日志,然后基于所述第一应用日志确定预测输入特征,将所述预测输入特征输入至流失预测模型中,基于输出的流失预测值来确定目标非流失用户是否为潜在流失用户,可以在“目标非流失用户”未流失前准确识别出其为潜在流失用户并且存在较大概率流失,起到提前进行潜在流失的用户预警的效果,以及可以起到较好的防止用户流失的效果,避免错过防止用户流失的最佳时机;以及识别时采用与应用标识特征交叉处理起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。以及,针对不同应用,通过分析用户连续未登录的天数导致流失的诸如拐点等变化特征值来评估其用户的采样流失周期,基于采样流失周期来构建样本,进一步提高模型的识别效果,可以从非流失用户中挖掘出较高准确率、召回率的潜在流失用户。

本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图6所示实施例的所述潜在流失用户识别方法,具体执行过程可以参见图1-图6所示实施例的具体说明,在此不进行赘述。

本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1-图6所示实施例的所述潜在流失用户识别方法,具体执行过程可以参见图1-图6所示实施例的具体说明,在此不进行赘述。

请参考图12,其示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessingunit,cpu)、图像处理器(graphicsprocessingunit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory,rom)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitorycomputer-readablestoragemedium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(android)系统,包括基于android系统深度开发的系统、苹果公司开发的ios系统,包括基于ios系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据,等。

参见图13所示,存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对gpu性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。

以操作系统为android系统为例,存储器120中存储的程序和数据如图14所示,存储器120中可存储有linux内核层320、系统运行时库层340、应用框架层360和应用层380,其中,linux内核层320、系统运行库层340和应用框架层360属于操作系统空间,应用层380属于用户空间。linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、wi-fi驱动、电源管理等。系统运行库层340通过一些c/c++库来为android系统提供了主要的特性支持。如sqlite库提供了数据库的支持,opengl/es库提供了3d绘图的支持,webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(androidruntime),它主要提供了一些核心库,能够允许开发者使用java语言来编写android应用。应用框架层360提供了构建应用程序时可能用到的各种api,开发者也可以通过使用这些api来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序、潜在流失用户识别程序等。

以操作系统为ios系统为例,存储器120中存储的程序和数据如图15所示,ios系统包括:核心操作系统层420(coreoslayer)、核心服务层440(coreserviceslayer)、媒体层460(medialayer)、可触摸层480(cocoatouchlayer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架,比如基础(foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(airplay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(userinterface,ui)框架、用户界面uikit框架、地图框架等等。

在图15所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440中的基础框架和可触摸层480中的uikit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和ui无关。而uikit框架提供的类是基础的ui类库,用于创建基于触摸的用户界面,ios应用程序可以基于uikit框架来提供ui,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。

其中,在ios系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考android系统,本申请在此不再赘述。

其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本申请实施例对此不加以限定。

除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wirelessfidelity,wifi)模块、电源、蓝牙模块等部件,在此不再赘述。

在本申请实施例中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统,也可以是ios系统,或者其它操作系统,本申请实施例对此不作限定。

本申请实施例的电子设备,其上还可以安装有显示设备,显示设备可以是各种能实现显示功能的设备,例如:阴极射线管显示器(cathoderaytubedisplay,简称cr)、发光二极管显示器(light-emittingdiodedisplay,简称led)、电子墨水屏、液晶显示屏(liquidcrystaldisplay,简称lcd)、等离子显示面板(plasmadisplaypanel,简称pdp)等。用户可以利用电子设备101上的显示设备,来查看显示的文字、图像、视频等信息。

在图11所示的电子设备中,处理器110可以用于调用存储器120中存储的潜在流失用户识别应用程序,并具体执行以下操作:

获取第一应用中目标非流失用户的第一应用日志,基于所述第一应用日志确定预测输入特征;

将所述预测输入特征输入至流失预测模型中,输出流失预测值,并基于所述流失预测值确定所述目标非流失用户是否为潜在流失用户;

其中,所述流失预测模型基于至少一个第二应用的采样流失周期所确定的第二应用日志训练得到,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,所述第一应用与所述第二应用属于同一应用类型。

在一个实施例中,所述处理器110在执行所述基于所述第一应用日志确定预测输入特征时,具体执行以下操作:

从所述第一应用日志确定所述目标非流失用户对应的用户特征以及所述第一应用对应的应用特征;

基于所述用户特征以及所述应用特征,生成预测输入特征。

在一个实施例中,所述处理器110在执行所述潜在流失用户识别方法时,还执行以下步骤:

获取所述第一应用对应的应用标识;

所述基于所述用户特征以及所述应用特征,生成预测输入特征,包括:

将所述用户特征以及所述应用特征分别与所述应用标识进行特征交叉处理,生成预测输入特征。

在一个实施例中,所述处理器110在执行所述将所述行为特征以及所述应用特征分别与所述应用标识进行特征交叉处理,生成预测输入特征时,具体执行以下操作:

计算所述行为特征以及所述应用特征分别与所述应用标识的笛卡尔积,得到预测输入特征。

在一个实施例中,所述处理器110在执行所述获取第一应用中目标非流失用户的第一应用日志之前,具体执行以下操作:

确定第二应用对应的采样流失周期,基于采样流失周期获取流失用户对应的正样本日志以及非流失用户对应的负样本日志;

基于所述正样本日志以及所述负样本日志,对初始流失预测模型进行训练,得到训练后的流失预测模型。

在一个实施例中,所述处理器110在执行所述确定第二应用对应的采样流失周期时,具体执行以下操作:

获取自采样初始日起第二应用对应的多个用户登陆率,基于各所述用户登陆率确定变化特征值;

获取所述变化特征值对应的参考日期,将所述采样初始日至所述参考日期间的差值作为采样流失周期。

在一个实施例中,所述处理器110在执行所述基于各所述用户登陆率确定变化特征值时,具体执行以下操作:

基于各所述用户登陆率确定参数变化曲线,确定所述参数变化曲线的拐点值,将所述拐点值作为变化特征值。

在一个实施例中,所述处理器110在执行所述基于所述正样本日志以及所述负样本日志,对初始流失预测模型进行训练,得到训练后的流失预测模型时,具体执行以下操作:

分别提取所述正样本日志以及所述负样本日志对应的样本行为特征,所述样本行为特征包括样本用户特征以及样本应用特征;

基于所述样本行为特征,生成样本输入特征;

将所述样本输入特征输入至初始流失预测模型进行训练,得到训练后的流失预测模型。

在一个实施例中,所述处理器110在执行所述潜在流失用户识别方法时,还执行以下步骤:

获取所述第二应用对应的第二应用标识;

所述基于所述样本行为特征,生成样本输入特征时,具体执行以下操作:

将所述样本行为特征分别与所述第二应用标识进行特征交叉处理,生成样本输入特征。

在一个实施例中,所述处理器110在执行所述基于所述流失预测值确定所述目标非流失用户是否为潜在流失用户时,具体执行以下操作:

当所述流失预测值大于预测阈值时,确定所述目标非流失用户为潜在流失用户;

当所述流失预测值小于或等于所述预测阈值时,确定所述目标非流失用户为稳定活跃用户。

在一个实施例中,所述处理器110在执行所述确定所述目标非流失用户为潜在流失用户之后,具体执行以下操作:

基于所述流失预测值,确定所述潜在流失用户对应的用户挽留策略;

基于所述用户挽留策略对所述潜在流失用户进行用户挽留处理。。

在本申请实施例中,电子设备预先基于至少一个第二应用的采样流失周期所确定的第二应用日志训练流失预测模型,所述第二应用日志包括所述第二应用的流失用户对应的正样本日志以及非流失用户对应的负样本日志,在潜在流失用户识别阶段,可获取与第二应用属于同一应用类型的第一应用中的目标非流失用户的第一应用日志,然后基于所述第一应用日志确定预测输入特征,将所述预测输入特征输入至流失预测模型中,基于输出的流失预测值来确定目标非流失用户是否为潜在流失用户,可以在“目标非流失用户”未流失前准确识别出其为潜在流失用户并且存在较大概率流失,起到提前进行潜在流失的用户预警的效果,以及可以起到较好的防止用户流失的效果,避免错过防止用户流失的最佳时机;以及识别时采用与应用标识特征交叉处理起到模型快速识别收敛,加快模型的识别速度,提升输出的准确率的效果。以及,针对不同应用,通过分析用户连续未登录的天数导致流失的诸如拐点等变化特征值来评估其用户的采样流失周期,基于采样流失周期来构建样本,进一步提高模型的识别效果,可以从非流失用户中挖掘出较高准确率、召回率的潜在流失用户。

本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(field-programmablegatearray,fpga)、集成电路(integratedcircuit,ic)等。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1