一种用户留存预测方法、装置、电子设备及存储介质与流程

文档序号:24710422发布日期:2021-04-16 13:39阅读:99来源:国知局
一种用户留存预测方法、装置、电子设备及存储介质与流程

1.本申请涉及用户留存预测技术领域,具体而言,涉及一种用户留存预测方法、装置、电子设备及存储介质。


背景技术:

2.随着网约车的发展,网约车被越来越多的用户使用。网约车能够优化城市交通供给,减少了碳排放量,实现了绿色低碳出行。为了更好的推广网约车,网约车用户增长为重要目标,网约车用户增长的核心环节就是提高用户留存。
3.目前,统计用户留存的方式是:通过对网约车用户的出行进行分析,统计简单维度(比如,性别维度、年龄维度)下用户的留存结果。但是,目前的用户留存的统计方式,实时性差,统计效率低,无法满足用户的实时需求。


技术实现要素:

4.有鉴于此,本申请的目的在于提供一种用户留存预测方法、装置、电子设备及存储介质,能够基于预先训练好的留存预测模型且考虑到用户属性特征和用户rfm出行特征,进行用户留存结果的预测,提高了预测效率和预测准确度,满足了实时性的要求。
5.第一方面,本申请实施例提供了一种用户留存预测方法,所述方法包括:
6.根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;
7.根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型;
8.根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果。
9.在一种可能的实施方式中,在根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果之后,所述方法还包括:
10.根据所述第一用户对应的留存结果,生成不同的留存结果分别对应的推送方式;其中,所述推送方式包括以下至少之一:推送周期、激励幅度;所述推送周期的长度和留存结果呈正相关性;所述激励幅度的大小和所述留存结果呈负相关性;
11.根据每个留存结果对应的推送方式,生成用于向对应该留存结果的第一用户发送的目标推送信息。
12.在一种可能的实施方式中,所述根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征,包括:
13.接收用户端发送的控制指令,所述控制指令包括第一预设时间段和目标业务标识;
14.根据所述控制指令,查找所述第一预设时间段内匹配所述目标业务标识的第一历
史出行订单,并获取下达所述第一历史出行订单的第一用户的第一用户特征。
15.在一种可能的实施方式中,所述根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征,包括;
16.根据训练留存预测模型时所使用的目标特征类型,从所述第一用户特征中选取匹配所述目标特征类型的第二用户特征。
17.在一种可能的实施方式中,所述方法还包括:
18.针对每一个目标特征类型,若所述第一用户特征中缺少匹配该目标特征类型的第二用户特征,则根据该目标特征类型对应的补充特征,确定该目标特征类型匹配的第二用户特征;其中,所述补充特征是在训练留存预测模型时,根据训练使用的目标特征类型匹配的变量类型确定得到的。
19.在一种可能的实施方式中,所述根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果,包括:
20.将所述第一用户的第二用户特征输入到预先训练好的留存预测模型中,得到所述留存预测模型输出的所述第一用户的留存概率;
21.将所述留存概率确定为所述第一用户对应的留存结果;或者,根据所述第一用户的留存概率,对所述第一用户进行分类,得到所述第一用户对应的留存类别,将所述留存类别确定为所述第一用户对应的留存结果。
22.在一种可能的实施方式中,所述将所述第一用户的第二用户特征输入到预先训练好的留存预测模型中,得到所述留存预测模型输出的所述第一用户的留存概率,包括:
23.根据所述第二用户特征所属的目标特征类型,确定针对所述第二用户特征的目标编码方式;
24.按照所述目标编码方式对所述第二用户特征进行编码处理,得到编码后的当前用户特征;
25.将所述当前用户特征输入到预先训练好的留存预测模型中,得到所述留存预测模型输出的所述第一用户的留存概率。
26.在一种可能的实施方式中,所述根据所述第二用户特征所属的目标特征类型,确定针对所述第二用户特征的目标编码方式,包括:
27.若所述第二用户特征对应分类变量,则确定所述目标编码方式包括排序在先的数值编码和排序在后的独热编码;
28.若所述第二用户特征对应连续变量,则确定所述目标编码方式为独热编码。
29.在一种可能的实施方式中,通过如下方法训练所述留存预测模型:
30.根据多个第二用户在第二预设时间段内执行完成的第二历史出行订单,获取所述多个第二用户对应的训练特征;其中,所述训练特征包括第二用户属性特征和第二用户rfm出行特征;
31.根据所述多个第二用户对应的训练特征,生成多个不同目标特征类型的标准训练特征;所述目标特征类型是对所述训练特征的特征类型进行处理得到的;
32.根据所述标准训练特征,构建样本数据集,并根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型。
33.在一种可能的实施方式中,所述根据所述多个第二用户对应的训练特征,生成多
个不同目标特征类型的标准训练特征,包括:
34.根据所述训练特征的特征类型,选取对应的训练特征数量不满足预设阈值的异常特征类型;
35.删除所述异常特征类型下对应的训练特征,得到对应目标特征类型的标准训练特征。
36.在一种可能的实施方式中,所述方法还包括:
37.针对每一个目标特征类型,若该目标特征类型下缺少第二用户对应的标准训练特征,则根据该目标特征类型匹配的变量类型,确定该目标特征类型对应的补充特征,并根据所述补充特征,确定该目标特征类型下缺少的第二用户对应的标准训练特征。
38.在一种可能的实施方式中,所述根据该目标特征类型匹配的变量类型,确定该目标特征类型对应的补充特征,包括:
39.根据该目标特征类型匹配的变量类型以及该目标特征类型对应的各个第二用户的标准训练特征,确定该目标特征类型对应的补充特征;
40.或者,
41.根据该目标特征类型匹配的变量类型以及该变量类型对应的预设特征,确定该目标特征类型对应的补充特征。
42.在一种可能的实施方式中,根据该目标特征类型匹配的变量类型以及该目标特征类型对应的各个第二用户的标准训练特征,确定该目标特征类型对应的补充特征,包括:
43.若所述目标特征类型对应离散数据,则从该目标特征类型对应的各个第二用户的标准训练特征中选择对应的数量最多的第一标准训练特征,将所述第一标准训练特征作为该目标特征类型对应的补充特征;
44.若所述目标特征类型对应连续数据,则对该目标特征类型对应的各个第二用户的标准训练特征进行计算,将计算得到的第二标准训练特征确定为该目标特征类型对应补充特征。
45.在一种可能的实施方式中,在根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型之后,所述方法还包括:
46.存储所述训练好的留存预测模型、训练所述留存预测模型时使用的目标特征类型,以及所述目标特征类型对应的补充特征。
47.在一种可能的实施方式中,所述样本数据集包括训练集和测试集;所述根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型,包括:
48.根据所述训练集对初始预测模型进行训练处理,得到候选预测模型;
49.基于所述训练集和所述测试集分别对所述候选预测模型进行评估,并将得到的评估结果返回给用户端,以使所述用户端基于所述评估结果确定模型训练是否结束;
50.若否,则响应所述用户端基于所述评估结果发送的针对所述候选预测模型的调整指令,调整所述样本数据集,并使用调整后的所述样本数据集重复执行根据所述训练集对初始预测模型进行训练处理,得到候选预测模型的步骤;
51.若是,得到训练好的留存预测模型。
52.第二方面,本申请实施例还提供了一种用户留存预测方法,通过用户端提供一图形用户界面,所述方法包括:
53.响应作用于所述图形用户界面的选择操作,向服务器发送携带有第一预设时间段和目标业务标识的控制指令,以使所述服务器基于所述控制指令,查找在第一预设时间段内匹配所述目标业务标识的第一历史出行订单,并获取下达所述第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型;根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果;
54.响应用户的查询操作,向所述服务器发送查询请求,所述查询请求用于查询所述第一用户的留存结果;
55.接收所述服务器返回的匹配所述查询请求的查询结果,在所述图形用户界面展示所述查询结果。
56.第三方面,本申请实施例还提供了一种用户留存预测装置,所述装置包括:
57.第一获取模块,用于根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;
58.第一生成模块,用于根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型;
59.第一确定模块,用于根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果。
60.第四方面,本申请实施例还提供了一种用户留存预测装置,通过用户端提供一图形用户界面,所述装置包括:
61.第一发送模块,用于响应作用于所述图形用户界面的选择操作,向服务器发送携带有第一预设时间段和目标业务标识的控制指令,以使所述服务器基于所述控制指令,查找在第一预设时间段内匹配所述目标业务标识的第一历史出行订单,并获取下达所述第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型;根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果;
62.第二发送模块,用于响应用户的查询操作,向所述服务器发送查询请求,所述查询请求用于查询所述第一用户的留存结果;
63.接收模块,用于接收所述服务器返回的匹配所述查询请求的查询结果;
64.显示模块,用于在所述图形用户界面展示所述查询结果。
65.第五方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面任一项所述的用户留存预测方法的步骤。
66.第六方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第二方面任一项所述
的用户留存预测方法的步骤;
67.第七方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面或者第二方面所述用户留存预测方法的步骤。
68.本申请实施例提供了一种用户留存预测方法,该方法包括:根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征;其中,第一用户特征包括第一用户属性特征和第一用户rfm出行特征;根据第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;目标特征类型是训练留存预测模型时所使用的特征类型;根据第一用户的第二用户特征以及预先训练好的留存预测模型,确定第一用户对应的留存结果。本申请基于预先训练好的留存预测模型且考虑到用户属性特征和用户rfm出行特征,进行用户留存结果的预测,提高了预测效率和预测准确度,满足了实时性的要求。
附图说明
69.为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
70.图1示出了本申请实施例提供的一种用户留存预测方法的流程图;
71.图2示出了本申请实施例提供的另一种用户留存预测方法的流程图;
72.图3示出了本申请实施例提供的另一种用户留存预测方法的流程图;
73.图4示出了本申请实施例提供的另一种用户留存预测方法的流程图;
74.图5示出了本申请实施例提供的另一种用户留存预测方法的流程图;
75.图6示出了本申请实施例提供的另一种用户留存预测方法的流程图;
76.图7示出了本申请实施例提供的一种用户留存预测装置的结构示意图;
77.图8示出了本申请实施例提供的另一种用户留存预测装置的结构示意图;
78.图9示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
79.为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
80.另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的
范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
81.为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“网约车领域”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕网约车领域进行描述,但是应该理解,这仅是一个示例性实施例。
82.需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
83.本申请实施例中的术语“用户”可以指代请求服务、订购服务的个人、提供服务的实体或工具。相应的,上述“用户”、“服务请求方”、“乘客”、“服务请求端”、“服务提供方”、“服务提供端”和“司机”等可以互换。在本申请实施例中,“用户端”可以是智能手机、平板电脑等电子产品。
84.在网约车领域,目前统计用户留存的方式是:通过对网约车用户的出行进行分析,统计简单维度(比如,性别维度、年龄维度)下用户的留存结果。但是,目前的用户留存的统计方式,实时性差,统计效率低,无法满足用户的实时需求。基于此,本申请实施例提供了一种用户留存预测方法、装置、电子设备及存储介质,基于留存预测模型且考虑到用户属性特征和用户rfm出行特征,进行用户留存结果的预测,提高了预测效率和预测准确度,满足了实时性的要求。
85.下面对本申请实施例提供的用户留存预测方法进行详细说明。
86.参照图1所示,为本申请第一实施例提供的一种用户留存预测方法的流程图,应用于服务器,所述方法包括:
87.s101、根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征。
88.s102、根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型。
89.s103、根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果。
90.本申请实施例提供了上述用户留存预测方法,能够基于预先训练好的留存预测模型以及预设时间段内历史出行订单中的用户属性特征和用户rfm出行特征,预测用户的留存结果,通过这种方式,提高了预测效率和预测准确度,满足了实时性的要求。
91.下面对第一实施例中的用户留存预测方法的各步骤作进一步的说明。
92.s101、根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征。
93.本申请实施例中,工作人员对应一用户端,该用户端和服务器通信连接,工作人员对用户端进行触发操作,用户端响应该触发操作,向服务器发送控制指令,该控制指令包括第一预设时间段和目标业务标识;服务器接收用户端发送的控制指令,查找第一预设时间段内匹配该目标业务标识的第一历史出行订单,并获取该第一历史出行订单对应的第一用
户特征。
94.本申请实施例中的留存方法可以是针对特定出行业务进行的,比如,拼车业务、快车业务、专车业务、豪华车业务、出租车业务、顺风车业务等。下面以应用于拼车业务进行说明,相应的,上述目标业务标识为拼车业务标识。
95.服务器在接收到控制指令后,从数据库存储的出行订单日志中获取:下达第一历史出行订单的第一用户对应的第一用户特征;比如,上述第一预设时间段比如为最近7天(也即过去7天),相应的,服务器获取最近7天内的第一用户(也即每一个拼车用户)对应的第一用户特征。
96.这里,上述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;其中,上述用户属性特征包括但不限于:用户年龄、用户性别、用户教育程度等;第一用户rfm出行特征包括:用户近期在出行服务的各个出行业务中的打车行为、用户在出行服务的各个出行业务中的打车频次、用户在出行服务的各个出行业务中的消费金额。这里,近期指的是一预设历史时间段,比如,最近半年、最近三个月等。其中,上述rfm分别为:近期行为(recency,r)、频次(frequency,f)、消费(monetary、m);其中,r表示近期在网约车的各个出行业务的打车行为、f表示用户在网约车各个出行业务的打车频次、m表示用户在网约车各个出行业务的消费金额。
97.可选的,r具体可以为:用户最近一次出行订单的业务类型(比如为快车)、最近两次出行订单距离当前的天数(比如,2天)、最近一次出行订单是否为高峰期等。上述出行订单可以是当前进行中的订单,也可以是历史订单,通常情况下为历史订单。f具体可以为:用户在多个维度在全排列组合下的出行频次;其中,上述多个维度包括时间、地点、业务等维度;每个时间(包括时间点或者时间段)对应有类型标签,该类型标签包括:早高峰、晚高峰、闲时段、周六日、节假日等;上述业务包括拼车业务、快车业务、专车业务、豪华车业务、出租车业务、顺风车业务等。比如,用户在过去一周内的出行频次;用户在过去一个月内使用拼车的出行频次。m具体可以为:用户在多个维度在全排列组合下的消费金额;比如,用户在过去7天使用拼车业务的总消费金额;用户在过去7天内使用拼车业务的每一个出行订单的消费金额等。
98.s102、根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型。
99.本申请实施例中,服务器在对留存预测模型进行训练的过程中,预先存储有该留存预测模型对应的标准训练特征和该标准训练特征的目标特征类型(该目标特征类型通过标准特征字段表示);之后,服务器基于该目标特征类型对上述第一用户特征进行筛选和补全处理,得到多个不同目标特征类型的第二用户特征。
100.其中,上述筛选处理包括:筛选出匹配上述目标特征类型的第二用户特征;上述补全处理包括:对目标特征类型下缺少的第二用户特征进行补全处理。
101.s103、根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果。
102.本申请实施例中,上述留存结果可以是第一用户对应的留存概率,也可以是第一用户对应的留存类别;其中,确定第一用户对应的留存结果的方法包括以下两种:
103.1、将第一用户的第二用户特征输入到预先训练好的留存预测模型中,得到该留存
预测模型输出的第一用户对应的留存概率,将该留存概率确定为第一用户对应的留存结果。
104.这里,在将第二用户特征输入到留存预测模型中之前,先对该第二用户特征进行编码处理,得到编码后的当前用户特征;将编码后的当前用户特征输入到预先训练好的留存预测模型中,得到留存预测模型输出的第一用户对应的留存概率。
105.本申请实施例中,对第二用户特征进行编码处理,得到编码后的当前用户特征的方法包括:首先根据所述第二用户特征所属的目标特征类型,确定针对所述第二用户特征的目标编码方式;之后,按照所述目标编码方式对所述第二用户特征进行编码处理,得到编码后的当前用户特征。
106.这里,目标特征类型可以对应分类变量,也可以对应连续变量;相应的,如果所述第二用户特征对应分类变量(比如,第二用户特征为性别特征),则确定所述目标编码方式包括排序在先的数值编码和排序在后的独热编码;比如,针对分类变量的第二用户特征,首先利用数值编码方式对该第二用户特征进行数值编码((比如,属于一种情况,编码为0;属于另一种情况,编码为1),之后,在对数值编码之后的第二用户特征进行独热编码(即one

hot编码),得到最终可用的当前用户特征。
107.其中,属于分类变量的不同目标特征类型,对应的数值编码方式可以相同,也可以不同;在不同情况时,比如:性别类型:属于男士,编码为0;属于女士,编码为1;判断类型:否定结果,编码为00;肯定结果,编码为11。
108.若所述第二用户特征对应连续变量(比如,第二用户特征为时间特征),则确定所述目标编码方式为独热编码,比如,针对连续变量的第二用户特征,只需要对该第二用户特征进行独热编码(即one

hot编码),即可得到最终可用的当前用户特征。
109.2、将所述第一用户的第二用户特征输入到预先训练好的留存预测模型中,得到所述留存预测模型输出的所述第一用户的留存概;之后,根据所述第一用户的留存概率,对所述第一用户进行分类,得到所述第一用户对应的留存类别,将所述留存类别确定为所述第一用户对应的留存结果。
110.该步骤中得到留存概率的方式与上述1中的相同;另外,服务器中预先设置有多个留存类别,每一个留存类别对应一个预设概率值或者一个预设概率范围;针对每一个第一用户,根据该第一用户对应的留存概率,确定该第一用户对应的留存类别。
111.可选的,在数据库中,每一个留存类别对应一个存储空间(也即一个桶),在确定某一个第一用户属于该留存类别时,将该第一用户的第一用户标识写入该存储空间(也即放入该桶中)。
112.本申请实施例提供的上述用户留存预测方法,应用训练好的留存预测模型对第一用户进行留存预测,其中,在特征方面,创新性地引入了用户出行rfm特征,其中,在做出行留存相关的模型时候,用户在出行上面的消费习惯和用户近期的出行往往和其未来打车行为紧密联系,相应的,上述用户出行相关的rfm特征能够很好地反应这些信息,因此,本申请实施例中,考虑到用户出行rfm特征,能够提高留存预测模型的预测精度。
113.另外,本申请实施例中,是基于先进的大数据分布式编程和计算框架(即pyspark)进行用户留存预测的相关数据处理(包括留存预测模型的训练和应用),建模和预测的一站式技术,高度自动化了对海量用户留存数据的处理和分析,避免了在处理海量数据时内存
不足的问题。也即,通过服务器集群执行上述s101~s103的步骤。
114.在本申请实施例的一种应用场景中,在确定了第一用户的留存结果之后,可以基于第一用户对应的留存结果调整目标业务的运营策略。具体的,如图2所示,本申请实施例提供的用户留存预测方法中,在根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果之后,所述方法还包括:
115.s201、根据所述第一用户对应的留存结果,生成不同的留存结果分别对应的推送方式;其中,所述推送方式包括以下至少之一:推送周期、激励幅度;所述推送周期的长度和留存结果呈正相关性;所述激励幅度的大小和所述留存结果呈负相关性。
116.其中,上述推送信息是在网约车运营方案下的推送信息,比如,向用户发放优惠券。
117.本申请实施例中,推送周期的长度和留存结果呈正相关性即:留存结果越接近留存,相应的,推送周期越长;反过来,留存结果越接近流失,相应的,推送周期越短;所述激励幅度的大小和所述留存结果呈负相关性即:留存结果越接近留存,相应的,激励幅度越小;反过来,留存结果越接近流失,相应的,激励幅度越大。
118.比如,留存结果包括留存结果1和留存结果2,留存结果1的留存概率大于留存结果2的留存概率,因此,上述留存结果1对应的推送周期大于留存结果2对应的推送周期;上述留存结果1对应的激励幅度小于留存结果2对应的激励幅度;
119.s202、根据每个留存结果对应的推送方式,生成用于向对应该留存结果的第一用户发送的目标推送信息。
120.这里,针对每个留存结果,按照该留存结果对应的推送方式,生成用于向具有该留存结果的第一用户发送的目标推送信息。
121.可选的,留存结果包括留存结果1和留存结果2,留存结果1的留存概率大于留存结果2的留存概率;针对留存结果1,生成第一目标推送信息;针对留存结果2生成第二目标推送信息。这里,第一目标推送信息的推送周期大于第二目标推送信息的推送周期,第一目标推送信息的激励幅度小于第二目标推送信息的激励幅度。可选的,目标推送信息可以为优惠券。
122.在本申请实施例中,上述第一预处理包括筛选和补全处理,下面具体说明对第一用户特征进行第一预处理的过程:
123.第一、筛选处理:所述根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征,包括;
124.根据训练留存预测模型时所使用的目标特征类型,从所述第一用户特征中选取匹配所述目标特征类型的第二用户特征。
125.可选的,上述标准训练特征的目标特征类型为多个,通过上述多个目标特征类型从第一用户特征中选取匹配这多个目标特征类型的第二用户特征。可选的,服务器通过sparkdataframe对数据(即第二用户特征,还可以是下述的训练特征)进行预处理。
126.比如,目标特征类型包括a、b、c、d;第一用户特征分别为对应目标特征类型a、b、c、d、e的a、b、c、d和对应其他目标类型的e;基于此,从上述第一用户特征中选取第二用户特征a、b、c、d,也即,删除掉上述第一用户特征e,将剩下的第一用户特征a、b、c、d作为第二用户特征。
127.第二、补全处理:所述方法还包括;针对每一个目标特征类型,若所述第一用户特征中缺少匹配该目标特征类型的第二用户特征,则根据该目标特征类型对应的补充特征,确定该目标特征类型匹配的第二用户特征;其中,所述补充特征是在训练留存预测模型时,根据训练使用的目标特征类型匹配的变量类型确定得到的。
128.其中,服务器在对留存预测模型进行训练的过程中,预先确定了每一个目标特征类型对应的补充特征,并存储每一个目标特征类型对应的补充特征。这里,补充特征是在训练留存预测模型时,根据训练使用的目标特征类型匹配的变量类型确定得到的。相应的,如果第一用户特征中缺少匹配某一个目标特征类型的第二用户特征,那么,查询该目标特征类型对应的补充特征,将该补充特征确定为匹配该目标特征类型的第二用户特征。
129.比如,目标特征类型包括a、b、c、d;第一用户特征分别为对应目标特征类型b、c、d的b、c、d;基于此,从上述第一用户特征中选取第二用户特征b、c、d,并将目标特征类型a对应的补充特征a作为第二用户特征a,相应的,得到第二用户特征a、b、c、d。
130.本申请实施例中,服务器在使用留存预测模型之前,需要训练留存预测模型,下面对留存预测模型的训练方法进行说明:
131.进一步的,如图3所示,本申请实施例提供的用户留存预测方法中,通过如下方法训练所述留存预测模型:
132.s301、根据多个第二用户在第二预设时间段内执行完成的第二历史出行订单,获取所述多个第二用户对应的训练特征;其中,所述训练特征包括第二用户属性特征和第二用户rfm出行特征。
133.该步骤的作用是为了构建样本数据集,目的是根据该样本数据集,训练留存预测模型。基于此,本步骤中需要获取多个第二用户在第二预设时间段内的第二历史出行订单,通常情况下,第二用户可以根据留存预测模型应用阶段的第一用户部分相同,部分不同;这里的,部分不同指的是,模型训练阶段用了某些第二用户,但是,模型应用阶段,没有预测这些第二用户的留存结果;或者,模型应用阶段用了某些第一用户,但是,模型训练阶段,没有这些第一用户的第二历史出行订单。
134.相应的,第二预设时间段为一历史时间段,该第二预设时间段距离当前时间的第一时间长度大于第一预设时间段距离当前时间的第二时间长度,换句话说,训练留存预测模型要用更久之前的出行订单,而预测的时候,要用最近一段时间内的出行订单。
135.这里,第二用户对应的训练特征同样包括第二用户属性特征和第二用户rfm出行特征,这里的用户属性特征、rfm出行特征与模型应用阶段的是一样,这里不再进行详细说明。
136.s302、根据所述多个第二用户对应的训练特征,生成多个不同目标特征类型的标准训练特征;所述目标特征类型是对所述训练特征的特征类型进行处理得到的。
137.本申请实施例中,相当于对多个第二用户对应的训练特征进行预处理,具体预处理过程包括:根据训练特征的特征类型识别异常特征类型,对异常特征类型对应的训练特征(也即异常训练特征)进行清洗和补充,得到目标特征类型的标准训练特征;其中,上述异常特征类型的方法包括:
138.1)根据所述训练特征的特征类型,选取对应的训练特征数量不满足预设阈值的异常特征类型;删除所述异常特征类型下对应的训练特征,得到对应目标特征类型的标准训
练特征。
139.这里,选取包括对应的训练特征数量不满足第一预设阈值的第一异常特征类型,服务器对该第一异常特征类型及该第一异常特征类型下的训练特征(也即第一异常训练特征)进行删除。
140.2)针对每一个目标特征类型,若该目标特征类型下缺少第二用户对应的标准训练特征,则根据该目标特征类型匹配的变量类型,确定该目标特征类型对应的补充特征,并根据所述补充特征,确定该目标特征类型下缺少的第二用户对应的标准训练特征。
141.这里,选取包括对应的训练特征数量满足第一预设阈值但缺失部分数值的第二异常特征类型,服务器对该第二异常特征类型下的训练特征(也即第二异常训练特征)进行补充,得到目标特征类型对应的标准训练特征。在得到对应目标特征类型的标准训练特征后,服务器根据该标准训练特征,构建样本数据集,以便后续基于该样本数据集训练留存预测模型。
142.在具体实施过程中,根据多个第二用户对应的训练特征,生成训练特征矩阵,该训练特征矩阵的行对应用户标识,列对应训练特征,也即,每一行对应一个第二用户,每一列对应第二用户对应的每个训练特征;由于训练过程采用的数据中,第二用户为多个且训练特征对应多个维度,这就得到了多行多列的训练特征矩阵,之后,服务器对该训练特征矩阵进行预处理,即对训练特征矩阵中的异常训练特征进行清洗和补充,得到包括标准训练特征的目标训练特征矩阵,相应的,服务器根据该目标训练特征矩阵,构建样本数据集,以便后续基于该样本数据集训练留存预测模型。
143.s303、根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型。
144.本申请实施例中,样本数据集中包括训练集和测试集;其中,训练集中每一个训练数据包括:第二用户对应的标准训练特征和该标准训练特征对应的标签,该标签即留存结果,包括留存或者流失。服务器中预先有存储有构建好的初始预测模型,将训练集中每一个训练数据的标准训练特征输入到初始预测模型中,根据所述初始预测模型的输出结果和每一个该标准训练特征对应的留存结果标签,训练该初始预测模型,直至该初始预测模型符合预设条件(比如,模型对应的准确率达到第二预设阈值,和/或,模型对应的损失小于第三预设阈值,和/或,迭代次数达到第四预设阈值),得到训练好的留存预测模型。
145.可选的,上述初始预测模型为一种迭代的决策树算法(gradient boosting decision tree,gbdt)分类模型。
146.另外,在上述模型训练的过程中,服务器需要多次迭代训练且经过工作人员调整,得到训练好的留存预测模型,在该过程中,服务器每完成一次训练,都会对训练好的结果进行评估,并发送给用户端进行确认,由工作人员进行调整,相应的,如图4所示,本申请实施例中,所述样本数据集包括训练集和测试集;所述根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型,包括:
147.s401、根据所述训练集对初始预测模型进行训练处理,得到候选预测模型。
148.服务器中预先有存储有构建好的初始预测模型,将训练集中每一个训练数据的标准训练特征输入到初始预测模型中,根据所述初始预测模型的输出结果和每一个该标准训练特征对应的留存结果标签,训练该初始预测模型,直至预设的训练次数达到第五预设阈
值,得到候选预测模型。
149.s402、基于所述训练集和所述测试集分别对所述候选预测模型进行评估,并将得到的评估结果返回给用户端,以使所述用户端基于所述评估结果确定模型训练是否结束。
150.本申请实施例中,基于训练集对候选预测模型进行评估,得到第一评估结果;基于测试集对候选预测模型进行评估,得到第二评估结果;将第一评估结果和第二评估结果返回给用户端;
151.这里,该评估过程包括:基于将训练集中的标准训练特征(这里,使用训练集中至少部分的标准训练特征)输入到模型(即候选预测模型,也即每一次得到的留存预测模型)中,根据模型的输出结果和训练集中相应标准训练特征对应的留存标签,得模型的评估结果。
152.用户端在接收到候选预测模型的评估后,可视化展示上述评估结果,相应的,工作人员基于上述评估结果确定模型训练是否结束。
153.s403、若否,则响应所述用户端基于所述评估结果发送的针对所述候选预测模型的调整指令,调整所述样本数据集,并使用调整后的所述样本数据集重复执行根据所述训练集对初始预测模型进行训练处理,得到候选预测模型的步骤。
154.本申请实施例中,若工作人员确定模型训练未结束,也即候选预测模型对应的评估指标不满足第六预设阈值,工作人员通过对用户端的触发操作,控制用户端向服务器发送针对候选预测模型的调整指令,服务器则根据调整指令调整样本数据集(具体为重新确定标准训练特征,重新构建样本数据集),服务器重新基于新的样本数据集执行s401及后续步骤。
155.s403、若是,得到训练好的留存预测模型。
156.这里,当工作人员确定候选预测模型对应的评估指标满足第六预设阈值,则确定模型训练结束,此时,将当前的候选预测模型确定为留存预测模型。其中,模型对应的评估指标包括准确度、正确度、召回率等。
157.在本申请实施例中,上述预处理包括:识别训练特征中的异常训练特征,对异常训练特征进行清洗和补充;下面具体说明对训练特征进行预处理的过程,如图5所示,所述根据所述多个第二用户对应的训练特征,生成多个不同目标特征类型的标准训练特征,包括:
158.s501、根据所述训练特征的特征类型,选取对应的训练特征数量不满足预设阈值的异常特征类型,并删除所述异常特征类型下对应的训练特征,得到对应目标特征类型的标准训练特征。
159.本申请实施例中,针对根据多个第二用户对应的训练特征生成的训练特征矩阵,该训练特征矩阵的每一列对应一特征标识(该特征标识表征所属的特征类型);判断该训练特征矩阵中每一特征标识下的训练特征是否大于预设阈值(也即第一预设阈值),这里的第一预设阈值可以与后面的第一到第六预设阈值相同,也可以不同,通常情况下,是不同的。针对该训练特征矩阵中每一列对应的特征标识,若该特征标识下的训练特征的数量小于上述第一预设阈值,则确定该特征标识为异常特征标识,相应的,删除该异常特征标识对应的该列训练特征。
160.在对训练特征矩阵的所有列都进行上述处理后,得到目标训练特征矩阵,该目标训练特征矩阵中的特征标识即为目标特征类型,每个目标特征类型对应的相应列的训练特
征为标准训练特征。
161.s502、针对每一个目标特征类型,若该目标特征类型下缺少第二用户对应的标准训练特征,则根据该目标特征类型匹配的变量类型,确定该目标特征类型对应的补充特征,并根据所述补充特征,确定该目标特征类型下缺少的第二用户对应的标准训练特征。
162.这里,在得到目标训练特征矩阵后,判断该目标训练特征矩阵中的目标特征类型下,是否缺少某一个或多个第二用户对应的标准训练特征,若是,则需要补全缺失的上述标准训练特征。这里,标准训练特征的确定方法包括:针对每个目标特征类型,根据该目标特征类型对应的变量类型,确定该目标特征类型对应的补充特征,将补充特征确定为缺失的标准训练特征。
163.其中,不同变量类型下,对应的确定补充特征的方式不同,下面分别对不同变量类型下,确定相应的补充特征的方式进行具体说明:
164.第一、根据该目标特征类型匹配的变量类型以及该目标特征类型对应的各个第二用户的标准训练特征,确定该目标特征类型对应的补充特征。
165.在该种方式下,针对每一个目标特征类型,通过对该目标特征类型对应的各个第二用户的标准训练特征进行计算,或者,通过从各个第二用户的目标训练特征中选取的满足特定条件的标准训练特征,确定该目标特征类型对应的补充特征。
166.在一种实施方式中,若所述目标特征类型对应离散数据,则从该目标特征类型对应的各个第二用户的标准训练特征中选择对应的数量最多的第一标准训练特征,将所述第一标准训练特征作为该目标特征类型对应的补充特征。
167.比如,对于性别特征,如果第二用户40没有对应的性别特征,那么,从其他第二用户1至第二用户50中选取对应的数量最多的性别特征(比如为男),将该性别特征(男)确定为性别特征标识对应的补充特征。
168.在另一种实施方式中,若所述目标特征类型对应连续数据,则对该目标特征类型对应的各个第二用户的标准训练特征进行计算,将得到的第二标准训练特征确定为该目标特征类型对应补充特征。
169.这里,上述计算可以是计算各个第二用户的标准训练特征的平均值、中位数等;这里,对于时间特征,如果第二用户40没有对应的时间特征,那么,通过其他第二用户1至第二用户50分别对应的标准训练特征的平均值,作为该时间特征标识对应的补充特征。
170.可选的,在每一种变量类型下缺少多个标准训练特征时,这多个标准训练特征分别对应的补充特征的确定方式是相同的,比如,都是通过对相应目标特征类型对应的各个第二用户的标准训练特征进行计算,或者,都是通过从各个第二用户的目标训练特征中选取的满足特定条件的标准训练特征。
171.第二、根据该目标特征类型匹配的变量类型以及该变量类型对应的预设特征,确定该目标特征类型对应的补充特征。
172.可选的,每一种变量类型对应有预设特征,相应的,每种变量类型下的目标特征类型也对应相应的预设特征,不同的变量类型对应的预设特征不同;其中,该预设特征可以是文字,也可以是数值;比如,分类变量对应预设特征为男、女,或者0、1;连续变量对应的预设特征可以是0、1等。
173.举例来讲,第二用户20缺少性别特征,那么,确定性别特征标识对应的补充特征为

男”,将“男”确定为该性别特征标识对应的性别特征。
174.可选的,每一种变量类型可以对应有多个预设特征,也即,在同一种变量类型下,不同的目标特征类型分别对应一预设特征,不同的目标特征类型对应的预设特征不同。
175.在本申请实施例提供的用户留存预测方法,在根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型之后,所述方法还包括:
176.存储上述训练好的留存预测模型、上述留存预测模型对应的标准训练特征的目标特征类型,以及上述目标特征类型对应的补充特征。
177.本申请实施例中,服务器在得到上述数据后,将上述数据存储到hive表;其中,存储的上述数据,应用在留存预测模型的应用过程中。
178.本申请实施例提供的用户留存预测方法中,通过以下流程步骤实现对用户留存数据自动化处理,进行建模和预测,这些流程步骤包括:用户特征数据获取、数据类型自动识别、数据自动清洗、自动进行特征工程、自动训练分类模型、自动评估模型训练效果、自动播报模型质量、自动存储模型和特征、自动使用模型预测并分桶、自动存储结果到hive表中;通过pyspark框架实现上述流程步骤,整个过程高度自动化,提高了数据处理效率,并且,避免了在处理海量数据时内存不足的问题。
179.下面结合具体的实施实例,按照参数数据进一步详细地描述实现基于pyspark的用户留存预测方法,其步骤如下:
180.使用sql从hive表中提取用户特征,特征包含:用户固有属性和用户出行相关的rfm特征。出行相关的rfm特征包括:近期在网约车各个业务的打车行为,用户在网约车各个业务的打车频次,用户在网约车各个业务的消费金额。然后将获取用户特征的sql输入到本发明创作的软件包中,并且输入训练的标签列名和特征名,本发明能够自动根据输入的sql识别每列的数据类型,将其转化为数值变量和分类变量。然后根据用户输入的阈值自动舍弃缺损率大于阈值的特征,进一步自动的将数据缺失部分自动地填充为该特征出现最多的值。在数据预处理后,本发明支持特征工程,自动接受分类变量并进行数值化处理和独热编码。而后使用加工好的数据输入到设定好参数的模型,模型参数包括:树的深度,叶子数,迭代次数进行模型训练。训练好的模型能够自动存储在用户输入的hadoop路径上,然后进行模型训练效果评估并且将结果进行可视化发送到邮箱,聊天工具等地方,效果详见图2。本发明的预测模块能够自动调用hadoop路径上的模型进行预测,能够快速的按照预测输出的概率对用户进行分桶操作,最后自动按照设定分区存入到hive表中。
181.并且,在本申请实施例提供的上述用户留存预测方法中,采用根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征,第一用户特征包括第一用户属性特征和第一用户rfm出行特征;根据第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;目标特征类型是训练留存预测模型时所使用的特征类型;根据第一用户的第二用户特征以及预先训练好的留存预测模型,确定第一用户对应的留存结果。通过本申请的方式,基于留存预测模型且考虑到用户属性特征和用户rfm出行特征,进行用户留存结果的预测,提高了预测效率和预测准确度,满足了实时性的要求。
182.参照图6所示,为本申请第二实施例提供的一种用户留存预测方法的流程示意图,该方法可以应用于用户端,通过该用户端提供一图形用户界面,所述方法包括:
183.s601、响应作用于所述图形用户界面的选择操作,向服务器发送携带有第一预设时间段和目标业务标识的控制指令,以使所述服务器基于所述控制指令,查找在第一预设时间段内匹配所述目标业务标识的第一历史出行订单,并获取下达所述第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型;根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果。
184.本申请实施例中,工作人员对应一用户端,该用户端和服务器通信连接,工作人员对用户端进行触发操作,用户端响应该触发操作,向服务器发送控制指令,该控制指令包括最近第一预设时间段和目标业务标识;服务器接收用户端发送的控制指令,查找最近第一预设时间段内匹配该目标业务标识的第一历史出行订单,并获取该第一历史出行订单对应的第一用户特征,进而基于上述第一用户特征执行第一实施例中相关的方法确定第一用户对应的留存结果。
185.可选的,在实现过程中,工作人员通过sql(结构化查询语言)向服务器发送控制指令。
186.s602、响应用户的查询操作,向所述服务器发送查询请求,所述查询请求用于查询所述第一用户的留存结果。
187.本申请实施例中,在服务器得到第一用户对应的留存结果后,工作人员可以通过操作用户端进行这些数据的查询,上述查询请求用于查询所述第一用户的留存结果。具体的,可以通过用户维度进行数据查询,比如,查询某一个或者某多个用户对应的留存结果;也可以通过留存结果维度进行数据查询,比如,查询某一个留存结果下对应的所有第一用户。
188.s603、接收所述服务器返回的匹配所述查询请求的查询结果,在所述图形用户界面展示所述查询结果。
189.本申请实施例中,服务器接收并展示匹配查询数据的查询结果,在图形用户界面上展示该查询结果。
190.本申请实施例提供了上述用户留存预测方法,能够基于预先训练好的留存预测模型以及预设时间段内历史出行订单中的用户属性特征和用户rfm出行特征,预测用户的留存结果,通过这种方式,提高了预测效率和预测准确度,满足了实时性的要求。
191.基于同一发明构思,本申请第三实施例中还提供了与第一实施例中用户留存预测处理方法对应的用户留存预测装置,由于本申请第三实施例中的装置解决问题的原理与本申请第一实施例上述用户留存预测处理。
192.参照图7所示,为本申请第三实施例提供的一种用户留存预测装置,所述装置包括:
193.第一获取模块701,用于根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;
194.第一生成模块702,用于根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型;
195.第一确定模块703,用于根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果。
196.在一种可能的实施方式中,所述装置还包括:
197.第二生成模块,用于在根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果之后,根据所述第一用户对应的留存结果,生成不同的留存结果分别对应的推送方式;其中,所述推送方式包括以下至少之一:推送周期、激励幅度;所述推送周期的长度和留存结果呈正相关性;所述激励幅度的大小和所述留存结果呈负相关性;
198.第三生成模块,用于根据每个留存结果对应的推送方式,生成用于向对应该留存结果的第一用户发送的目标推送信息。
199.在一种可能的实施方式中,所述第一获取模块701根据第一预设时间段内执行完成的第一历史出行订单,获取下达第一历史出行订单的第一用户的第一用户特征,包括:
200.接收用户端发送的控制指令,所述控制指令包括第一预设时间段和目标业务标识;
201.根据所述控制指令,查找所述第一预设时间段内匹配所述目标业务标识的第一历史出行订单,并获取下达所述第一历史出行订单的第一用户的第一用户特征。
202.在一种可能的实施方式中,第一生成模块702根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征,包括;
203.根据训练留存预测模型时所使用的目标特征类型,从所述第一用户特征中选取匹配所述目标特征类型的第二用户特征。
204.在一种可能的实施方式中,所述装置还包括:
205.第二确定模块,用于针对每一个目标特征类型,若所述第一用户特征中缺少匹配该目标特征类型的第二用户特征,则根据该目标特征类型对应的补充特征,确定该目标特征类型匹配的第二用户特征;其中,所述补充特征是在训练留存预测模型时,根据训练使用的目标特征类型匹配的变量类型确定得到的。
206.在一种可能的实施方式中,所述第一确定模块703根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果,包括:
207.将所述第一用户的第二用户特征输入到预先训练好的留存预测模型中,得到所述留存预测模型输出的所述第一用户的留存概率;
208.将所述留存概率确定为所述第一用户对应的留存结果;或者,根据所述第一用户的留存概率,对所述第一用户进行分类,得到所述第一用户对应的留存类别,将所述留存类别确定为所述第一用户对应的留存结果。
209.在一种可能的实施方式中,所述第一确定模块703将所述第一用户的第二用户特征输入到预先训练好的留存预测模型中,得到所述留存预测模型输出的所述第一用户的留存概率,包括:
210.根据所述第二用户特征所属的目标特征类型,确定针对所述第二用户特征的目标编码方式;
211.按照所述目标编码方式对所述第二用户特征进行编码处理,得到编码后的当前用户特征;
212.将所述当前用户特征输入到预先训练好的留存预测模型中,得到所述留存预测模型输出的所述第一用户的留存概率。
213.在一种可能的实施方式中,所述第一确定模块703根据所述第二用户特征所属的目标特征类型,确定针对所述第二用户特征的目标编码方式,包括:
214.若所述第二用户特征对应分类变量,则确定所述目标编码方式包括排序在先的数值编码和排序在后的独热编码;
215.若所述第二用户特征对应连续变量,则确定所述目标编码方式为独热编码。
216.在一种可能的实施方式中,所述装置还包括:
217.第二获取模块,用于根据多个第二用户在第二预设时间段内执行完成的第二历史出行订单,获取所述多个第二用户对应的训练特征;其中,所述训练特征包括第二用户属性特征和第二用户rfm出行特征;
218.第四生成模块,用于根据所述多个第二用户对应的训练特征,生成多个不同目标特征类型的标准训练特征;所述目标特征类型是对所述训练特征的特征类型进行处理得到的;
219.构建模块,用于根据所述标准训练特征,构建样本数据集;
220.训练处理模块,用于根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型。
221.在一种可能的实施方式中,所述第四生成模块根据所述多个第二用户对应的训练特征,生成多个不同目标特征类型的标准训练特征,包括:
222.根据所述训练特征的特征类型,选取对应的训练特征数量不满足预设阈值的异常特征类型;
223.删除所述异常特征类型下对应的训练特征,得到对应目标特征类型的标准训练特征。
224.在一种可能的实施方式中,所述装置还包括:
225.第三确定模块,用于针对每一个目标特征类型,若该目标特征类型下缺少第二用户对应的标准训练特征,则根据该目标特征类型匹配的变量类型,确定该目标特征类型对应的补充特征,并根据所述补充特征,确定该目标特征类型下缺少的第二用户对应的标准训练特征。
226.在一种可能的实施方式中,所述第三确定模块根据该目标特征类型匹配的变量类型,确定该目标特征类型对应的补充特征,包括:
227.根据该目标特征类型匹配的变量类型以及该目标特征类型对应的各个第二用户的标准训练特征,确定该目标特征类型对应的补充特征;
228.或者,
229.根据该目标特征类型匹配的变量类型以及该变量类型对应的预设特征,确定该目标特征类型对应的补充特征。
230.在一种可能的实施方式中,所述第三确定模块根据该目标特征类型匹配的变量类型以及该目标特征类型对应的各个第二用户的标准训练特征,确定该目标特征类型对应的补充特征,包括:
231.若所述目标特征类型对应离散数据,则从该目标特征类型对应的各个第二用户的
标准训练特征中选择对应的数量最多的第一标准训练特征,将所述第一标准训练特征作为该目标特征类型对应的补充特征;
232.若所述目标特征类型对应连续数据,则对该目标特征类型对应的各个第二用户的标准训练特征进行计算,将计算得到的第二标准训练特征确定为该目标特征类型对应补充特征。
233.在一种可能的实施方式中,所述装置还包括:
234.存储模块,用于在根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型之后,存储所述训练好的留存预测模型、训练所述留存预测模型时使用的目标特征类型,以及所述目标特征类型对应的补充特征。
235.在一种可能的实施方式中,所述样本数据集包括训练集和测试集;所述训练处理模块根据所述样本数据集对初始预测模型进行训练处理,得到训练好的留存预测模型,包括:
236.根据所述训练集对初始预测模型进行训练处理,得到候选预测模型;
237.基于所述训练集和所述测试集分别对所述候选预测模型进行评估,并将得到的评估结果返回给用户端,以使所述用户端基于所述评估结果确定模型训练是否结束;
238.若否,则响应所述用户端基于所述评估结果发送的针对所述候选预测模型的调整指令,调整所述样本数据集,并使用调整后的所述样本数据集重复执行根据所述训练集对初始预测模型进行训练处理,得到候选预测模型的步骤;
239.若是,得到训练好的留存预测模型。
240.本申请实施例提供的用户留存预测装置,能够基于预先训练好的留存预测模型以及预设时间段内历史出行订单中的用户属性特征和用户rfm出行特征,预测用户的留存结果,通过这种方式,提高了预测效率和预测准确度,满足了实时性的要求。
241.基于同一发明构思,本申请第四实施例中还提供了与第二实施例中用户留存预测方法对应的用户留存预测装置,由于本申请第四实施例中的装置解决问题的原理与本申请第二实施例上述用户留存预测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
242.参照图8所示,为本申请第四实施例提供的一种用户留存预测装置,通过用户端提供一图形用户界面,所述装置包括:
243.第一发送模块801,用于响应作用于所述图形用户界面的选择操作,向服务器发送携带有第一预设时间段和目标业务标识的控制指令,以使所述服务器基于所述控制指令,查找在第一预设时间段内匹配所述目标业务标识的第一历史出行订单,并获取下达所述第一历史出行订单的第一用户的第一用户特征;其中,所述第一用户特征包括第一用户属性特征和第一用户rfm出行特征;根据所述第一用户的第一用户特征,生成多个不同目标特征类型的第二用户特征;所述目标特征类型是训练留存预测模型时所使用的特征类型;根据所述第一用户的第二用户特征以及预先训练好的留存预测模型,确定所述第一用户对应的留存结果;
244.第二发送模块802,用于响应用户的查询操作,向所述服务器发送查询请求,所述查询请求用于查询所述第一用户的留存结果;
245.接收模块803,用于接收所述服务器返回的匹配所述查询请求的查询结果;
246.显示模块804,用于在所述图形用户界面展示所述查询结果。
247.本申请实施例提供了上述用户留存预测装置,能够基于预先训练好的留存预测模型以及预设时间段内历史出行订单中的用户属性特征和用户rfm出行特征,预测用户的留存结果,通过这种方式,提高了预测效率和预测准确度,满足了实时性的要求。
248.如图9所示,本申请第五实施例还提供了一种电子设备900,所述电子设备900包括:处理器901、存储器902和总线,所述存储器902存储有所述处理器901可执行的机器可读指令,当电子设备运行时,所述处理器901与所述存储器902之间通过总线通信,所述处理器901执行所述机器可读指令,以执行如上述第一实施例或者第二实施例提供的用户留存预测方法的步骤。
249.具体地,上述存储器902和处理器901能够为通用的存储器和处理器,这里不做具体限定,当处理器901运行存储器902存储的计算机程序时,能够执行上述第一实施例或者第二实施例提供的用户留存预测方法。
250.对应于上述第一实施例或者第二实施例提供的用户留存预测方法,本申请第六实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一实施例或者第二实施例提供的用户留存预测方法的步骤。
251.本申请第七实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一实施例或者第二实施例提供的用户留存预测方法的步骤。
252.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
253.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
254.另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
255.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘
等各种可以存储程序代码的介质。
256.以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1