一种信息推荐系统的训练方法及装置与流程

文档序号：18797331发布日期：2019-09-29 19:53阅读：202来源：国知局

本发明涉及计算机领域，尤其涉及一种信息推荐系统的训练方法及装置。

背景技术：

随着科学技术的发展，用户在使用终端时会接收大量的信息资源，并产生大量的数据信息，如，用户在浏览电商网站时，会对网站上的商品执行反馈行为，该反馈行为包括收藏、分享商品等正向行为、删除商品等负向行为和点击商品的点击行为。如何制定一种高效精准的投放策略，将合适的信息资源推荐给相应的用户，使得用户能够在大量的信息资源中寻找到可能感兴趣的内容信息，为了解决这一问题，现有技术中设计了一种中心化推荐系统，该系统的训练过程具体如下：

该系统包括召回模型和排序模型，首先，召回模型基于当前用户在客户端中存储的历史数据，如用户画像、浏览历史等，获得可推荐的推荐数据，并将所述推荐数据发送给排序模型；

其次，排序模型按照当前用户可能的喜好程度，对接收的所述推荐数据进行从高到低的排序，并生成推荐列表；

再次，推荐系统将所述推荐列表推送给当前用户，同时将所述推荐列表发送至服务端的数据库中进行存储；

最后，基于数据库中接收到的所述推荐列表，以及当前用户对所述推荐列表中各个信息资源的反馈行为，对排序模型中的参数进行更新。

由此可知，现有技术中主要基于用户上传到数据库中的反馈数据作为训练数据，对排序模型进行更新，这样，会产生以下问题：

首先，由于用户对数据隐私的要求越来越高，以及数据传输效率等因素的影响，可能导致用户不会将反馈数据上传到数据库中，而是存储在客户端本地上，这样，排序模型就无法更新，进而降低推荐系统的推荐准确度；

其次，数据库通常以天数为周期接收用户的反馈数据，因此，推荐系统也只能以天为周期对排序模型进行更新，导致该系统的实时性较差；

最后，由于新用户或者新信息所具有的反馈数据较少，因此，中心化推荐系统针对冷启动用户或者冷启动信息，一般采用标签加规则的形式进行数据推荐，直到所述新用户或者新信息收集到一定数量的反馈数据，那推荐系统在等待训练数据收集的过程中，就无法对排序模型进行训练，这样，排序模型就无法更新，进而降低推荐系统的推荐准确度。

由此可鉴，需要设计一种新的方法，以克服上述缺陷。

技术实现要素：

本发明提供一种信息推荐系统的训练方法及装置，解决了推荐系统在冷启动场景下无法训练排序模型，生成新的模型参数的问题。

为了解决上述的技术问题，本发明提供了一种信息推荐系统的训练方法，包括：

基于历史网络数据，确定系统向用户呈现的推荐信息集，以及根据用户针对所述推荐信息集中各个推荐信息的反馈行为，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签；

采用循环迭代方式执行以下操作，计算所述推荐信息集的推荐指标参数集，直到迭代结果收敛为止：

从所述推荐信息集中选取一个推荐信息，并确定当前使用的推荐指标参数集，所述推荐指标参数集至少是基于未点击标签的权重、第一点击标签的权重和评估值偏移量生成的；

基于所述推荐指标参数集和服务端发送的其他用户的第二点击标签，结合所述一个推荐信息的功能描述标签，生成所述一个推荐信息的预测评估值，其中，所述第二点击标签表征所述其他用户的所有点击信息；

基于所述预测评估值，对所述推荐指标参数集进行更新，并将更新后的推荐指标参数集发往所述服务端，触发所述服务端对接收到的各个用户的更新后的推荐指标参数集进行聚合处理，生成相应的聚合参数集；

基于所述服务端反馈的所述聚合参数集，对所述更新后的推荐指标参数集进行再次更新，并判断所述再次更新后的推荐指标参数集是否收敛；

将最后一轮迭代过程中获得的推荐指标参数集，作为所述推荐信息集的目标推荐参数集输出。

可选的，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签，包括：

获取各个未点击信息对应的功能描述标签，以及各个点击信息对应的功能描述标签；

将所述各个未点击信息对应的功能描述标签进行平均值处理，生成所述未点击标签；

将所述各个点击信息对应的功能描述标签进行平均值处理，生成所述第一点击标签。

可选的，基于所述预测评估值，对所述推荐指标参数集进行更新，包括：

获取用户对所述一个推荐信息的样本偏爱值，计算所述预测评估值和所述样本偏爱值之间的差值，生成差值结果；

基于所述差值结果，对评估值偏移量进行更新；

基于所述差值结果和所述未点击标签，对未点击标签的权重进行更新；

基于所述差值结果和所述第一点击标签，对第一点击标签的权重进行更新。

可选的，触发所述服务端对接收到的各个用户的更新后的推荐指标参数集进行聚合处理，生成相应的聚合参数集，包括：

触发服务端基于接收到的各个所述更新后的推荐指标参数集，生成表征所有用户的未点击标签的权重的第一权重集，表征所有用户的点击标签的权重的第二权重集和表征所有用户的评估值偏移量的评估值偏移量集；

对所述第一权重集中各个未点击标签的权重进行平均值处理，生成未点击标签的聚合权重；

对所述第二权重集中各个点击标签的权重进行平均值处理，生成点击标签的聚合权重；

对所述评估值偏移量集中各个评估值偏移量进行平均值处理，生成评估值偏移量的聚合权重；

基于所述未点击标签的聚合权重、所述点击标签的聚合权重和所述评估值偏移量的聚合权重，生成所述聚合参数集。

可选的，判断所述再次更新后的推荐指标参数集是否收敛，包括：

将所述再次更新后的推荐指标参数集与上一轮迭代中输出的所述再次更新后的推荐指标参数集进行比较，获得比较结果；

若所述比较结果未超过预设迭代阈值，则确定所述再次更新后的推荐指标参数集收敛；

若所述比较结果高于预设迭代阈值，则确定所述再次更新后的推荐指标参数集不收敛。

一种信息推荐系统的训练装置，包括：

生成模块，用于基于历史网络数据，确定系统向用户呈现的推荐信息集，以及根据用户针对所述推荐信息集中各个推荐信息的反馈行为，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签；

处理模块，用于采用循环迭代方式执行以下操作，计算所述推荐信息集的推荐指标参数集，直到迭代结果收敛为止：

基于所述服务端反馈的所述聚合参数集，对所述更新后的推荐指标参数集进行再次更新，并判断所述再次更新后的推荐指标参数集是否收敛；

确定模块，用于将最后一轮迭代过程中获得的推荐指标参数集，作为所述推荐信息集的目标推荐参数集输出。

可选的，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签，所述生成模块用于：

获取各个未点击信息对应的功能描述标签，以及各个点击信息对应的功能描述标签；

将所述各个未点击信息对应的功能描述标签进行平均值处理，生成所述未点击标签；

将所述各个点击信息对应的功能描述标签进行平均值处理，生成所述第一点击标签。

可选的，基于所述预测评估值，对所述推荐指标参数集进行更新，所述处理模块用于：

获取用户对所述一个推荐信息的样本偏爱值，计算所述预测评估值和所述样本偏爱值之间的差值，生成差值结果；

基于所述差值结果，对评估值偏移量进行更新；

基于所述差值结果和所述未点击标签，对未点击标签的权重进行更新；

基于所述差值结果和所述第一点击标签，对第一点击标签的权重进行更新。

可选的，触发所述服务端对接收到的各个用户的更新后的推荐指标参数集进行聚合处理，生成相应的聚合参数集，所述处理模块用于：

对所述第一权重集中各个未点击标签的权重进行平均值处理，生成未点击标签的聚合权重；

对所述第二权重集中各个点击标签的权重进行平均值处理，生成点击标签的聚合权重；

对所述评估值偏移量集中各个评估值偏移量进行平均值处理，生成评估值偏移量的聚合权重；

基于所述未点击标签的聚合权重、所述点击标签的聚合权重和所述评估值偏移量的聚合权重，生成所述聚合参数集。

可选的，判断所述再次更新后的推荐指标参数集是否收敛，所述处理模块用于：

将所述再次更新后的推荐指标参数集与上一轮迭代中输出的所述再次更新后的推荐指标参数集进行比较，获得比较结果；

若所述比较结果未超过预设迭代阈值，则确定所述再次更新后的推荐指标参数集收敛；

若所述比较结果高于预设迭代阈值，则确定所述再次更新后的推荐指标参数集不收敛。

一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于读取所述存储器中存储的程序指令，按照获得的程序指令执行上述任一项方法的步骤。

一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述任一项方法的步骤。

本发明提供的一种信息推荐系统的训练方法及装置与现有技术相比，具有如下优点和有益效果：

在冷启动场景下，采用其他用户的第二点击标签可以降低因本地反馈数据较少对推荐指标参数集造成的误差影响；通过提取一个个推荐信息，计算各个推荐信息的预测评估值，不断迭代更新推荐指标参数集，总是在上一次输出的局部最优的推荐指标参数集的基础上，确定当前一轮迭代中局部最优的推荐指标参数集，经过多轮迭代训练，最终输出全局最优的推荐指标参数集，进而提高了计算推荐信息的目标推荐值的准确性；以及，在不泄露用户底层数据的前提下，将更新后的推荐指标参数集上传至服务端，并基于服务端反馈的聚合参数集，对更新后的推荐指标参数集进行再次更新，这样，既保护了用户的数据隐私，又综合了多个用户的意见，完成推荐指标参数集的再次调整更新，进一步提高了计算推荐信息的目标推荐值的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种信息推荐系统的训练方法的流程示意图；

图2为本发明实施例提供的一种信息推荐系统的训练装置的结构示意图；

图3为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了解决现有技术中的推荐系统在冷启动场景下无法训练排序模型，生成新的模型参数的问题，本发明实施例中，采用循环迭代方式，基于用户对推荐信息集中各个推荐信息的反馈行为，以及服务端发送的其他用户的第二点击标签，先对排序模型的推荐指标参数集进行第一次更新；然后，基于服务端反馈的表征多个用户更新后的推荐指标参数集的聚合参数集，对更新后的推荐指标参数集进行再次更新，直到再次更新后的推荐指标参数集收敛为止，并将最后一轮迭代中获得的推荐指标参数集，作为推荐信息集的目标推荐参数集输出。

参阅图1所示，本发明实施例中，进行信息推荐系统训练的详细过程如下：

s101，基于历史网络数据，确定系统向用户呈现的推荐信息集。

本发明实施例中，信息推荐系统包括召回模型和排序模型，当系统接收到用户输入的推荐信息关键字，将触发召回模型基于该用户的历史网络数据，如用户的历史浏览记录、用户的历史关注记录、或者预先构建的用户画像等，确定系统向用户呈现的推荐信息集ti，其中，i表征第i位用户。

例如，用户a在应用市场中输入关键字“工作”，由于用户a的历史浏览记录显示其浏览银行应用程序(application，app)和邮箱app较多，召回模型将根据该历史浏览记录，为用户a推荐未浏览过的其它银行app和邮箱app，并将生成的推荐信息集呈现给用户。

s102，根据用户针对推荐信息集中各个推荐信息的反馈行为，生成表征用户的所有未点击信息的未点击标签和表征用户的所有点击信息的第一点击标签。

针对各个推荐信息的描述信息分别执行以下操作：首先，采用预设的分词算法，对一个推荐信息的描述信息进行分词处理，使得所述一个推荐信息的描述信息被划分为多个词语；其次，基于分词算法中存储的词语与词向量的映射表，将被划分的词语转换为对应的词向量，进而确定所述一个推荐信息对应的多个词向量；最后，将多个词向量进行平均值处理，并将生成的平均词向量作为所述一个推荐信息的功能描述标签输出。本发明实施例中，v(tj)表征第j个推荐信息的功能描述标签，其中，tj∈ti。

用户针对推荐信息集中的各个推荐信息可作出以下四类行为中的一种：表征收藏、分享、喜欢信息等正向行为，表征删除、不喜欢信息等负向行为，只点击信息的点击行为和未点击信息的未点击行为。首先，筛选出用户所有的未点击行为与点击行为；其次，确定与所述未点击行为对应的所有未点击信息以及与所述点击行为对应的所有点击信息再次，获取各个未点击信息对应的功能描述标签，以及各个点击对应的功能描述标签；最后，将各个未点击信息对应的功能描述标签进行平均值处理，生成未点击标签以及将各个点击信息对应的功能描述标签进行平均值处理，生成第一点击标签

s103，确定当前使用的推荐指标参数集，其中，推荐指标参数集至少是基于未点击标签的权重、第一点击标签的权重和评估值偏移量生成的。

在第一次迭代时，推荐指标参数集是基于的预设权重的预设权重和评估值偏移量bⁱ生成的；

而在第二次迭代至第n次迭代中，当前使用的推荐指标参数集是基于更新后的权重更新后的权重和更新后的评估值偏移量bⁱ生成的。

s104，从推荐信息集中读取一个推荐信息。

s105，基于推荐指标参数和服务端发送的其他用户的第二点击标签，结合一个推荐信息的功能描述标签，生成一个推荐信息的预测评估值。

可选的，在本发明实施例中，采用公式(1)计算一个推荐信息的预测评估值，其中，eij表征第i个用户对第j个推荐信息的样本偏爱值，规定eij∈{0,1}，当eij＝1时表示第i个用户喜欢第j个推荐信息，eij＝0时表示第i个用户不喜欢第j个推荐信息；ui表征第i个用户；表征第k个用户所有点击信息的第二点击标签；(w′k)ⁱ表征的预设权重。

s106，基于预测评估值，对推荐指标参数集进行更新，并将更新后的推荐指标参数集发往服务端。

可选的，在对推荐指标参数集更新时，首先，获取用户对该推荐信息的样本偏爱值eij，规定点击行为或者正向行为对应的推荐信息的eij为1，未点击行为或者负向行为对应的推荐信息的eij为0；其次，计算预测评估值pr(eij|ui,tj)和eij之间的差值，生成差值结果；最后，按照公式(2)-(5)分别对bⁱ、和(w′k)ⁱ进行更新，并将更新后的推荐指标参数集((bⁱ)′，)，以及该用户的一同发往服务端。

(bⁱ)′＝bⁱ-lr*(pr(eij|ui,tj)-eij)(2)；

s107，基于服务端反馈的聚合参数集，对更新后的推荐指标参数集进行再次更新。

可选的，触发服务端基于接收到的各个更新后的推荐指标参数集，先生成表征所有用户的未点击标签的权重的第一权重集，表征所有用户的点击标签的权重的第二权重集和表征所有用户的评估值偏移量的评估值偏移量集；

然后，对第一权重集中各个未点击标签的权重进行平均值处理，生成未点击标签的聚合权重w0，对第二权重集中各个点击标签的权重进行平均值处理，生成点击标签的聚合权重w1，以及对评估值偏移量集中各个评估值偏移量进行平均值处理，生成评估值偏移量的聚合权重b；

再次，生成聚合参数集(w0，w1，b)；

最后，将推荐指标参数集由((bⁱ)′，)替换为(w0，w1，b)。

s108，判断再次更新后的推荐指标参数集是否收敛，若是，执行步骤109；否则，返回步骤103。

可选的，将再次更新后的推荐指标参数集(w0，w1，b)与上一轮迭代中输出的再次更新后的推荐指标参数集(w′0，w′1，b′)进行比较，获得比较结果；

若比较结果未超过预设迭代阈值，则确定再次更新后的推荐指标参数集(w0，w1，b)收敛；

若比较结果高于预设迭代阈值，则确定再次更新后的推荐指标参数集(w0，w1，b)不收敛。

s109，将最后一轮迭代过程中获得的推荐指标参数集，作为推荐信息集的目标推荐参数集输出。

当信息推荐系统的训练完成后，在用户输入搜索关键词之后，先调用召用模型基于用户的历史网络数据，生成各个推荐信息；再基于目标推荐参数集，计算各个推荐信息的目标推荐值；最后，将各个推荐信息按照目标推荐值从高到低排列，确定系统向用户呈现的推荐信息集。

基于上述实施例，进一步地，假设用户i中历史网络数据更新时，将基于更新后的历史网络数据，生成新的和并将新的发往服务端。如果和更新了，就需要再使用上述流程对推荐指标参数集进行重新计算，并将最后一轮迭代中输出的推荐指标参数集，作为推荐信息集的目标推荐指标参数集输出。

同样地，假设接收到其他用户k新的后，也需要再使用上述流程对推荐指标参数集进行重新计算，并将最后一轮迭代中输出的推荐指标参数集，作为推荐信息集的目标推荐指标参数集输出。

基于同一发明构思，参阅图2所示，本发明实施例中，提供一种信息推荐系统的训练装置，至少包括生成模块201，处理模块202和确定模块203，其中，

生成模块201，用于基于历史网络数据，确定系统向用户呈现的推荐信息集，以及根据用户针对所述推荐信息集中各个推荐信息的反馈行为，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签；

处理模块202，用于采用循环迭代方式执行以下操作，计算所述推荐信息集的推荐指标参数集，直到迭代结果收敛为止：

基于所述服务端反馈的所述聚合参数集，对所述更新后的推荐指标参数集进行再次更新，并判断所述再次更新后的推荐指标参数集是否收敛；

确定模块203，用于将最后一轮迭代过程中获得的推荐指标参数集，作为所述推荐信息集的目标推荐参数集输出。

可选的，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签，所述生成模块201用于：

获取各个未点击信息对应的功能描述标签，以及各个点击信息对应的功能描述标签；

将所述各个未点击信息对应的功能描述标签进行平均值处理，生成所述未点击标签；

将所述各个点击信息对应的功能描述标签进行平均值处理，生成所述第一点击标签。

可选的，基于所述预测评估值，对所述推荐指标参数集进行更新，所述处理模块202用于：

获取用户对所述一个推荐信息的样本偏爱值，计算所述预测评估值和所述样本偏爱值之间的差值，生成差值结果；

基于所述差值结果，对评估值偏移量进行更新；

基于所述差值结果和所述未点击标签，对未点击标签的权重进行更新；

基于所述差值结果和所述第一点击标签，对第一点击标签的权重进行更新。

可选的，触发所述服务端对接收到的各个用户的更新后的推荐指标参数集进行聚合处理，生成相应的聚合参数集，所述处理模块202用于：

对所述第一权重集中各个未点击标签的权重进行平均值处理，生成未点击标签的聚合权重；

对所述第二权重集中各个点击标签的权重进行平均值处理，生成点击标签的聚合权重；

对所述评估值偏移量集中各个评估值偏移量进行平均值处理，生成评估值偏移量的聚合权重；

基于所述未点击标签的聚合权重、所述点击标签的聚合权重和所述评估值偏移量的聚合权重，生成所述聚合参数集。

可选的，判断所述再次更新后的推荐指标参数集是否收敛，所述处理模块202用于：

将所述再次更新后的推荐指标参数集与上一轮迭代中输出的所述再次更新后的推荐指标参数集进行比较，获得比较结果；

若所述比较结果未超过预设迭代阈值，则确定所述再次更新后的推荐指标参数集收敛；

若所述比较结果高于预设迭代阈值，则确定所述再次更新后的推荐指标参数集不收敛。

基于同一发明构思，参阅图3所示，本发明实施例中，提供一种计算设备，至少包括存储器301和处理器302，其中，

存储器301，用于存储程序指令；

处理器302，用于基于历史网络数据，确定系统向用户呈现的推荐信息集，以及根据用户针对所述推荐信息集中各个推荐信息的反馈行为，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签；

采用循环迭代方式执行以下操作，计算所述推荐信息集的推荐指标参数集，直到迭代结果收敛为止：

基于所述服务端反馈的所述聚合参数集，对所述更新后的推荐指标参数集进行再次更新，并判断所述再次更新后的推荐指标参数集是否收敛；

将最后一轮迭代过程中获得的推荐指标参数集，作为所述推荐信息集的目标推荐参数集输出。

可选的，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签，所述处理器302用于：

获取各个未点击信息对应的功能描述标签，以及各个点击信息对应的功能描述标签；

将所述各个未点击信息对应的功能描述标签进行平均值处理，生成所述未点击标签；

将所述各个点击信息对应的功能描述标签进行平均值处理，生成所述第一点击标签。

可选的，基于所述预测评估值，对所述推荐指标参数集进行更新，所述处理器302用于：

获取用户对所述一个推荐信息的样本偏爱值，计算所述预测评估值和所述样本偏爱值之间的差值，生成差值结果；

基于所述差值结果，对评估值偏移量进行更新；

基于所述差值结果和所述未点击标签，对未点击标签的权重进行更新；

基于所述差值结果和所述第一点击标签，对第一点击标签的权重进行更新。

可选的，触发所述服务端对接收到的各个用户的更新后的推荐指标参数集进行聚合处理，生成相应的聚合参数集，所述处理器302用于：

对所述第一权重集中各个未点击标签的权重进行平均值处理，生成未点击标签的聚合权重；

对所述第二权重集中各个点击标签的权重进行平均值处理，生成点击标签的聚合权重；

对所述评估值偏移量集中各个评估值偏移量进行平均值处理，生成评估值偏移量的聚合权重；

基于所述未点击标签的聚合权重、所述点击标签的聚合权重和所述评估值偏移量的聚合权重，生成所述聚合参数集。

可选的，判断所述再次更新后的推荐指标参数集是否收敛，所述处理器302用于：

将所述再次更新后的推荐指标参数集与上一轮迭代中输出的所述再次更新后的推荐指标参数集进行比较，获得比较结果；

若所述比较结果未超过预设迭代阈值，则确定所述再次更新后的推荐指标参数集收敛；

若所述比较结果高于预设迭代阈值，则确定所述再次更新后的推荐指标参数集不收敛。

基于同一发明构思，本发明实施例中，提供一种计算机可读非易失性存储介质，至少包括：计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行基于历史网络数据，确定系统向用户呈现的推荐信息集，以及根据用户针对所述推荐信息集中各个推荐信息的反馈行为，生成表征所述用户的所有未点击信息的未点击标签和表征所述用户的所有点击信息的第一点击标签；

采用循环迭代方式执行以下操作，计算所述推荐信息集的推荐指标参数集，直到迭代结果收敛为止：

基于所述服务端反馈的所述聚合参数集，对所述更新后的推荐指标参数集进行再次更新，并判断所述再次更新后的推荐指标参数集是否收敛；

将最后一轮迭代过程中获得的推荐指标参数集，作为所述推荐信息集的目标推荐参数集输出。

基于上述实施例，本发明实施例中，基于用户对推荐信息集中各个推荐信息的反馈行为，确定用户的未点击标签和第一点击标签；采用循环迭代方式提取一个个推荐信息，至少基于未点击标签的权重、第一点击标签的权重和评估值偏移量，确定当前使用的推荐指标参数集，基于当前使用的推荐指标参数集以及服务端发送的其他用户的第二点击标签，计算各个推荐信息的预测评估值，并基于各个预测评估值不断迭代更新推荐指标参数集；然后，基于服务端反馈的表征多个用户更新后的推荐指标参数集的聚合参数集，对更新后的推荐指标参数集进行再次更新，直到再次更新后的推荐指标参数集收敛为止，并将最后一轮迭代中获得的推荐指标参数集，作为推荐信息集的目标推荐参数集输出。

这样，在冷启动场景下，排序模型将本地的反馈数据，与反馈数据对应的推荐信息集和服务端发送的其他用户的第二点击标签作为训练数据，采用其他用户的第二点击标签可以降低因本地反馈数据较少对推荐指标参数集造成的误差影响；通过提取一个个推荐信息，计算各个推荐信息的预测评估值，不断迭代更新推荐指标参数集，总是在上一次输出的局部最优的推荐指标参数集的基础上，确定当前一轮迭代中局部最优的推荐指标参数集，经过多轮迭代训练，最终输出全局最优的推荐指标参数集，进而提高了计算推荐信息的目标推荐值的准确性；然后，在不泄露用户底层数据的前提下，将更新后的推荐指标参数集上传至服务端，并基于服务端反馈的聚合参数集，对更新后的推荐指标参数集进行再次更新，这样，既保护了用户的数据隐私，又综合了多个用户的意见，完成推荐指标参数集的再次调整更新，进一步提高了计算推荐信息的目标推荐值的准确性；最后，该系统基于获取用户新的未点击标签和第一点击标签，以及服务端发送的其他用户的新的第二点击标签，实时训练推荐指标参数集，提高了计算推荐信息的目标推荐值的准确性和系统的实时性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄安埠;刘洋;陈天健;杨强
技术所有人：深圳前海微众银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。