策略模型的处理方法、装置及计算机可读存储介质与流程

文档序号：31999862发布日期：2022-11-02 10:41阅读：37来源：国知局

1.本技术涉及金融科技领域及其他相关技术领域，具体而言，涉及一种策略模型的处理方法、装置及计算机可读存储介质。

背景技术：

2.随着金融服务中资产管理类产品的不断发展，为用户推荐基金、保险等理财产品也成为热门。其中，现有技术中通常是使用具有推荐功能的策略模型为用户推荐相关理财产品，在此基础上，从现有的多个策略模型中确定推荐效果最好的策略模型作为目标策略模型，并使用目标策略模型在实际应用中为用户推荐相关理财产品，成为了确保为用户推荐最符合用户需求的理财产品的关键。
3.但是，现有技术在从多个策略模型中确定哪一个策略模型的推荐效果最好时，通常是采用单一评价指标对每个策略模型的推荐效果进行评价，由于这种评价方式是从单一维度出发来度量一个策略模型的推荐效果，因此会导致对策略模型的推荐效果评估不全面的问题，从而使得最终确定的目标策略模型可能只是在某一项评价指标下推荐效果较好，而在其他评价指标下的推荐效果很差，进而导致在使用该目标策略模型为用户推荐理财产品等商品信息时存在推荐准确率较差的问题。

技术实现要素：

4.本技术实施例提供了一种策略模型的处理方法、装置及计算机可读存储介质，以至少解决现有技术中在通过策略模型为用户推荐商品信息时存在的推荐准确性差的技术问题。
5.根据本技术实施例的一个方面，提供了一种策略模型的处理方法，包括：获取多个策略模型以及每个策略模型对应的多个评估值，其中，每个评估值对应一项评价指标；根据评估值构建目标矩阵，其中，在目标矩阵中，每一行中的值为一个策略模型分别在不同评价指标下的评估值，每一列中的值为多个策略模型在同一评价指标下的评估值；通过目标矩阵确定每个策略模型对应的目标评估值，其中，目标评估值用于表征每个策略模型在多个评价指标下的综合评分；根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，并通过目标策略模型为用户推荐商品信息。
6.进一步地，策略模型的处理方法还包括：在每个策略模型的训练过程中，获取每个策略模型对应的多个第一评估值，其中，每个第一评估值与一项第一类评价指标相对应，第一类评价指标为每个策略模型在训练阶段的评价指标；在每个策略模型上线部署后，获取每个策略模型对应的多个第二评估值，其中，每个第二评估值与一项第二类评价指标相对应，第二类评价指标为每个策略模型在应用阶段的评价指标。
7.进一步地，策略模型的处理方法还包括：从多个用户中随机确定预设数量的目标用户；通过每个策略模型为目标用户推荐目标商品信息；根据目标商品信息确定每个策略模型对应的多个第二评估值。
8.进一步地，策略模型的处理方法还包括：获取多个用户中的每个用户的用户特征；根据用户特征将多个用户划分为至少一个用户集合，其中，每个用户集合中的用户具有相同的用户特征；从每个用户集合中确定预设数量的目标用户；通过每个策略模型为目标用户推荐目标商品信息；根据目标商品信息确定每个策略模型对应的多个第二评估值。
9.进一步地，策略模型的处理方法还包括：对目标矩阵进行奇异值分解，得到目标矩阵对应的左奇异矩阵、右奇异矩阵以及对角矩阵；根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值。
10.进一步地，策略模型的处理方法还包括：根据右奇异矩阵以及对角矩阵确定目标左奇异向量；根据左奇异矩阵以及对角矩阵确定目标右奇异向量；根据对角矩阵确定目标奇异值；根据目标左奇异向量、目标右奇异向量以及目标奇异值确定每个策略模型对应的目标评估值。
11.进一步地，策略模型的处理方法还包括：获取目标左奇异向量中的多个分量；计算目标右奇异向量与目标奇异值的乘积，得到第一数值；将目标左奇异向量中的每个分量分别与第一数值进行乘积，得到每个策略模型对应的目标评估值，其中，一个目标评估值对应一个分量。
12.进一步地，策略模型的处理方法还包括：在根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值之后，对目标右奇异向量中的至少一个分量进行调整，得到第一右奇异向量，其中，目标右奇异向量中的每个分量与一个评价指标相对应；计算第一右奇异向量与目标奇异值的乘积，得到第二数值；将目标左奇异向量中的每个分量分别与第二数值进行乘积，得到每个策略模型对应的最新评估值，其中，最新评估值为更新后的目标评估值。
13.根据本技术实施例的另一方面，还提供了一种策略模型的处理装置，包括：获取模块，用于获取多个策略模型以及每个策略模型对应的多个评估值，其中，每个评估值对应一项评价指标；构建模块，用于根据评估值构建目标矩阵，其中，在目标矩阵中，每一行中的值为一个策略模型分别在不同评价指标下的评估值，每一列中的值为多个策略模型在同一评价指标下的评估值；第一确定模块，用于通过目标矩阵确定每个策略模型对应的目标评估值，其中，目标评估值用于表征每个策略模型在多个评价指标下的综合评分；第二确定模块，用于根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，并通过目标策略模型为用户推荐商品信息。
14.根据本技术实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的策略模型的处理方法。
15.根据本技术实施例的另一方面，还提供了一种电子设备，该电子设备包括一个或多个处理器和存储器，存储器用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的策略模型的处理方法。
16.在本技术的技术方案，采用确定每个策略模型在多个评价指标下的目标评估值，并根据目标评估值从多个策略模型中确定目标策略模型的方式，首先获取多个策略模型以及每个策略模型对应的多个评估值，然后根据评估值构建目标矩阵，并通过目标矩阵确定每个策略模型对应的目标评估值，最后根据每个策略模型对应的目标评估值从多个策略模
型中确定目标策略模型，并通过目标策略模型为用户推荐商品信息。其中，每个评估值对应一项评价指标；在目标矩阵中，每一行中的值为一个策略模型分别在不同评价指标下的评估值，每一列中的值为多个策略模型在同一评价指标下的评估值；目标评估值用于表征每个策略模型在多个评价指标下的综合评分。
17.由上述内容可知，本技术通过构建目标矩阵，并通过目标矩阵确定每个策略模型对应的目标评估值，由于目标评估值表征了每个策略模型在多个评价指标下的综合评分，因此目标评估值实际上是从多维度对每个策略模型进行综合评估后得到的评估结果，从而避免了现有技术中使用单一评价指标对策略模型进行评估时所存在的评估不全面的问题。在此基础上，本技术还会根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，由于目标评估值是多个评价指标下的综合评分，因此，目标策略模型在多个策略模型中是综合表现最好的策略模型，换言之，目标策略模型是多个策略模型中综合推荐效果最好的策略模型，通过目标策略模型为用户推荐商品信息，可以提高商品信息的推荐准确率，进而提高用户的使用体验。
18.由此可见，通过本技术的技术方案，达到了基于多个评价指标同时对策略模型进行综合评价的目的，从而实现了提高策略模型的评估准确性的技术效果，进而解决了现有技术中在通过策略模型为用户推荐商品信息时存在的推荐准确性差的技术问题。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
20.图1是根据本技术实施例的一种可选的策略模型的处理方法的流程图；
21.图2是根据本技术实施例的一种可选的策略模型的处理装置的示意图；
22.图3是根据本技术实施例的一种可选的电子设备的示意图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
24.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.另外，还需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权
或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。
26.实施例1
27.根据本技术实施例，提供了一种策略模型的处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
28.另外，还需要说明的是，一种策略模型的处理系统可以作为本技术实施例中的策略模型的处理方法的执行主体。
29.图1是根据本技术实施例的一种可选的策略模型的处理方法的流程图，如图1所示，该方法包括如下步骤：
30.步骤s101，获取多个策略模型以及每个策略模型对应的多个评估值。
31.在步骤s101中，每个评估值对应一项评价指标。其中，上述的策略模型可以是推荐策略模型，策略模型具有为用户推荐商品信息的功能，策略模型包括但不限于数学模型以及神经网络模型。上述的评价指标为用于评价策略模型的优劣所定义的指标，其中，多个评价指标至少包括：准确率accuracy、精准率precision、召回率recall、平衡f分数f1-score、均方根误差rmse、平均绝对百分比误差mape、点击率ctr、购买率cvr、新颖性、多样性。
32.具体的，上述的精确率precision是在策略模型的训练过程中，策略模型分类正确的正样本个数占策略模型判定为正样本的样本个数的比例；上述的召回率recall是在策略模型的训练过程中，策略模型分类正确的正样本个数占真正的正样本个数的比例；上述的准确率accuracy用于表征在策略模型的训练过程中，策略模型分类正确的样本占总样本个数的比例，准确率accuracy的计算公式为：
[0033][0034]
其中，公式中的n
correct
为被正确分类的样本个数，n
total
为总样本个数。
[0035]
其次，上述的平衡f分数f1-score可以理解为是精准率和召回率的调和平均数。通常，精确率precision和召回率recall是一对相互矛盾的概念，一个高会导致另一个相对低，为了对二者进行平衡，定义平衡f分数f1-score如下，
[0036][0037]
此外，均方根误差(root mean square error，rmse)的定义如下：
[0038][0039]
其中，yi是第i个样本的真实值，是第i个样本的预测值，n是样本点的个数。
[0040]
最后，上述的点击率ctr是指在策略模型推荐给用户的商品列表中，用户真正点击浏览的商品在列表的全部商品中的数量占比；上述的购买率cvr是指在策略模型推荐给用户的商品列表中，用户真正购买的商品在列表的全部商品中的数量占比；新颖性用于衡量
策略模型给用户推荐的商品列表对于用户的新颖程度，定义为在推荐给用户的商品列表中，用户从未见过的商品在列表的全部商品中的数量占比；多样性用于衡量策略模型给用户推荐的商品列表对于用户的多样程度，定义为策略模型推荐给用户的商品种类数量与现有的所有商品种类数量之间的占比。
[0041]
需要注意到的是，本技术针对每个策略模型，分别在每一项评价指标下获取一个评估值，从而获取得到多个评估值，进而在后续的策略模型评估过程中，可以对策略模型从多个维度进行综合评价，提高对策略模型的评估全面性。
[0042]
步骤s102，根据评估值构建目标矩阵。
[0043]
在步骤s102中，在目标矩阵中，每一行中的值为一个策略模型分别在不同评价指标下的评估值，每一列中的值为多个策略模型在同一评价指标下的评估值。
[0044]
具体的，假设有n个策略模型，多个评价指标为上述的准确率accuracy、精准率precision、召回率recall、平衡f分数f1-score、均方根误差rmse、平均绝对百分比误差mape、点击率ctr、购买率cvr、新颖性、多样性一共10个评价指标，每个策略模型基于10个评价指标会有对应的10个评估值，即在每个评价指标下得到一个评估值。根据每个策略模型对应的10个评估值，策略模型处理系统可以构建得到以下的目标矩阵r：
[0045][0046]
其中，n为总的策略模型的个数，目标矩阵中的模型1、模型2以及模型3均为策略模型，指标1、指标2以及指标10为上述的10个评价指标中的指标。
[0047]
步骤s103，通过目标矩阵确定每个策略模型对应的目标评估值。
[0048]
在步骤s103中，目标评估值用于表征每个策略模型在多个评价指标下的综合评分。
[0049]
可选的，在得到目标矩阵之后，策略模型处理系统可以对目标矩阵进行奇异值分解，得到目标矩阵对应的左奇异矩阵、右奇异矩阵以及对角矩阵，然后根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值。
[0050]
具体的，在得到目标矩阵之后，策略模型处理系统可以通过对该目标矩阵进行svd分解(奇异值分解)，得到该目标矩阵的左、右奇异向量和对角矩阵，并根据对角矩阵得到奇异值。策略模型处理系统结合奇异值和左、右奇异向量，能够实现对多个评价指标的融合，形成最终的一个综合指标，用于评估一个推荐策略的优劣，换言之，策略模型处理系统结合奇异值和左、右奇异向量可以得到每个策略模型在多个评价指标下的综合评分。
[0051]
步骤s104，根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，并通过目标策略模型为用户推荐商品信息。
[0052]
在步骤s104中，由于策略模型的应用场景不同，上述的商品信息也可以是各种类型的商品信息，例如，在金融场景下，上述的商品信息可以是基金、保险、股票等理财商品的信息，在日常消费场景下，上述的商品信息可以是家用百货、服装、食品等消费类商品的信息。
[0053]
另外，在根据目标评估值从多个策略模型中确定目标策略模型时，策略模型处理
系统可以将多个目标评估值进行排序，得到排序结果，然后根据排序结果，从多个策略模型中确定目标评估值最高的策略模型为目标策略模型。
[0054]
需要注意到的，由于目标评估值为每个策略模型在多个评价指标下的综合评分，因此，目标评估值实际上是从多个维度对策略模型进行评估后的评估结果，与现有技术中仅用单一评价指标对策略模型进行评估相比，目标评估值是对策略模型更加全面的评估结果，从而策略模型处理系统根据目标评估值确定的目标策略模型是在多个策略模型中推荐效果最好的模型，因此，使用目标策略模型为用户推荐商品信息，可以提高商品信息的推荐准确度，进而能够提高用户的使用体验，提升相关商品的销售增长量。
[0055]
基于步骤s101至步骤s104的内容可知，在本技术的技术方案，采用确定每个策略模型在多个评价指标下的目标评估值，并根据目标评估值从多个策略模型中确定目标策略模型的方式，首先获取多个策略模型以及每个策略模型对应的多个评估值，然后根据评估值构建目标矩阵，并通过目标矩阵确定每个策略模型对应的目标评估值，最后根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，并通过目标策略模型为用户推荐商品信息。其中，每个评估值对应一项评价指标；在目标矩阵中，每一行中的值为一个策略模型分别在不同评价指标下的评估值，每一列中的值为多个策略模型在同一评价指标下的评估值；目标评估值用于表征每个策略模型在多个评价指标下的综合评分。
[0056]
由上述内容可知，本技术通过构建目标矩阵，并通过目标矩阵确定每个策略模型对应的目标评估值，由于目标评估值表征了每个策略模型在多个评价指标下的综合评分，因此目标评估值实际上是从多维度对每个策略模型进行综合评估后得到的评估结果，从而避免了现有技术中使用单一评价指标对策略模型进行评估时所存在的评估不全面的问题。在此基础上，本技术还会根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，由于目标评估值是多个评价指标下的综合评分，因此，目标策略模型在多个策略模型中是综合表现最好的策略模型，换言之，目标策略模型是多个策略模型中综合推荐效果最好的策略模型，通过目标策略模型为用户推荐商品信息，可以提高商品信息的推荐准确率，进而提高用户的使用体验。
[0057]
由此可见，通过本技术的技术方案，达到了基于多个评价指标同时对策略模型进行综合评价的目的，从而实现了提高策略模型的评估准确性的技术效果，进而解决了现有技术中在通过策略模型为用户推荐商品信息时存在的推荐准确性差的技术问题。
[0058]
在一种可选的实施例中，策略模型处理系统会在每个策略模型的训练过程中，获取每个策略模型对应的多个第一评估值，其中，每个第一评估值与一项第一类评价指标相对应，第一类评价指标为每个策略模型在训练阶段的评价指标。同时，策略模型处理系统还会在每个策略模型上线部署后，获取每个策略模型对应的多个第二评估值，其中，每个第二评估值与一项第二类评价指标相对应，第二类评价指标为每个策略模型在应用阶段的评价指标。
[0059]
具体的，上述的第一类评价指标至少包括上述的准确率accuracy、精准率precision、召回率recall、平衡f分数f1-score、均方根误差rmse、平均绝对百分比误差mape。其中，对于这6个评价指标而言，计算评估值时的相关数据在策略模型的训练阶段就会生成，策略模型处理系统根据每个第一类评价指标对应的计算公式以及相关数据，即可以计算得到第一评估值。
[0060]
另外，上述的第二类评价指标至少包括上述的点击率ctr、购买率cvr、新颖性、多样性。
[0061]
在一种可选的实施例中，针对上述的第二类评价指标，策略模型处理系统可以采用随机采样的方式或者分层采样的方式对策略模型的推荐结果进行采样，并根据采样结果计算得到第二评估值。
[0062]
具体的，在使用随机采样的方式对策略模型的推荐结果进行采样时，策略模型处理系统首先从多个用户中随机确定预设数量的目标用户，然后通过每个策略模型为目标用户推荐目标商品信息，最后根据目标商品信息确定每个策略模型对应的多个第二评估值。
[0063]
举例而言，针对每个策略模型，可以从多个现有的固定用户中随机抽取20％的用户作为目标用户，然后通过策略模型为这些目标用户推荐目标商品信息，换言之，每个策略模型都会向目标用户推荐一个商品列表，基于商品列表以及上述每个第二类评价指标的计算方法，策略模型可以计算得到与每个目标用户相对应的第二评估值。例如，如果策略模型a为10个目标用户推荐了商品列表，则在新颖性这一第二类评价指标下，策略模型a可以对应得到10个新颖性评估值，即每个新颖性评估值对应一个目标用户，最后，策略模型处理系统计算10个新颖性评估值的平均值，并将平均值作为策略模型a在新颖性这一第二类评价指标下的第二评估值。
[0064]
另外，在使用分层采样的方式对策略模型的推荐结果进行采样时，策略模型处理系统首先获取多个用户中的每个用户的用户特征，然后根据用户特征将多个用户划分为至少一个用户集合，并从每个用户集合中确定预设数量的目标用户，最后，策略模型处理系统通过每个策略模型为目标用户推荐目标商品信息，并根据目标商品信息确定每个策略模型对应的多个第二评估值。其中，每个用户集合中的用户具有相同的用户特征。
[0065]
由于每个用户群体对于同一个策略模型的接受程度可能存在偏差，因此，为了消除这些偏差，策略模型处理系统提前获取多个用户中的每个用户的用户特征，然后根据这些用户特征将多个用户划分为至少一个用户集合，也就是根据用户特征对多个用户进行圈选。例如，用户特征可以是年龄、性别、资产总额以及资金流动情况等特征，策略模型处理系统可以将用户特征相同的用户划分至同一个用户集合中。在得到至少一个用户集合之后，策略模型处理系统可以从每个用户集合中确定预设数量的目标用户，例如，在每个用户集合中，还是随机抽取20％的用户作为目标用户，在得到目标用户之后，通过策略模型为目标用户推荐目标商品信息，之后根据目标商品信息确定每个策略模型对应的多个第二评估值的过程与上述根据随机采样的采样结果计算第二评估值的过程相同，在此不作多余赘述。
[0066]
在一种可选的实施例中，策略模型处理系统通过目标矩阵确定每个策略模型对应的目标评估值。具体的，策略模型处理系统首先对目标矩阵进行奇异值分解，得到目标矩阵对应的左奇异矩阵、右奇异矩阵以及对角矩阵，然后根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值。
[0067]
可选的，策略模型处理系统在根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值时，首先会根据右奇异矩阵以及对角矩阵确定目标左奇异向量，并根据左奇异矩阵以及对角矩阵确定目标右奇异向量，根据对角矩阵确定目标奇异值，然后策略模型处理系统根据目标左奇异向量、目标右奇异向量以及目标奇异值确定每个策略模型对应的目标评估值。
[0068]
具体的，以上述的目标矩阵r为例，策略模型处理系统首先对目标矩阵进行奇异值分解，分解过程参见如下公式：
[0069]
r＝u∑v
t
[0070]
其中，u称为n*10的左奇异矩阵，v称为10*10的右奇异矩阵，∑为由奇异值由大到小排列构成的对角矩阵，奇异值为基于矩阵r
t
r的特征值开根号的结果，上角标t表示对目标矩阵r取转置。左奇异矩阵u中的每一列称为一个左奇异向量，右奇异矩阵v中的每一列称为一个右奇异向量。
[0071]
在得到左奇异矩阵u、右奇异矩阵v以及对角矩阵∑之后，策略模型处理系统可以将对角矩阵∑中的第一个奇异值σ1确定为目标奇异值，并且根据右奇异矩阵v以及对角矩阵∑确定目标左奇异向量u1，根据左奇异矩阵u以及对角矩阵∑确定目标右奇异向量v1。需要注意到的是，通过右奇异矩阵v以及对角矩阵∑可以计算得到多个左奇异向量，通常而言，策略模型处理系统会选择第一个左奇异向量为目标左奇异向量u1，同理，通过左奇异矩阵u以及对角矩阵∑可以计算得到多个右奇异向量，通常而言，策略模型处理系统会选择第一个右奇异向量为目标右奇异向量v1。
[0072]
另外，根据矩阵计算理论，策略模型处理系统通过计算σ1u1v1的乘积可以得到恢复矩阵e，误差为||r-σ1u1v1||f＝σ2。
[0073]
在一种可选的实施例中，在得到目标右奇异向量、目标左奇异向量以及目标奇异值之后，策略模型处理系统还获取目标左奇异向量中的多个分量，并计算目标右奇异向量与目标奇异值的乘积，得到第一数值，最后，策略模型处理系统将目标左奇异向量中的每个分量分别与第一数值进行乘积，得到每个策略模型对应的目标评估值，其中，一个目标评估值对应一个分量。
[0074]
可选的，仍以目标矩阵r为例，在得到目标右奇异向量v1、目标左奇异向量u1以及目标奇异值σ1之后，策略模型处理系统计算σ1v1的乘积为加权的权重向量，并且会获取目标左奇异向量u1中的多个分量。
[0075]
对于目标矩阵r所对应的策略模型1，策略模型处理系统确定策略模型1对应的目标评估值为目标左奇异向量u1的第一个分量与σ1v1的乘积，即u
11
·
σ1v1；
[0076]
对于目标矩阵r所对应的策略模型2，策略模型处理系统确定策略模型2对应的目标评估值为目标左奇异向量u1的第二个分量与σ1v1的乘积，即u
12
·
σ1v1；
[0077]
以此类推，对于目标矩阵r所对应的策略模型n，策略模型处理系统确定策略模型n对应的目标评估值为目标左奇异向量u1的第n个分量与σ1v1的乘积，即u
1n
·
σ1v1。
[0078]
通过上述过程，策略模型处理系统可以得到每个策略模型对应的目标评估值，并且，由于目标评估值为每个策略模型在多个评价指标下的综合评分，因此，策略模型处理系统实际上是将原来的多个评价指标融合成一个综合指标，并基于该综合指标对每个策略模型进行评价，采用本技术的策略模型评估方式，可以对每个策略模型进行更加全面的评估，从而从多个策略模型中确定推荐效果最好的策略模型。
[0079]
在一种可选的实施例中，在根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值之后，策略模型处理系统可以对目标右奇异向量中的至少一个分量进行调整，得到第一右奇异向量，然后计算第一右奇异向量与目标奇异值的乘积，得到第二数值，最后，策略模型处理系统将目标左奇异向量中的每个分量分别与第二数值进行
乘积，得到每个策略模型对应的最新评估值，其中，目标右奇异向量中的每个分量与一个评价指标相对应，最新评估值为更新后的目标评估值。
[0080]
可选的，在实际应用中，如果业务人员觉得多个度量指标中的某一个或某几个特别重要，可以在得到目标评估值时灵活调整某个或者某几个评价指标的权重。举例而言，对于上述得到的多个目标评估值u
11
·
σ1v1，u
12
·
σ1v1，...，u
1n
·
σ1v1，如果业务人员需要调高某一个或几个评价指标的权重以强调该评价指标的重要性，则业务人员可以通过策略模型处理系统对该评价指标在目标右奇异向量v1中所对应的分量进行调整，由于目标右奇异向量v1中的分量与评价指标之间是一一对应的，因此，目标右奇异向量v1的分量的值与该分量对应的评价指标的权重成正相关的关系。需要注意到的是，在对目标右奇异向量v1中的分量进行调整之后，策略模型处理系统还会将调整后的分量值除以v1各个分量总和的平方根，以此实现对目标右奇异向量v1的归一化处理，最后经过归一化处理后的目标右奇异向量v1可以视为第一右奇异向量，策略模型处理系统将会计算第一右奇异向量与目标奇异值的乘积，得到第二数值，并且将目标左奇异向量中的每个分量分别与第二数值进行乘积，得到每个策略模型对应的最新评估值，其中，最新评估值为更新后的目标评估值。
[0081]
由此可见，通过本技术的技术方案，还可以灵活调整每个评价指标在多个评价指标中的权重，从而达到了在不同的应用场景下灵活地通过多个评价指标评估策略模型的目的，进而实现了从多个策略模型中选择推荐效果最好的目标策略模型的效果，不仅可以提高用户的使用体验，还可以提升相关商品的业务销售量。
[0082]
实施例2
[0083]
根据本技术实施例，还提供了一种策略模型的处理装置，其中，图2是根据本技术实施例的一种可选的策略模型的处理装置的示意图，如图2所示，该装置包括：获取模块201，用于获取多个策略模型以及每个策略模型对应的多个评估值，其中，每个评估值对应一项评价指标；构建模块202，用于根据评估值构建目标矩阵，其中，在目标矩阵中，每一行中的值为一个策略模型分别在不同评价指标下的评估值，每一列中的值为多个策略模型在同一评价指标下的评估值；第一确定模块203，用于通过目标矩阵确定每个策略模型对应的目标评估值，其中，目标评估值用于表征每个策略模型在多个评价指标下的综合评分；第二确定模块204，用于根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，并通过目标策略模型为用户推荐商品信息。
[0084]
需要说明的是，上述获取模块201、构建模块202、第一确定模块203、第二确定模块204分别对应于上述实施例1中的步骤s101至步骤s104，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。
[0085]
可选的，上述的获取模块还包括：第一获取单元以及第二获取单元。其中，第一获取单元，用于在每个策略模型的训练过程中，获取每个策略模型对应的多个第一评估值，其中，每个第一评估值与一项第一类评价指标相对应，第一类评价指标为每个策略模型在训练阶段的评价指标；第二获取单元，用于在每个策略模型上线部署后，获取每个策略模型对应的多个第二评估值，其中，每个第二评估值与一项第二类评价指标相对应，第二类评价指标为每个策略模型在应用阶段的评价指标。
[0086]
可选的，上述第二获取单元还包括：第一确定子单元、第一推荐子单元以及第二确定子单元。其中，第一确定子单元，用于从多个用户中随机确定预设数量的目标用户；第一
推荐子单元，用于通过每个策略模型为目标用户推荐目标商品信息；第二确定子单元，用于根据目标商品信息确定每个策略模型对应的多个第二评估值。
[0087]
可选的，上述第二获取单元还包括：第一获取子单元、划分单元、第三确定子单元、第二推荐子单元以及第四确定子单元。其中，第一获取子单元，用于获取多个用户中的每个用户的用户特征；划分单元，用于根据用户特征将多个用户划分为至少一个用户集合，其中，每个用户集合中的用户具有相同的用户特征；第三确定子单元，用于从每个用户集合中确定预设数量的目标用户；第二推荐子单元，用于通过每个策略模型为目标用户推荐目标商品信息；第四确定子单元，用于根据目标商品信息确定每个策略模型对应的多个第二评估值。
[0088]
可选的，上述第一确定模块还包括：分解单元以及第一确定单元。其中，分解单元，用于对目标矩阵进行奇异值分解，得到目标矩阵对应的左奇异矩阵、右奇异矩阵以及对角矩阵；第一确定单元，用于根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值。
[0089]
可选的，上述第一确定单元还包括：第五确定子单元、第六确定子单元、第七确定子单元以及第八确定子单元。其中，第五确定子单元，用于根据右奇异矩阵以及对角矩阵确定目标左奇异向量；第六确定子单元，用于根据左奇异矩阵以及对角矩阵确定目标右奇异向量；第七确定子单元，用于根据对角矩阵确定目标奇异值；第八确定子单元，用于根据目标左奇异向量、目标右奇异向量以及目标奇异值确定每个策略模型对应的目标评估值。
[0090]
可选的，上述第八确定子单元还包括：第一获取子模块、第一计算子模块以及第二计算子模块。其中，第一获取子模块，用于获取目标左奇异向量中的多个分量；第一计算子模块，用于计算目标右奇异向量与目标奇异值的乘积，得到第一数值；第二计算子模块，用于将目标左奇异向量中的每个分量分别与第一数值进行乘积，得到每个策略模型对应的目标评估值，其中，一个目标评估值对应一个分量。
[0091]
可选的，策略模型处理装置还包括：调整模块、第一计算模块以及第二计算模块。其中，调整模块，用于对目标右奇异向量中的至少一个分量进行调整，得到第一右奇异向量，其中，目标右奇异向量中的每个分量与一个评价指标相对应；第一计算模块，用于计算第一右奇异向量与目标奇异值的乘积，得到第二数值；第二计算模块，用于将目标左奇异向量中的每个分量分别与第二数值进行乘积，得到每个策略模型对应的最新评估值，其中，最新评估值为更新后的目标评估值。
[0092]
实施例3
[0093]
根据本技术实施例，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述实施例1中的策略模型处理方法。
[0094]
实施例4
[0095]
根据本技术实施例，还提供了一种电子设备实施例，其中，图3是根据本技术实施例的一种可选的电子设备的示意图，如图3所示，电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：
[0096]
获取多个策略模型以及每个策略模型对应的多个评估值，其中，每个评估值对应一项评价指标；根据评估值构建目标矩阵，其中，在目标矩阵中，每一行中的值为一个策略
模型分别在不同评价指标下的评估值，每一列中的值为多个策略模型在同一评价指标下的评估值；通过目标矩阵确定每个策略模型对应的目标评估值，其中，目标评估值用于表征每个策略模型在多个评价指标下的综合评分；根据每个策略模型对应的目标评估值从多个策略模型中确定目标策略模型，并通过目标策略模型为用户推荐商品信息。
[0097]
可选的，处理器执行程序时还实现以下步骤：在每个策略模型的训练过程中，获取每个策略模型对应的多个第一评估值，其中，每个第一评估值与一项第一类评价指标相对应，第一类评价指标为每个策略模型在训练阶段的评价指标；在每个策略模型上线部署后，获取每个策略模型对应的多个第二评估值，其中，每个第二评估值与一项第二类评价指标相对应，第二类评价指标为每个策略模型在应用阶段的评价指标。
[0098]
可选的，处理器执行程序时还实现以下步骤：从多个用户中随机确定预设数量的目标用户；通过每个策略模型为目标用户推荐目标商品信息；根据目标商品信息确定每个策略模型对应的多个第二评估值。
[0099]
可选的，处理器执行程序时还实现以下步骤：获取多个用户中的每个用户的用户特征；根据用户特征将多个用户划分为至少一个用户集合，其中，每个用户集合中的用户具有相同的用户特征；从每个用户集合中确定预设数量的目标用户；通过每个策略模型为目标用户推荐目标商品信息；根据目标商品信息确定每个策略模型对应的多个第二评估值。
[0100]
可选的，处理器执行程序时还实现以下步骤：对目标矩阵进行奇异值分解，得到目标矩阵对应的左奇异矩阵、右奇异矩阵以及对角矩阵；根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值。
[0101]
可选的，处理器执行程序时还实现以下步骤：根据右奇异矩阵以及对角矩阵确定目标左奇异向量；根据左奇异矩阵以及对角矩阵确定目标右奇异向量；根据对角矩阵确定目标奇异值；根据目标左奇异向量、目标右奇异向量以及目标奇异值确定每个策略模型对应的目标评估值。
[0102]
可选的，处理器执行程序时还实现以下步骤：获取目标左奇异向量中的多个分量；计算目标右奇异向量与目标奇异值的乘积，得到第一数值；将目标左奇异向量中的每个分量分别与第一数值进行乘积，得到每个策略模型对应的目标评估值，其中，一个目标评估值对应一个分量。
[0103]
可选的，处理器执行程序时还实现以下步骤：在根据左奇异矩阵、右奇异矩阵以及对角矩阵确定每个策略模型对应的目标评估值之后，对目标右奇异向量中的至少一个分量进行调整，得到第一右奇异向量，其中，目标右奇异向量中的每个分量与一个评价指标相对应；计算第一右奇异向量与目标奇异值的乘积，得到第二数值；将目标左奇异向量中的每个分量分别与第二数值进行乘积，得到每个策略模型对应的最新评估值，其中，最新评估值为更新后的目标评估值。
[0104]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0105]
在本技术的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0106]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可
以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0107]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0108]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0109]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0110]
以上仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐珊珊周洪菊赵培赵凯宁
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。