用于辅助决策的系统和方法与流程

文档序号：15739780发布日期：2018-10-23 22:05阅读：来源：国知局

技术特征：

1.一种用于确定由竞争系统中给定的竞争实体实施的动作的决策辅助方法，所述竞争系统包括所述竞争实体和至少另一个对手竞争实体，竞争实体能够实施一组预定义的动作中的动作，每个动作都根据由所述对手竞争实体实施的动作而提供不同的期望收益，每个实体还能够实施一组预定义的学习过程中的学习过程以学习对手实体的动作，

-将每个学习过程与基本概率函数关联(604)，所述基本概率函数对给定的竞争实体的每个可能动作分配概率参数；

-确定全局概率函数(608)，所述全局概率函数对每个基本概率函数分配概率参数；

-利用全局概率函数来选择(609)一个或更多个基本概率函数；以及

-应用选定的基本概率函数以确定由所述给定的竞争实体实施的所述动作中的动作(610)。

2.根据权利要求1所述的方法，其特征在于，所述方法包括以包括竞争实体的可能动作的集合和应用于所述动作的收益函数的博弈模型的形式对给定的竞争实体的策略情况进行建模的预先步骤，所述收益函数将期望的收益与竞争实体的每个动作或动作的组合相关联。

3.根据前述权利要求中的一项所述的方法，其特征在于，所述概率参数是权重值。

4.根据前述权利要求中的一项所述的方法，其特征在于，基本概率函数对应于根据概率分布定义的概率向量的分量。

5.根据权利要求4所述的方法，其特征在于，概率向量的每个分量取决于预定义的基本权重。

6.根据权利要求1和2中的一项所述的方法，其特征在于，所述方法包括基于学习数据计算收益函数的步骤(606)。

7.根据权利要求6所述的方法，其特征在于，所述收益函数取决于加权和、Choquet积分、广义加性实用模型、神经网络的多评价指标模型中的至少一个。

8.根据权利要求6所述的方法，其特征在于，所述收益函数取决于概率模型。

9.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括响应于通过执行或通过模拟选定的基本概率函数和在竞争系统中至少一次实际选择的动作而获得的学习数据的接收、利用更新函数更新至少一个基本概率函数的步骤。

10.根据权利要求9所述的方法，其特征在于，所述更新步骤(607)包括更新所述选定的基本概率函数。

11.根据权利要求10所述的方法，其特征在于，所述更新步骤(607)还包括更新所述其他的基本概率函数中的至少一个。

12.根据权利要求11所述的方法，其特征在于，所述更新步骤(607)包括对每个基本概率函数应用不同的更新函数。

13.根据权利要求9至12中的一项所述的方法，其特征在于，所述更新函数包括基于所获得的收益的至少一个更新函数。

14.根据权利要求9至13中的一项所述的方法，其特征在于，所述更新函数包括基于基本权重的至少一个更新函数，每个基本权重与给定的动作相关联并且所述基本权重取决于获得的收益。

15.根据权利要求14所述的方法，其特征在于，给定的基本概率函数的所述更新函数包括动作方面的分量，每个动作方面的分量取决于所涉及的决策步骤中与所述动作相关联的基本权重与对应于所述决策步骤中的基本概率函数的不同分量的基本权重的总和之间的比率。

16.根据权利要求14和15中的一项所述的方法，其特征在于，所述更新步骤还包括根据在给定的决策步骤利用与要更新的基本概率函数相关联的学习过程所导致的损失来更新所述基本权重。

17.根据权利要求14所述的方法，其特征在于，所述更新步骤包括通过将玻尔兹曼分布函数应用于所获得的收益来更新所述基本权重。

18.根据权利要求14所述的方法，其特征在于，所述更新步骤包括根据表示探索率的环境状况以及重置因子的环境状况的参数来更新所述基本权重。

19.根据权利要求9至18中的一项所述的方法，其特征在于，所述更新函数包括取决于通过测量在给定的决策步骤中选择与基本概率函数相关联的学习过程而不是另一个学习过程的遗憾而接收到的收益参数的至少一个更新函数。

20.一种计算机程序产品，所述计算机程序包括代码指令，当所述程序在计算机上执行时，所述计算机程序能够执行根据权利要求1至19中的任一项所述的方法的步骤。

21.一种用于确定由竞争系统中给定的竞争实体(20)实施的动作的决策辅助系统(10)，所述竞争系统包括所述竞争实体和至少另一个对手竞争实体，竞争实体能够实施一组预定义的动作中的动作，每个动作都根据由所述对手竞争实体实施的动作而提供不同的期望收益，每个实体还能够实施一组预定义的学习过程中的学习过程以学习对手实体的动作，每个学习过程都与将概率参数与给定的竞争实体的每个可能动作相关联的基本概率函数相关联，所述系统包括全局学习模块(50)，所述全局学习模块(50)配置为确定能够将概率参数与每个基本概率函数相关联的全局概率函数，所述全局学习模块还包括选择单元(54)，所述选择单元(54)能够利用全局概率函数来选择所述基本概率函数中的一个，所述全局学习模块能够应用选定的基本概率函数以确定能够由所述给定的竞争实体实施的所述动作中的动作。

完整全部详细技术资料下载

当前第2页1 2 3