本发明涉及数据处理,特别是指一种面向多级服务活动的资源协调方法、系统及装置。
背景技术:
1、网络协同制造平台涉及众多服务领域,比如设计、制造、供应、营销等,提供了满足各类场景业务需要的功能,包括但不限于制造业企业、供应链上下游、营销与采购全流程涉及的产线管理、产品测试、供应商管理、物资管理、合同管理、到货验收等,强大且复杂多样的业务功能使系统在部署时占据较大的服务器资源,随着用户的增长很容易导致系统运行卡顿甚至系统崩溃停机,影响参与协同的制造企业正常使用。
技术实现思路
1、本发明要解决的技术问题是提供一种面向多级服务活动的资源协调方法、系统及装置,通过构建面向多级服务活动的资源协调调度方法,以动态资源调度为技术手段,通过系统状态转移和动作行为产生的行为价值评估自适应策略的优劣,为服务资源在多个服务模块之间协调提供决策依据。
2、为解决上述技术问题,本发明的技术方案如下:
3、第一方面,一种面向多级服务活动的资源协调方法,所述方法包括:
4、获取网络协同制造平台中服务模块的服务资源状态、该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合;
5、根据所述服务资源状态、该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率;
6、获取服务资源状态进行状态转移的反馈奖励;
7、根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励;
8、根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略;
9、按照所述最优资源分配策略进行网络协同制造平台中服务模块的服务资源调度。
10、进一步的,根据所述服务资源状态、该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率,包括:
11、根据公式计算服务模块的第一服务资源状态s下转换到第二服务资源状态s'的转移概率其中,a为行动,π(a|s)为分布概率,表示在执行动作a后,从状态s转移到状态s′的概率。
12、进一步的,获取服务资源状态进行状态转移的反馈奖励,包括:
13、根据获取服务资源状态进行状态转移的反馈奖励,其中,为反馈奖励,为采取行动a后当前状态取得的即时奖励。
14、进一步的,根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励,包括:
15、根据确定服务资源状态进行状态转移的转移路径的长期奖励;其中,衰减系数λ的取值范围为0≤λ≤1,π1和π2相同,gt为在时刻t的状态s下采取策略π的长期预期奖励,为在t+k+1时刻采取策略πk+1下的即时奖励;π为策略,k为未来的时刻。
16、进一步的,根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略,包括:
17、通过基于资源分配策略的行为价值函数qπ(s,a)评估在当前状态下执行每一行为a后继续遵循当前策略获得未来期望;
18、计算在当前状态下执行每一行为a后继续执行该行为所在的原有策略导致不同情况发生所获得的不同的行为收益期望qπ(s,a);
19、状态s下采取策略π中行为a后选择最大的行为价值函数为最优行为价值函数qπ(s,a)*,最优行为价值函数所对应的策略则为最优资源分配策略。
20、进一步的,行为收益期望qπ(s,a)的计算公式为:
21、
22、其中,qπ(s,a)为状态s采取动作a的状态-动作价值函数,eπ为按照策略π采取动作时的期望值,gt为时刻t的累积折现奖励,s为当前状态,a为当前采取的动作,为按照策略π,时刻t+1的即时奖励;qπ(st+1,at+1)为时刻t+1的状态st+1采取动作at+1的状态-动作价值函数,st为当前状态;at为当前采取的动作;
23、最优行为价值函数qπ(s,a)*的计算公式为:
24、
25、其中,π(a|s)为在状态s下采取动作a的概率;为状态s采取动作a的即时奖励;为从状态s执行动作a转移到状态s′的概率;q(s',a)为状态s′采取动作a的状态-动作价值函数。
26、进一步的,按照所述最优资源分配策略进行网络协同制造平台中服务模块的服务资源调度,包括:
27、当一服务模块的服务资源供给≥需求时,则释放部分服务资源或者关闭部分服务资源,并将释放出来的资源分配至需要的服务模块;
28、当一服务模块的服务资源供给<需求时,则请求增加服务资源,或者从其他服务模块调用闲置的服务资源。
29、第二方面,一种面向多级服务活动的资源协调系统,包括:
30、多个服务模块,以及与多个服务模块通信连接的面向多级服务活动的资源协调装置,所述资源协调装置用于获取网络协同制造平台中服务模块的服务资源状态、该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合;根据所述服务资源状态、该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率;获取服务资源状态进行状态转移的反馈奖励;根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励;根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略;按照所述最优资源分配策略进行网络协同制造平台中服务模块的服务资源调度。
31、第三方面,一种多个服务模块通信连接的面向多级服务活动的资源协调装置,包括:
32、获取模块,用于获取网络协同制造平台中服务模块的服务资源状态、该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合;
33、处理模块,用于根据所述服务资源状态、该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率;
34、所述获取模块还用于获取服务资源状态进行状态转移的反馈奖励;
35、所述处理模块还用于根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励;根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略;
36、调度模块,用于按照所述最优资源分配策略进行网络协同制造平台中服务模块的服务资源调度。
37、第四方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现上述方法。
38、本发明的上述方案至少包括以下有益效果:
39、本发明的上述方案,针对网络协同制造平台、服务资源种类繁多、运行需求复杂多变、用户访问量巨大等特点,为实现跨区域、跨平台、跨业务的资源协调与共享,通过构建面向多级服务活动的资源协调调度方法,以动态资源调度为技术手段,通过系统状态转移和动作行为产生的行为价值评估自适应策略的优劣,为服务资源在多个服务模块之间协调提供决策依据。