在不确定环境中基于强化学习的服务组合方法及系统的制作方法

文档序号:9327524阅读:410来源:国知局
在不确定环境中基于强化学习的服务组合方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机技术领域,具体涉及一种在不确定环境中基于强化学习的服务 组合方法及系统。
【背景技术】
[0002] Internet环境具有开放性和动态性的特点,Web服务具有分布、异构、自治、动态 变化的特点,它们共同导致服务出现两个方面的不确定性,Web服务调用结果的不确定性和 服务质量QoS的不确定性。一方面,Web服务行为具有不确定性,即不能确定Web服务的执 行结果。另一方面,Web服务的QoS指标,如响应时间,可用性等,与网络延时等Web服务的 一部分外部因素相关,不可控的网络延时使服务的QoS也具有不确定性。即使对于服务内 部看似可控的QoS指标值(这些指标可以通过提升软硬件处理能力得到提升),也可能因为 系统负载等因素具有一定的概率分布(具有不确定性),如Web服务的执行时间,因系统不 同时期的负载不同,不应当直接采用上一次的请求处理时间作为下一次服务执行时间的预 期值。QoS信息难以得到长期和稳定的保证,从而影响了服务组合成功率和组合服务的质 量。所以,在考虑不确定性的情况下,如何根据业务逻辑的隐含知识提供优化的服务组合策 略,以及如何准确地度量Web服务的QoS和动态地对其进行自适应管理,对研究服务的可靠 组合方法意义重大。
[0003] 因为QoS的不确定性和Web服务调用结果的不确定性,所以Web服务组合方法应 当充分考虑造成这种不确定性的服务的执行结果。例如,在调用时QoS的值处于哪一个区 间,服务的调用是否成功。考虑到服务的不确定性后,就可以自适应的调整Web服务组合, 使其适应不同条件下的执行环境。可见,Web服务组合不应该仅仅是某些特定条件下的组 合方案,而应该是一组不确定条件下的优化策略。马尔可夫决策过程(Markov Decision Processes,MDP)可以用来指导Web服务组合。根据系统当前的实际状态,马尔可夫决策过 程能够做出决策,但是系统的精确状态在很多情况下难以获取。本专利提出的改进的马尔 可夫决策过程是MDP的扩展。改进的MDP假设系统的状态信息具有一定的概率分布,因而 改进的MDP能对具有概率分布信息的系统建模,依据当前的不完全信息做出决策。
[0004] 现有技术中提出了两种服务组合方法,一种是自适应的服务组合方法,将服务映 射为马尔科夫决策中的动作,由此构造组合服务的网络图,计算结果的每一条路径就是一 个生成的工作流路径。
[0005] 另一种提出了 Web服务各随机QoS指标的度量方法和自适应QoS管理体系结构, 并利用随机型尚散事件系统的动态控制方法--马尔可夫决策过程,设计出随机QoS感知 的可靠Web服务组合算法。实验结果表明,考虑随机性的QoS度量方法和QoS管理体系结 构,以及平衡了"风险"与"报酬"的MDP有效地提高了服务组合成功率。
[0006] 上述第一种方法的缺陷为:随着任务数和规划状态数的剧烈增加,文献方法的计 算时间也显著增加,这是因为文献方法的时间复杂度较高,且没有采用实时更新的最优策 略,因此计算时间较长,学习速度不够快。
[0007] 上述第二种方法的缺陷为:使用基于MDP的方法只是将服务调用的可靠性或调用 服务的收益做为服务的转移概率,没有考虑部分可观测的QoS变量。此外,也没有将QoS等 级映射为具有概率分布的可观测性数据,使之适合实际的服务环境,因而对组合成功率的 提尚有限。

【发明内容】

[0008] 针对现有技术中的缺陷,本发明提供一种在不确定环境中基于强化学习的服务组 合方法及系统,解决了现有服务组合方法学习速度慢,服务组合成功率低的问题。
[0009] 为解决上述技术问题,本发明提供以下技术方案:
[0010] 第一方面,本发明提供了一种在不确定环境中基于强化学习的服务组合方法,包 括:
[0011] SL接收服务请求;
[0012] S2.根据预先训练好的学习算法获得最优策略;
[0013] S3.根据所述最优策略调用服务。
[0014] 进一步地,所述学习算法的训练过程包括:
[0015] SOL建立原始服务QoS样本库;
[0016] S02.初始化服务QoS样本库;
[0017] S03.对QoS数据进行强化学习;
[0018] S04.对服务QoS样本库的变更进行检测;
[0019] S05.如果服务QoS样本库的服务数量发生了变化,则删去相应的服务,重新构造 服务状态空间;
[0020] S06.如果服务QoS样本库的服务QoS值发生了变化,则更新服务的QoS值,对该更 新做标记;
[0021] S07.判断服务QoS样本库的数据是否满足当前服务请求的现状及要求,若不满 足,则执行步骤S09,否则,执行步骤S08 ;
[0022] S08.输出训练结果;
[0023] S09.变更原始服务QoS样本库,重新执行步骤S03。
[0024] 进一步地,所述步骤S03对QoS数据进行强化学习包括:
[0025] S031.输入原始服务样本库;
[0026] S032.构建改进的马尔可夫决策过程MDP模型;
[0027] 其中,马尔可夫决策过程模型为:M= (S,A,T,R,Z,W,H);其中,S是状态的集合,A 是动作的集合,T是状态转移概率,R表示状态S下执行动作A的回报,Z是阶梯化函数的 QoS值的集合,W是状态S下执行动作A获得QoS区段值Z的概率,H是规划的阶段;
[0028] 用改进的MDP表示Web服务组合:
[0029] S:状态,每个Web服务代表一个状态,一个组合服务就成为一个从初始状态到终 止状态的流程图,在当前的服务中,如果选择下一个服务成功,则转到下一个服务,否则继 续选择服务直到成功为止;
[0030] A:动作,为Web服务的调用;
[0031] T:SXAXS - [0,1]是状态转移函数,表示服务在当前状态下执行某个调用后转 移到下一服务的概率分布;T (s,a,s')= P (s' I s,a)表示在服务为s,调用a后,服务转变为 s'的概率;
[0032] R : SxAxS -1是回报函数,表示在当前服务s的条件下,采取动作a,到达下一 服务s'所能获得的回报值;
[0033] Z:Q〇S区段值,为所有可能被服务调用者观察到的QoS等级的集合;
[0034] W:SXAXZ - [0, 1]是观察函数,表示在当前状态和上一步调用动作条件下获得 观察的概率分布;W (a,s',z) = Pr (z I a,s')表示调用a后,服务变为s',所获得服务等级的 观察值为z的概率;
[0035] H:阶段,是指规划的步数,H可以分为有限步和无限步两种;折扣因子 γ e [0,1],描述了折扣的大小,它使收益值随着规划步数的增加而减少,在规划中,第h步 的收益就是γΗ;
[0036] S033.基于所述改进的MDP模型对更新函数进行计算;
[0037] S034.输出学习结果。
[0038] 进一步地,所述步骤S033基于所述MDP模型对更新函数进行计算包括:
[0039] 所述更新函数为:
[0040] Q(st, at) ^Q(st, at) + a [rt+1+γ XZXff XQ(st+1, at+1)-Q(st, at)];
[0041] 根据所述更新函数,基于强化学习的服务组合方法如下:
[0042] SlL 随机初始化 Q(s,a);
[0043] S12.设置印i sode 数量;
[0044] S13.对于每个episode,执行步骤S14,直至达到episode的数量;
[0045] S14.初始化s,用产生自Q (s, a)的ε-greedy策略从St中选择一个a t;
[0046] 对于每个episode的每一步,执行动作at,观察rt,s t+1,用产生自Q(s, a)的 ε -greedy 策略从 st+1 中选择一个 at+1,Q(st, at) - Q(st, at) + a [rt+1+y XZXWXQ(st+1, at+1) (st, at) ],st- s t+1,at- a t+1;至到s为终止状态;其中,Q (s, a)为一张Q值表,存储了状 态s和动作a的值,t为时间点,α为学习率,St,at,rt分别为上一步状态,动作和回报,初 始为空;
[0047] 其中,一个策略决定了一个组合方案,基于强化学习的服务组合方法通过学习策 略来执行组合,学习结果为学习得到的最优策略。
[0048] 第二方面,本发明还提供了一种在不确定环境中基于强化学习的服务组合系统, 包括:
[0049] 接收单元,用于接收服务请求;
[0050] 最优策略获取单元,用于根据预先训练好的学习算法获得最优策略;
[0051] 组合服务提供单元,用于根据所述最优策略调用服务。
[0052] 进一步地,所述系统还包括训练单元,用于训练学习算法;
[0053] 其中,所述训练单元具体用于执行如下操作:
[0054] SOL建立原始服务QoS样本库;
[0055] S02.初始化服务QoS样本库;
[0056] S03.对QoS数据进行强化学习;
[0057] S04.对服务QoS样本库的变更进行检测;
[0
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1