基于最大熵逆强化学习的无服务器计算资源配置方法与流程

文档序号:29856228发布日期:2022-04-30 09:26阅读:88来源:国知局
基于最大熵逆强化学习的无服务器计算资源配置方法与流程

1.本发明涉及计算机体系结构技术领域,具体涉及一种基于最大熵逆强化学习的无服务器计算资源配置方法、装置、设备及其存储介质。


背景技术:

2.无服务器计算(serverless computing)是指在构建和运行应用时无需管理服务器等基础设施。它描述了一个更细粒度的部署模型,在该模型中,应用被拆解为一个或多个细粒度的函数被上传到一个平台,然后根据当前所需执行、扩展和计费。
3.无服务器计算并不意味着不再使用服务器来承载和运行代码,也不意味着不再需要运维工程师。而是指无服务器计算的消费者不再需要进行服务器配置、维护、更新、扩展和容量规划上,这些任务和功能都由无服务器平台处理,并且完全从开发人员和it/操作团队中抽象出来。因此,开发人员专注于编写应用程序的业务逻辑。运营工程师能够将他们的重点提升到更关键的业务任务上。
4.现有的无服务器计算平台通常需要用户自行配置资源的使用量,而用户通常会给自己的函数配置超过其所需的资源以避免oom等故障。因此,一方面造成资源的严重浪费,另外一方面,给用户的使用产生了不必要的学习成本和时间开销。


技术实现要素:

5.鉴于现有技术中的上述缺陷或不足,期望提供一种基于最大熵逆强化学习的无服务器计算资源配置方法、装置、设备及其存储介质。
6.第一方面,本技术实施例提供了一种基于最大熵逆强化学习的无服务器计算资源配置方法,该方法包括:智能体随机产生一个预设策略;将预设策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数;利用所学的奖励函数进行强化学习,得到强化后的自身策略;判断自身策略的差距,当自身策略的差距小于阈值时则停止对比。
7.在其中一个实施例中,在所述智能体随机产生一个预设策略之前,该方法还包括:用户调用预设函数,并给预设函数配置资源。
8.在其中一个实施例中,所述将预设策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数,包括:将将预设策略采样得到的数据与配置资源后得到的数据对比并计算收益;根据收益建立奖励函数。
9.在其中一个实施例中,所述当自身策略的小于阈值时则停止对比之后,该方法还包括:当自身策略的差距大于阈值时则重新将预设策略采样得到的数据与专家数据采样得到的数据对比。
10.第二方面,本技术实施例还提供了一种基于最大熵逆强化学习的无服务器计算资源配置装置,该装置包括:产生单元,用于智能体随机产生一个预设策略;对比单元,用于将预设策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数;强化单元,用于利用所学的奖励函数进行强化学习,得到强化后的自身策略;判断单元,用于判断自身策略
的差距,当自身策略的差距小于阈值时则停止对比。
11.在其中一个实施例中,在所述智能体随机产生一个预设策略之前,该装置还包括:用户调用预设函数,并给预设函数配置资源。
12.在其中一个实施例中,所述将预设策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数,包括:将将预设策略采样得到的数据与配置资源后得到的数据对比并计算收益;根据收益建立奖励函数。
13.在其中一个实施例中,所述当自身策略的小于阈值时则停止对比之后,该装置还包括:当自身策略的差距大于阈值时则重新将预设策略采样得到的数据与专家数据采样得到的数据对比。
14.第三方面,本技术实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本技术实施例描述中任一所述的方法。
15.第四方面,本技术实施例还提供了一种计算机设备一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于:所述计算机程序被处理器执行时实现如本技术实施例描述中任一所述的方法。
16.本发明的有益效果:
17.本发明提供的基于最大熵逆强化学习的无服务器计算资源配置方法,当基础的训练完成后,本案就是完全在线的学习方法,无需在此训练。本发明可动态调整参数,且本发明较为充分地探索了价格与收益的空间,使得用户与平台的效益最大化。
附图说明
18.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显:
19.图1示出了本技术实施例提供的基于最大熵逆强化学习的无服务器计算资源配置方法的流程示意图;
20.图2示出了根据本技术一个实施例的基于最大熵逆强化学习的无服务器计算资源配置装置200的示例性结构框图;
21.图3示出了适于用来实现本技术实施例的终端设备的计算机系统的结构示意图。
具体实施方式
22.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
23.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
24.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
25.在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
26.在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
27.需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
28.请参考图1,图1示出了本技术实施例提供的基于最大熵逆强化学习的无服务器计算资源配置方法的流程示意图。
29.如图1所示,该方法包括:
30.步骤110,智能体随机产生一个预设策略;
31.步骤120,将预设策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数;
32.步骤130,利用所学的奖励函数进行强化学习,得到强化后的自身策略;
33.步骤140,判断自身策略的差距,当自身策略的差距小于阈值时则停止对比。
34.本案设定:函数的资源请求为:
35.τ={s1,a1,...,s
t
,a
t
,...,s
t
}
36.回报函数为:
[0037][0038]
配置历史:
[0039]
{τi}~π
*
[0040]
因此,本案中函数的资源配置可被表示为:
[0041][0042]
z=∫exp(r
ψ
(τ))dτ
[0043]
本案中的目标可被表示为:
[0044][0045]
采用上述技术方案,当基础的训练完成后,本案就是完全在线的学习方法,无需在此训练。本发明可动态调整参数,且本发明较为充分地探索了价格与收益的空间,使得用户与平台的效益最大化。
[0046]
在一些实施例中,本技术中的在所述智能体随机产生一个预设策略之前,该方法还包括:用户调用预设函数,并给预设函数配置资源。
[0047]
在一些实施例中,所述将预设策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数,包括:将将预设策略采样得到的数据与配置资源后得到的数据对比并计算收益;根据收益建立奖励函数。
[0048]
在一些实施例中,所述当自身策略的小于阈值时则停止对比之后,该方法还包括:当自身策略的差距大于阈值时则重新将预设策略采样得到的数据与专家数据采样得到的数据对比。
[0049]
进一步地,参考图2,图2示出了根据本技术一个实施例的基于最大熵逆强化学习的无服务器计算资源配置装置200的示例性结构框图。
[0050]
如图2所示,该装置包括:
[0051]
产生单元210,用于智能体随机产生一个预设策略;
[0052]
对比单元220,用于将预设策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数;
[0053]
强化单元230,用于利用所学的奖励函数进行强化学习,得到强化后的自身策略;
[0054]
判断单元240,用于判断自身策略的差距,当自身策略的差距小于阈值时则停止对比。
[0055]
应当理解,装置200中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置200及其中包含的单元,在此不再赘述。装置200可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置200中的相应单元可以与电子设备中的单元相互配合以实现本技术实施例的方案。
[0056]
下面参考图3,其示出了适于用来实现本技术实施例的终端设备或服务器的计算机系统300的结构示意图。
[0057]
如图3所示,计算机系统300包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分308加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram 303中,还存储有系统300操作所需的各种程序和数据。cpu 301、rom 302以及ram 303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。
[0058]
以下部件连接至i/o接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至i/o接口305。可拆卸介质311,诸如
磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
[0059]
特别地,根据本公开的实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种基于最大熵逆强化学习的无服务器计算资源配置方法,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行图1的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。
[0060]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0061]
描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一子区域生成单元、第二子区域生成单元以及显示区域生成单元。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,显示区域生成单元还可以被描述为“用于根据第一子区域和第二子区域生成文本的显示区域的单元”。
[0062]
作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本技术的应用于透明窗口信封的文本生成方法。
[0063]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1