本申请涉及粒子群算法,尤其涉及一种基于强化学习的粒子群优化方法及装置。
背景技术:
1、pso(particle swarm optimization,粒子群优化算法)是基于群鸟觅食提出来的,是个最佳决策过程;传统的粒子群标准算法公式通常在粒子初始化后,采用两个预定义的参数对粒子进行调整,但粒子本身可能处于不佳位置,使得运动后仍不够好,即搜索效果不佳。同时粒子的初始化位置可影响搜索范围(精度)。如果要达到搜索精度提高,其中一个方法是增加粒子数量,但这会使得算力成倍数增加。因此,本申请所解决的技术问题为如何在不增加算法的运算力的情况下提高粒子群算法的搜索范围。
技术实现思路
1、本申请提供了一种基于强化学习的粒子群优化方法及装置,能够减少搜索精度低的粒子继续运行,在不增加运算力的前提下增大了搜索范围。
2、第一方面,本申请实施例提供了一种基于强化学习的粒子群优化方法,该方法包括:
3、步骤s1,初始化粒子群中的各个粒子和粒子群标准算法中的两个预定义参数;
4、步骤s2,对粒子群中的各粒子进行位置调整;
5、步骤s3,根据价值计算公式计算各粒子的本轮价值;
6、步骤s4,基于本轮价值计算各粒子的叠加价值;
7、步骤s5,根据各叠加价值将预设占比的低价值粒子重新初始化;
8、步骤s6,根据预设迭代次数重复步骤s2-s5。
9、进一步的,上述根据价值计算公式计算各粒子的本轮价值,包括:
10、获取当前应用场景的评价粒子公式,根据评价粒子公式得到最优粒子位置;
11、获取粒子的当前位置,以及粒子在上轮迭代中的价值增量;价值增量为粒子在上轮迭代中的本轮价值与在上上轮迭代中的本轮价值之差;
12、将当前位置减去最优粒子位置,得到位置差;
13、将位置差的平方与价值增量相加,得到粒子的本轮价值。
14、进一步的,该方法还包括:
15、在执行步骤s6过程中,以第3轮迭代为起始,并以预设轮数为间隔,执行步骤s4-s5。
16、进一步的,上述基于本轮价值计算各粒子的叠加价值,包括:
17、获取粒子的上轮价值,将上轮价值与预设权重相乘,得到叠加量;
18、将叠加量与本轮价值相加,得到粒子的叠加价值。
19、进一步的,上述根据各叠加价值将预设占比的低价值粒子重新初始化,包括:
20、根据各叠加价值对各粒子进行排序;
21、以叠加价值最小的粒子为起始,将粒子群预设占比的粒子重新初始化。
22、进一步的,上述预设权重大于等于0.2,小于等于0.4。
23、进一步的,上述预设占比大于等于20%,小于等于40%。
24、第二方面,本申请实施例提供了一种基于强化学习的粒子群优化装置,该装置包括:
25、初始化模块,用于初始化粒子群中的各个粒子和粒子群标准算法中的两个预定义参数;
26、位置调整模块,用于对粒子群中的各粒子进行位置调整;
27、本轮价值计算模块,用于根据价值计算公式计算各粒子的本轮价值;
28、叠加价值计算模块,用于基于本轮价值计算各粒子的叠加价值;
29、重新初始化模块,用于根据各叠加价值将预设占比的低价值粒子重新初始化;
30、迭代模块,根据预设迭代次数重复执行位置调整模块、本轮价值计算模块、叠加价值计算模块和重新初始化模块。
31、第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时执行如上述任一实施例的一种基于强化学习的粒子群优化方法的步骤。
32、第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例的一种基于强化学习的粒子群优化方法的步骤。
33、综上,与现有技术相比,本申请实施例提供的技术方案带来的有益效果至少包括:
34、本申请实施例提供的一种基于强化学习的粒子群优化方法,通过在对粒子群和用来调整粒子位置的预定义参数初始化后,计算粒子的本轮价值和叠加价值,将叠加价值较低的预设占比的粒子重新进行初始化;本申请通过引入强化学习的思想来对粒子的运动效果进行评估,若粒子的叠加价值较低,则可认为该粒子处在不够好的位置,搜索精度低,便将其重新初始化,从而减少搜索精度低的粒子继续运行,在不增加运算力的前提下增大了搜索范围。
1.一种基于强化学习的粒子群优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据价值计算公式计算各所述粒子的本轮价值,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述本轮价值计算各所述粒子的叠加价值,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据各所述叠加价值将预设占比的低价值粒子重新初始化,包括:
6.根据权利要求4所述的方法,其特征在于,所述预设权重大于等于0.2,小于等于0.4。
7.根据权利要求5所述的方法,其特征在于,所述预设占比大于等于20%,小于等于40%。
8.一种基于强化学习的粒子群优化装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。