本发明涉及无人机深度决策技术领域,具体地涉及一种用于强对抗环境下无人机深度决策的训练方法及训练网络。
背景技术:
现有的无人机决策方法大多未考虑无人机的强对抗环境,无法解决强对抗环境下无人机自主决策问题。如论文《一种基于情景构建的无人机自主鲁棒决策方法》是使用基于影响图的不确定性求解方法,其存在如下两个方面的不足:第一,该决策方法实质是从候选方案中选择效用最大方案的过程,候选方案能涵盖的突发情况维度,直接决定了该方法鲁棒性能的优劣,而这些候选方案往往都只能由历史战例中总结获得,无法胜任未经历过场景下的决策;第二,影响图法需要预先构建影响图模型,且在模型构建之后无法进行持续改进,很难适应复杂多变的高动态性战场条件。
技术实现要素:
本发明的目的是提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络,该训练方法突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
为了实现上述目的,在一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法包括以下步骤:获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;对状态值进行标准化处理,获得标准化状态值;根据标准化状态值采用深度确定性策略梯度ddpg方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;获取无人机执行决策动作后的第二状态空间数据;计算无人机执行决策动作的回报值;根据第一状态空间数据、第二状态空间数据和回报值更新ddpg方法的权值参数;根据第二状态空间数据更新第一状态空间数据;判断无人机或地面目标是否被摧毁;在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;判断百回合胜率是否大于或者等于预设值;在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练。
优选地,该训练方法还包括:在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络。
优选地,无人机与地面目标之间的距离采用式(1)来表示:
其中,
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
其中,
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
其中,γi为无人机的航向与地面目标之间在第i步的水平夹角,
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
其中,
无人机与地面目标之间的高度差采用式(5)来表示:
其中,
无人机与第二武器之间的距离采用式(6)来表示:
其中,
优选地,回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
其中,rei为在第i步无人机执行决策动作的回报值,
优选地,长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
其中,rer1为无人机执行决策动作的规则性回报值,
战果性回报值采用式(9)来表示:
其中,rer2为战果性回报值,
在另一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练网络,该训练网络包括:输入层,用于:获取强对抗环境的第一状态空间数据的初始值,根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;隐藏层,用于:接收标准化状态值,根据标准化状态值计算无人机在当前环境下的决策动作,存储决策动作,将决策动作发送给输出层;输出层,用于输出决策动作,以控制无人机执行决策动作;回报值获取模块,用于计算无人机执行决策动作的回报值;输入层还用于:获取无人机执行决策动作后的第二状态空间数据,根据第二状态空间数据更新第一状态空间数据;记忆库,用于存储第一状态空间数据、第二状态空间数据和回报值;梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述技术方案,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图1所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法可以包括以下步骤:
在步骤s101中,获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,
其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;
在步骤s102中,根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,
其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;
在步骤s103中,对状态值进行标准化处理,获得标准化状态值;
在步骤s104中,根据标准化状态值采用深度确定性策略梯度ddpg方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;
在步骤s105中,获取无人机执行决策动作后的第二状态空间数据;
在步骤s106中,计算无人机执行决策动作的回报值;
在步骤s107中,根据第一状态空间数据、第二状态空间数据和回报值更新ddpg方法的权值参数;
在步骤s108中,根据第二状态空间数据更新第一状态空间数据;
在步骤s109中,判断无人机或地面目标是否被摧毁;
在步骤s110中,在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;
在步骤s111中,判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;
在步骤s112中,在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;
在步骤s113中,判断百回合胜率是否大于或者等于预设值;
在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练。
ddpg方法是所属领域技术人员所知的技术,为突出本发明的要点,因此在本发明的说明书中对该已知技术未做详细的描述。
无人机参数例如可以采用以下方式来表示:
无人机位置坐标:以地面目标几何中心为原点,正东方向为x轴方向,正北方向为y轴方向,指向地心相反方向为z轴方向构建环境坐标系,在第i步无人机的空间位置坐标可以表示为
无人机机头指向:以无人机为原点,平行于环境坐标系构建机上坐标系,无人机机头指向例如可以由俯仰角θ和偏转角
无人机生存状况:在第i步无人机的生存情况可以表示为:
无人机参数还可以包括无人机载弹情况和无人机的第一武器的攻击半径,可以分别采用以下方式表示:
在第i步无人机载弹情况可以表示为:
第一武器的攻击半径可以表示为:dr=d,dr为第一武器的攻击半径,d为一固定正整数,表示无人机可以进行攻击的距离,单位为公里。
地面目标参数例如可以采用以下方式来表示:
地面目标位置坐标:使用环境坐标系作为参照系,则地面目标在第i步的空间坐标可以表示为:
地面目标生存情况:
地面目标弹药重装填时间:
第一武器参数和第二武器参数:
武器坐标:使用环境坐标系作为参照系,则第一武器和第二武器在第i步的空间坐标可以分别表示为:
武器活动情况:第一武器和第二武器的活动情况可以分别表示为:
武器命中情况:第一武器和第二武器的命中情况可以分别表示为:
在真实环境下,无人机的机动空间是三维空间,包括六个自由度,由于无人机的滚转对于对抗决策的影响可以忽略,因此在本发明的一实施方式中可以只考虑无人机的其他五个自由度的机动。假定速度恒定,则无人机的机动动作可以看作是由俯仰角和偏转角的配合来实现的。而这两个角度都需要在可行区间中进行连续取值。则无人机在第i步的机动动作可以表示为:
无人机在第i步的打击动作可以表示为:
无人机、地面目标和第二武器之间的状态值以及标准化状态值可以采用以下方式来表示:
无人机与地面目标之间的距离采用式(1)来表示:
其中,
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
其中,
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
其中,γi为无人机的航向与地面目标之间在第i步的水平夹角,
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
其中,
无人机与地面目标之间的高度差采用式(5)来表示:
其中,
无人机与第二武器之间的距离采用式(6)来表示:
其中,
在本发明的一实施方式中,回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
其中,rei为在第i步无人机执行决策动作的回报值,
长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
其中,rer1为无人机执行决策动作的规则性回报值,
战果性回报值采用式(9)来表示:
其中,rer2为战果性回报值,
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图2所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,与图1所示的训练方法相比,该训练方法还可以包括:
在步骤s214中,在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络。
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。如图3所示。在本发明的一实施方式中还提供了一种用于强对抗环境下无人机深度决策的训练网络,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,其特征在于,包括:
输入层,用于:
获取强对抗环境的第一状态空间数据的初始值,
根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,
对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;
隐藏层,用于:
接收标准化状态值,
根据标准化状态值计算无人机在当前环境下的决策动作,
存储决策动作,
将决策动作发送给输出层;
输出层,用于输出决策动作,以控制无人机执行决策动作;
回报值获取模块,用于计算无人机执行决策动作的回报值;
输入层还用于:
获取无人机执行决策动作后的第二状态空间数据,
根据第二状态空间数据更新第一状态空间数据;
记忆库,用于存储第一状态空间数据、第二状态空间数据和回报值;
梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述实施方式,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
以上结合附图详细描述了本发明的可选实施方式,但是,本发明并不限于上述可选实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。