面向遗传模糊推理的随机策略转化方法与流程

文档序号:16539188发布日期:2019-01-08 20:11阅读:622来源:国知局
面向遗传模糊推理的随机策略转化方法与流程

本发明飞机技术领域,具体涉及一种面向遗传模糊推理的随机策略转化方法。



背景技术:

gft(geneticfuzzytree,遗传模糊树)作为一种实用性较强的智能决策算法,已被证明能在高保真的模拟空战任务中实现无人战斗机的飞行控制和战术决策,这说明训练成熟的gft算法可用于某些策略性较强的场景下的智能决策。

gft算法使用模糊推理树作为策略,利用遗传算法来优化策略中的参数。然而本质上来讲模糊推理树属于确定性策略,也就是任何时刻给定策略相同的输入,输出的action一定是相同的。如果采用deterministicpolicy策略(确定性策略),是对每个s都有一个确定性的a,即π(s)=a,确定性策略在大量博弈试验中非常容易被利用。也就是说,如果对手摸清了在某一个策略输入情况下,我方肯定会执行某个action,那么对手就会营造一个这样的策略输入,并利用事先准备好的action来反制我方。也就是说确定性策略并不能保证通过优化得到一个能够战胜所有其他策略的策略,也就是得到纳什均衡点。

因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述问题。



技术实现要素:

本发明的目的在于提供一种面向遗传模糊推理的随机策略转化方法来克服或至少减轻现有技术中的至少一个上述问题。

为实现上述目的,本发明提供了一种面向遗传模糊推理的随机策略转化方法,包括:模糊推理树所代表的策略用π(s,θ)=a表示,由于模糊推理树是由多个模糊推理系统组成,因此,将策略改写成π(s,fisi(θi))=a,其中,θi为模糊推理树中第i个模糊推理系统所包含的参数,fisi为第i个模糊推理系统,s为,a为;设定输出动作action为分布采样形态;利用第i个输出节点fisouti构建动作分布参数,形成动作生成分布;利用分布采样技术输出相应的动作,其中,s为模糊推理树的输入量全集,a为为模糊推理树经过随机策略转化最终输出的动作值,θi为模糊推理树中第i个模糊推理系统所包含的参数,fisi(θi)为模糊推理树第i个输出节点取值,π(s,fisi(θi))为以一定的概率阈值并且以fisi(θi)作为分布参数进行采样。

在上述转化方法的优选技术方案中,利用第i个输出节点fisouti构建动作分布参数,包括:若输出动作为离散动作,将输出动作作为泊松分布,则输出节点只有一个fisout,将fisout作为输出参数;若输出动作为连续动作,将输出动作作为高斯分布,则输出节点分别有fisout1、fisout2,将fisout1作为动作采样的期望,将fisout2作为动作采样的标准差。

本发明能够解决gft算法模型在零和博弈中不能保证收敛到纳什均衡的问题,通过将gft由确定性策略转化为随机策略,使其经过充分的自博弈训练之后具备收敛到纳什均衡的能力。

附图说明

图1是本发明实施例提供的无人机自主空战某环节的模糊推力系统图;

图2是本发明实施例提供的模糊推理系统图;

图3是本发明实施例提供的模糊推理系统图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明实施例提供一种面向遗传模糊推理的随机策略转化方法,用于把gft的模糊推理树策略由确定性策略转化为随机性策略,使其保留了模糊推理树的可训练性易解释性的同时,具备优化训练成近似纳什均衡策略的潜力。

具体地,面向遗传模糊推理的随机策略转化方法包括以下步骤:

s101,模糊推理树所代表的策略用π(s,θ)=a表示,由于模糊推理树是由多个模糊推理系统组成,因此,将策略改写成π(s,fisi(θi))=a。

其中,s为模糊推理树的输入量全集,a为为模糊推理树经过随机策略转化最终输出的动作值,θi为模糊推理树中第i个模糊推理系统所包含的参数,fisi(θi)为模糊推理树第i个输出节点取值,π(s,fisi(θi))为以一定的概率阈值并且以fisi(θi)作为分布参数进行采样。

s102,设定输出动作action为分布采样形态。

s103,利用第i个输出节点fisouti构建动作分布参数,形成动作生成分布。

其中,若输出动作为离散动作,将输出动作作为泊松分布,则输出节点只有一个fisout,将fisout作为输出参数。

若输出动作为连续动作,将输出动作作为高斯分布,则输出节点分别有fisout1、fisout2,将fisout1作为动作采样的期望,将fisout2作为动作采样的标准差。

s104,利用分布采样技术输出相应的动作。

下面结合一个具体的示例来进一步说明本发明的技术方案:

假设无人机自主空战的某一个环节,该环节模糊推理系统如图1所示,该模糊推理系统在某一个特定的输入条件下决策的油门量的行为是一致的,为了将其转化为随机策略,需要构造两个模糊推理系统,如图2和图3所示。

其中,fisout1与fisout2有着独立的隶属度函数与规则集,分别输出油门量决策的期望和标准差。

在进行油门量决策是利用fisout1与fisout2输出的mu与,sigma构造一个高斯分布,基于这个高斯分布进行概率采样,mu附近的油门量采样概率大,远离mu的油门量采样概率小,概率衰减程度由标准差控制。

应用上述方法在gft训练过程中,除了会学习到期望油门量,还会学习到被对手利用概率最小的标准差。

最后需要指出的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。



技术特征:

技术总结
本发明公开了一种面向遗传模糊推理的随机策略转化方法,包括:假设模糊推理树所代表的策略用π(s,θ)=a表示,由于模糊推理树是由多个模糊推理系统组成,因此,将策略改写成π(s,FISi(θii))=a;设定输出动作action为分布采样形态;利用第i个输出节点FISouti构建动作分布参数,形成动作生成分布;利用分布采样技术输出相应的动作。本发明能够解决GFT算法模型在零和博弈中不能保证收敛到纳什均衡的问题,通过将GFT由确定性策略转化为随机策略,使其经过充分的自博弈训练之后具备收敛到纳什均衡的能力。

技术研发人员:费思邈;管聪;杨芳
受保护的技术使用者:中国航空工业集团公司沈阳飞机设计研究所
技术研发日:2018.07.19
技术公布日:2019.01.08
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1