基于Agent技术的对抗行为建模仿真平台及仿真方法

文档序号:6331915阅读:285来源:国知局
专利名称:基于Agent技术的对抗行为建模仿真平台及仿真方法
技术领域
本发明属于智能Agent控制与决策、计算机仿真技术领域,具体涉及一种基于 Agent技术的对抗行为建模仿真平台及仿真方法。
背景技术
现代战争中大规模的军事演习训练要耗费大量的财力物力,虚拟战场仿真训练已 逐渐成为国家训练部队的一个重要手段。战场作战建模仿真主要是行为建模方法的实现, 行为建模方法有专家系统方法、有限状态机法、Agent技术等。Agent技术的对抗行为建模 的主体主要包括以下内部结构态势感知实现作战人员从战场环境中获取信念或更新信念,包括观察、分析、知 识库的更新和信念的生成,实现不同战场的感知判断,具有真实模拟作战个体战场态势感 知的能力;决策规划是作战人员基于感知信息或其它的信息构造决策任务,运用决策准则 和规划机制从方案库中选出最优的方案,为作战人员提供动作意图指令,使建模接近真实 作战个体的思维方式;个人主观是对作战人员的行为影响的内部心理因素包括能力、情感、态度和价值 观等评估和综合,将这些主观因素识别并计算权值,利用自身的规则库和自学习综合后,反 馈到作战人员的行为动作中,符合作战个体主观的表现方式;行为生成是作战人员参考感知的信念和决策的指令,将意图作为当前的情景处 理,加入处理行为意图的优先级模块,并考虑到个人情感对外在行为的压抑或兴奋等影响, 确定生成某种战术对抗动作。目前,对基于Agent技术的对抗行为建模的研究,大多是针对作战Agent个体的行 为建模过程。但是在复杂的战场环境中,作战Agent组织级的对抗行为表示更为重要,因为 复杂战场系统是所有参战人员、武器和战场环境等要素相互协作、相互影响和相互通信等 功能的共同作用,且各组成要素间的活动很难进行定量分析和描述,战场情况的复杂多变, 也具有不可预见性和不可再现性;其次,研究主要围绕着作战人员的决策和学习行为展开 研究,从信息流的角度将作战人员个体的行为按内在的感知、决策和学习考虑,形成作战个 体的外在行为过程,对各种行为内在因素的相互影响只是按照简单的线性因果链考虑。但 是,从实际情况出发,对于虚拟对抗作战这样的复杂适应系统,内在因素间存在着互相影响 的自适应反馈,不是简单的线性传递关系,传统方法在这方面表现不足,大大局限了行为的 智能性和自主性。因此开发一种具有高逼真度、通用性强、自主性和智能性的对抗仿真软件 平台具有重要意义与实用价值。

发明内容
针对现有技术中存在的问题,本发明提出一种基于Agent技术的对抗行为建模仿 真平台及仿真方法,以提高虚拟模拟战场作战建模行为的智能性、自主性和差异性。
本发明提出一种基于Agent技术的对抗行为建模仿真平台,所述的仿真平台主要 包括平台交互界面模块、战场环境模块、作战人员Agent行为建模模块、指挥协作Agent模 块、通讯模块和评估模块。
所述的战场环境模块通过通讯模块,从平台交互界面模块获取初始参数信息,并 将该输出参数信息输出给指挥协作Agent模块;指挥协作Agent模块根据初始参数信息来 明确作战意图和任务,指挥协作Agent模块再将作战意图和任务分配到作战人员Agent行 为建模模块,作战人员Agent行为建模模块依据自身的态势感知结构、决策规划结构、个人 主观结构和外在行为输出结构,生成可执行的外在对抗行为。实现作战任务仿真,并由平台 交互界面模块进行实时显示。完成仿真后,战场环境模块将单次仿真产生的结果状态信息 输出到仿真平台交互界面上进行显示;平台交互界面模块还可以设置作战任务多次仿真, 将结果状态信息输出到评估模块计算指标效果评估,再将评估后的单一指标和综合指标通 过通讯模块发送到平台交互界面模块进行显示。通讯模块实现意图、感知、决策和行为等信 息参数的传输。所述的平台交互界面模块包括参数设置对话框、仿真实时动画显示界面、状态参 数显示对话框和评估指标输出界面。操作员通过参数设置对话框设置初始参数,包括战场 实际环境参数、己方和敌方人员参数、武器装备参数、仿真次数和评估指标参数,设置后生 成的初始参数,通过通讯模块发送到战场环境模块;仿真实时动画显示界面将作战任务在 作战人员Agent行为建模模块的仿真过程中对抗双方作战行为进行实时显示;作战任务仿 真完成后,状态参数显示对话框根据用户要求选择性输出对抗双方的位置、速度、武器状态 和存活率等结果状态信息;评估指标输出界面根据用户要求输出单一指标和综合指标。所述的战场环境模块包括战场参数线程接口单元、解释单元、战场仿真单元和属 性参数单元。所述的战场参数线程接口单元读取平台交互界面模块经通讯模块向其发送的 初始参数,通过解释单元将初始参数解析为虚拟战场中的战场环境参数,所述的战场环境 参数主要包括战场环境信息(如地形、天气等)、己方作战人员Agent自身的状态(如方向、 速度、位置和武器状态等)与敌方的相关状态和己方的主观因素等。战场仿真单元通过判 定战场环境参数设定执行标记因子为1或0,选择执行或结束仿真过程。当执行标记因子 设定为1时,属性参数单元利用战场环境参数,解析作战仿真所必需的战场属性参数,主要 包括探测半径、武器作战杀伤半径、通信半径和移动半径,并将战场属性参数和战场环境参 数通过通讯模块发送给作战人员Agent行为建模模块;当战场仿真单元的执行标记因子设 定为0时,可执行外在行为不再使战场环境参数变化,单次仿真过程完成,获得结果状态信 息;若仿真为单次仿真,结果状态信息通过通讯模块传递给平台交互界面模块的状态参数 显示对话框进行显示;若仿真为多次仿真,将结果状态信息通过通讯模块传递给评估模块 计算单一指标和综合指标,再将单一指标和综合指标通过通讯模块传递回战场环境模块中 的战场仿真单元,最终判定仿真次数是否达到预设的多次仿真的次数,若没有达到多次仿 真次数,战场环境模块需重新读取初始参数,并将执行标记因子设定为1,进行下一次仿真。 若达到多次仿真次数,战场仿真单元结束多次仿真全过程,并将每次仿真过程的单一指标 和综合指标通过通讯模块传递到平台交互界面的评估指标输出界面进行输出。所述的作战人员Agent行为建模模块,包括态势感知结构、决策规划结构、个人主 观结构和外在行为输出结构。态势感知结构接收通讯模块发送的战场环境参数和战场属性参数,生成观察因素感知模式集,并计算观察因素量化值以及分析量化值的可信度,合并观 察因素量化值以及量化值的可信度形成当前的态势信念;个人主观结构利用观察因素感知 模式集的主观因素,生成主观综合指标,传递到决策规划结构中;决策规划结构基于态势感 知结构的态势信念构造决策任务,运用决策准则选出当前决策规则的方案,并依据规则方 案形成相应的战术行为意图;外在行为输出结构获得当前战术行为意图后,生成可执行外 在对抗行为,并经战场环境模块的战场仿真单元判定本次仿真是否完成,并在完成后生成 结果状态信息,并将该结果状态信息通讯模块传递给平台交互界面模块进行输出或评估模 块进行评估,且平台交互界面的仿真实时动画显示界面将作战任务在作战人员Agent行为 建模模块的仿真过程中对抗双方作战行为进行实时显示。所述的态势感知结构的实现过程包括以下四个过程,分别是生成观察因素感知模 式集、计算观察因素量化值、分析量化值的可信度和形成当前态势信念。具体如下
1)观察因素感知模式集生成态势感知结构通过通讯模块获取战场环境参数和战场属性参数,包括战场环境信 息(如地形、天气等)、己方作战人员Agent自身的状态(如方向、速度、位置和武器状态等) 与敌方的相关信息、己方的主观因素、探测半径、武器作战杀伤半径等,生成观察因素感知 模式集Ss。2)计算观察因素量化值设战场环境的观察因素中第i因素的预设模式和感知模式分别是 < =[A,,A2’._.,P",...’Pm,r (<—。 ,)和< 如’.·.,%,...’札’Γ,其中,E。ut 是作战人员预 设观察因素感知集,Ss为观察因素感知模式集,Pil Pin与qn qin是第i因素的预设模 式和感知模式的特征量,η为第i因素的预设模式和感知模式的特征量的数量,由第i因素 具体决定,以观察因素中的位置为例,由3个特征量(空间位置的3个坐标量)可以确定,
即η = 3。观察因素中第i因素的量化值Vi定义为A 丄,其中,pik和
V ηJ
Qik是第i因素的预设模式和感知模式的特征量中对应值,Wk为加权系数,满足0 < Wk < 1, k = 1,2,3,…,= 1 ;0 < Vi ^ 1,Vi越大,观察因素中第i因素的感知模 式越接近预设模式,就会增大观察因素中第i因素的量化值Vi。3)量化值的可信度分析态势感知结构的态势信念的产生依赖于观察因素感知模式集Ss中的观察因素,这 些观察因素之间的关系影响量化值的可信度。设集合{ ···,々是相互影响的观察因素感
知模式集合,则观察因素量化值的可信度m定义为:m =粉,;1)。其中,Ici的设定满
足1^+1^+···+!^ = !!,且k1; k2,…,kn>0,Iii的取值与<相关。可以根据观察因素不同,适 当将观察因素感知模式集合中的<分类集结,可以降低观察因素量化值的可信度m的计算 复杂度。4)形成当前态势信念态势感知结构形成当前态势信念是通过综合观察因素量化值和量化值的可信度, 生成观察因素量化集合,将此集合与先验态势信念作证据合并,计算获得当前的态势信念。所述的个人主观结构收到态势感知结构传递的感知模式集Ss中的主观因素,将这些主观因素利用个人主观结构中的规则库和自学习系统综合后,生成的主观综合指标,并 传递到决策规划结构中,作为主观影响权值使用。个人主观结构自学习系统采用学习速率 快的RBF神经网络,网络的输入层由获得的主观因素(能力、性格、态度、情感和价值观)构 成,每个输入量根据当前主观因素的权值比例取值,网络的训练采用最近临聚类的算法,可 以在线自适应、学习时间短,且不需要事先确定隐含层单元的个数的优点,网络的输出量是 主观综合指标Pi。网络逼近权值的训练需要依赖于具体的战场态势和任务输入输出数据, 根据军事专家的指导,得出战场中各种主观因素可求取的主观综合指标,这样就得到RBF 网络训练所需的输入——输出对,将获得的数据分为两部分,80%的数据用于逼近网络训 练,其余的数据用于测试分析。所述的决策规划结构读取态势感知结构当前的态势信念和个人主观结构的主观 综合指标构造决策任务,运用决策准则选出当前决策规则的方案,并依据规则方案形成相 应的战术行为意图。决策规划结构首先进行状态属性判断,状态属性包括作战人员Agent 的生存状态、作战人员Agent的人员态势和作战人员Agent的个性状态,然后进行决策规则 的选择,最后依据决策规则形成对应的战术行为意图,并将战术行为意图发送到外在行为 输出结构,具体实现流程如下1)状态属性判断 作战人员Agent的生存状态判断有3种状态“存活”(Sa)、“受伤”(Sw)和“死 亡”(Sd),Sa与Sw具有不同的行为能力,当受到的攻击次数超过伤害阈值时,作战人员Agent 的状态被降级(从Sa降到Sw,或从Sw降到Sd)。当作战人员Agent受到救助后,作战人员 Agent的状态也可以从Sw恢复为Sa,但Sd状态不可恢复到Sw,并且Sd状态的作战人员Agent 在仿真平台的下一次仿真时将消失;作战人员Agent的人员态势是决策规划结构从态势感知结构输出的态势信念中 获得的,人员态势的参数主要有友军数量M、探测半径Rs、属性概率Pf、杀敌半径Rf、通讯半 径R。和移动半径Rm等;作战人员Agent的个性状态由个人主观结构输出的主观综合指标Pi值决定,Pi的 大小反映了作战人员在战场中的作战愿望的强烈程度。如果主观综合指标Pi < 0,则表明 作战人员希望远离相应的作战任务。当双方对峙时,向敌方目标移动愿望较强的Agent更 具有进攻性,其对应的主观综合指标Pi较大;反之,对应的主观综合指标Pi较小,说明其更 具有防守性。2)决策规则考虑作战人员Agent的状态属性,运用决策规则能达到既定任务,决策规则由阈 值判断,阈值是由作战人员Agent的状态属性来动态设置;设计的规则有前进规则、聚集规 贝U、作战规则和撤离规则等,具体如下前进规则当前某地周围我方作战人员Agent数量判定大于推进阈值Ta时,才允 许我方作战人员Agent向敌方作战人员Agent推进;聚集规则当前某地周围我方作战人员Agent数量判定大于聚集阈值T。,且小于 等于推进阈值Ta时,我方作战人员Agent试图聚集在一起以便向敌方作战人员Agent推 进;作战规则在我方作战人员Agent的攻击探测范围内,我方与敌方作战判断权值之差大于作战阈值Tf时,才允许我方作战人员Agent向敌方作战人员Agent推进并开始作 战。当我方作战人员Agent被允许作战后,可以向杀敌半径Rf内的所有敌方作战人员Agent 发起攻击,以属性概率Pf命中敌方作战人员Agent ;我方作战人员Agent和敌方作战人员 Agent被攻击次数超过自己的伤害阈值时,则其作战人员Agent的生存状态被降级,受伤后 的作战人员Agent的属性概率Pf会降低,影响到作战人员Agent的命中率、躲闪率和攻击 中的移动性;撤离规则在我方作战人员Agent的攻击探测范围内,我方与敌方作战判断权值 之差小于作战阈值Tf,且超过撤离阈值Td时,将命令我方作战Agent远离敌方作战Agent目 标,向己方基地方向撤离;优先级作战规则也称为任务作战规则,在我方作战人员Agent的攻击探测范围 内,判定为我方与敌方作战判断权值之差小于作战阈值Tf,但是我方作战人员Agent消灭任 务目标的权值大于任务完成阈值Tt,且我方作战人员Agent的损耗权值低于损耗阈值Tb时, 我方作战人员Agent集中火力向敌方作战人员Agent作战,并在任务完成后,按照最优的撤 离路线撤离。3)形成战术行为意图
决策规划结构根据上述的决策规则生成相应的战术行为意图,包括机动意图和作 战意图。其中前进规则、聚集规则和撤离规则生成机动意图,作战规则和优先级作战规则生 成作战意图,这两种战术行为意图将被发送到外在行为输出结构。所述的外在行为输出结构获取决策规划结构发送的战术行为意图,生成确定的可 执行外在行为,实现作战人员Agent动作反应的自主性和逼真性。引入战术动作的收益值 确定其执行的频率,在外在行为输出结构中设定概率因子P(ACi|d)。作战行为被赋予执行
的概率因子描述为〃(却 Ο = ^^')/ > ( );其中,P(AciId)表示作战人员行为的动作
意图d条件下选择动作Aci的概率,pKW >0,表示选择执行动作的收益值,较大的k值指将 较高的概率赋予某个动作,1 > 1,表示作战人员在动作意图d条件下可以选择的动作总数。 此式的P(AciId)保留在外在行为输出结构的状态集合Sa。中,动作Aci被执行的次数越多, P (Aci I d)的赋值越大,且提高相应的动作收益值 。所述的可执行外在行为包括机动行为和作战行为,其中机动行为实现作战人员 Agent的定速移动,定速移动通过加速、减速和速度大小判断实现;作战行为实现作战人员 Agent攻击目标选定、作战行为生成和评估开火效果。可执行外在行为使战场环境变化,战 场环境模块通过通讯模块实时获取战场环境信息,重新解析战场属性参数,并经战场环境 模块的战场仿真单元判定本次仿真是否完成,并在完成后得到结果状态信息,当仿真系统 进行单次仿真时,仿真过程经战场环境模块判定完成时,该结果状态信息通过通讯模块传 递给平台交互界面模块进行输出,当仿真系统进行多次仿真时,每一次仿真过程结束时,结 果状态信息均需要通过通讯模块传递到评估模块进行评估。所述的指挥协作Agent模块包括态势参数接口、态势参数缓存区和协作模式设定 单元。态势参数接口接收通讯模块发送的战场环境参数和战场属性参数,态势参数缓存区 缓存通讯模块发来的战场环境参数和战场属性参数,协作模式设定单元依据态势参数接口 接收到的参数,选定整体协作和局部协作。整体协作通过多个局部协作组合完成,整体协作与作战人员Agent的实体类型和战场的部署态势有关,不同的作战人员Agent的实体类型有着不同的决策推理规则,运行时不同的作战人员Agent的实体类型根据任务需要自组织 形成一个任务联盟;战场的部署态势决定整体协作的目的,决定了作战人员Agent将要采 取何种目的的行动。所述的整体协作和局部协作,具体为1)整体协作仿真平台确定当前所采用的部署,整体决策的制定由高层的指挥协 作Agent完成。规则如下行为推进协作此协作可使用在我方作战人员Agent没有进入与敌作战的战场范 围阶段,指挥协作Agent从仿真平台的全局态势出发,考虑当前任务的特点,要求我方作战 人员Agent向敌方作战人员Agent作协作推进,给每个我方作战人员Agent布置行进路线, 定义推进阈值Ta和聚集阈值T。,以便我方作战人员Agent在推进协作过程中,自主有效地 选择前进或聚集规则;作战部署协作此协作可使用在我方作战人员Agent进入作战的战场范围阶段, 指挥协作Agent考虑当前任务的特点,要求我方作战人员Agent向敌方作战人员Agent攻 击作战,给每类我方作战人员Agent定义推进阈值Ta、聚集阈值T。、作战阈值1、任务完成阈 值Tt和损耗阈值Tb,以便我方作战人员Agent在攻击过程中,自主有效地选择前进、聚集、 作战或任务作战规则;防御态势协作此协作可使用在我方作战人员Agent远离作战的战场范围阶段, 指挥协作Agent要求我方作战人员Agent提高防御,并向远离敌方作战人员Agent方向撤 离,给每类我方作战人员Agent定义聚集阈值T。和撤离阈值Td,以便作战人员在远离过程 中,自主有效地选择聚集或撤离规则。2)局部协作整体协作作为宏观上宽泛的指导;为使整体协作顺利实施,需提供 局部战术协作。当单个作战人员Agent行为建模模块不能实现任务仿真,便向指挥协作 Agent模块提出协作请求,由指挥协作Agent模块选择协作计划并将命令发给相关作战人 员Agent进行协作,构成了一个局部协作。对局部协作采用基于剧本的思想进行描述,用一 组数组选择值来指出事件的发生序列,每个协作计划由若干个场景组成,给出每个场景中 各Agent的行动指导。协作计划中的每个场景在虚拟战场中不一定都会出现,而需要Agent 从中根据需要进行选择。协作计划中包括战术的名称、编码、优先级、成员个数、场景数、失 败条件及战术中所包含的各场景等。所述的通讯模块是仿真平台中独立的模块,包括线程接口、接收缓存区、发送缓存 区、接收和发送进程、过滤线程、解释权和地址薄。通讯模块用于完成战场环境模块设置,以 及战场环境模块、作战人员Agent行为建模模块和指挥协作Agent模块的之间信息交互传 递。所述的通讯模块采用Agent通信语言FIPA-ACL描述战场环境模块、作战人员 Agent行为建模模块和指挥协作Agent模块之间的信息协议的交互,并定义规范的模块互 操作语言及完整的语法定义结构。在实现模块间的通信时,首先要创建消息,发送端的模块 将要发送的消息封装成FIPA-ACL格式,接收端的模块将消息拆封并执行相应的动作。所述的评估模块是仿真平台的输出后处理模块,包括状态参数读取单元、单一指 标值统计单元、效果测度计算单元和综合指标统计单元。针对平台交互界面模块设置的多次仿真,作战实时仿真过程中,状态参数读取单元通过通讯模块读取虚拟战场对抗双方的 结果状态信息,所述的结果状态信息包括存活量、射击次数、剩余弹药数量、摧毁数量等,所 述的结果状态信息传递给单一指标值统计单元进行单一指标计算,同时结果状态信息通过 效果测度计算单元计算效果测度,将效果测度传递给综合指标统计单元进行综合指标计 算,多次仿真过程全部结束后,单一指标和综合指标通过通讯模块输入到平台交互界面模 块,以曲线或表格的形式输出到评估指标输出界面。
所述的单一指标值统计单元是针对结果状态信息的物理意义,用公式r = 31/^直 接求取结果状态信息的单一指标,所述的结果状态信息的单一指标r用百分比形式表示。 公式中,Su与Sm分别是结果状态信息的结束量和初始量,如生存率是用每次仿真中战斗结 束后的个体与全部参战个体的比值,其它的结果状态信息的单一指标如射击效率、弹药消 耗率、损耗率等的求取方法与生存率的单一指标的求取方法一致,然后将单一指标在多次 仿真统一后作比较;所述效果测度计算单元计算结果状态信息的效果测度,由于结果状态值信息的各 个指标量纲不同,在求取综合指标之前,需要将结果状态信息中的各个指标转化成可以比 较的指标测度。结果状态信息的效果测度的计算具体如下生存率测度采用极大值最优因素,生存率f利用上限效果测度 C = O1; S1^ > < C么1,其中为第Π次仿真在初始参数中的某个参数k条件下的 生存值,Slfflax为第η次仿真初始参数条件下获得的生存最大值;射击效率测度采用中值最优因素,射击效率rsn利用适中效果测度rsn = min (Ssn, u0) /max (ssn,U0),0彡rsn彡1,其中min (ssn,U0)为第η次仿真初始参数和武器装备U0条件 下获得的射击最小值,max (ssn,Utl)为第η次仿真初始参数和武器装备Utl条件下获得的射击 最大值;弹药消耗率测度采用极小值最优因素,消耗率rj:、利用下限效果测度 C =\._/巧,,其中《)为第η次仿真在初始参数中的某个参数k条件下的 弹药消耗值,Scfflin为第η次仿真初始参数条件下获得的消耗最小值;毁伤程度率测度对敌毁伤程度率测度与自身生存率测度采用的方法一致,毁伤 程度率C利用上限效果测度C =《、_hf,0M 、l,其中《为第Π次仿真在初 始参数中的某个参数k条件下的对敌毁伤程度值,Sdfflax为第η次仿真初始参数条件下获得 的对敌毁伤程度最大值;攻击路径率测度攻击路径率测度与射击效率测度采用的方法一致,攻击路径率 利用适中效果测度 rpn = min (tpn,v0) /max (tpn,v0),0 ^ rpn 彡 1,其中 min (tpn,v0)为第 η
次仿真初始参数和速度Vtl条件下获得的时间最小值,max (tpn,v0)为第η次仿真初始参数和 速度%条件下获得的时间最大值。所述的综合指标统计单元进行效果测度的综合指标计算,综合指标q定义为 。其中,h是生存率测度、射击效率测度、弹药消耗率测度、毁伤程度率测度和攻击
J=I
路径率测度,kj的设定满足ki+k2+··· +k5 = 1,且k1; k2,…,k5 > 0,kj的取值与各个指标测 度h在仿真任务中的重要性相关。本发明还提出一种基于Agent技术的对抗行为建模的仿真方法,包括以下几个步骤 步骤一、仿真平台初始化;进行仿真平台初始化,激活仿真平台的平台交互界面模块、战场环境模块、作战人 员Agent行为建模模块、指挥协作Agent模块、通讯模块和评估模块。步骤二、设置初始参数;操作员通过仿真平台的平台交互界面模块的参数设置对话框设置初始参数,初始 参数通过通讯模块发送到战场环境模块,得到战场环境参数和战场属性参数;操作员设置 作战任务,作战任务决定指挥协作模块设置整体协作和局部协作的部署态势。步骤三、仿真过程;A 若步骤二中设置的初始参数中的仿真次数为1,开始单次仿真;Al 作战人员Agent行为建模模块的态势感知结构通过战场环境参数和战场属性 参数,生成观察因素感知模式集,计算观察因素量化值以及量化值的可信度,生成当前态势 信念;个人主观结构利用观察因素感知模式集的主观因素,生成主观综合指标,传递到决策 规划结构中,作为主观影响权值参数使用;决策规划结构基于态势感知结构的态势信念构 造决策任务,运用决策准则选出当前决策规则的方案,并依据规则方案形成相应的战术行 为意图;外在行为输出结构获得当前战术行为意图,并生成可执行的外在对抗行为。A2 可执行的外在对抗行为使战场环境变化,战场环境模块实时获取战场环境参 数,重新解析战场属性参数,返回步骤Al的仿真流程,同时仿真实时动画显示界面将实时 显示对抗行为,直至战场仿真单元判断单次仿真的仿真结束,得到结果状态信息,并将该结 果状态信息传递给平台交互界面模块;B 若步骤二中设置的初始参数中的仿真次数大于1,开始多次仿真;Bl 执行第i次仿真,仿真过程与步骤Al和A2相同,其中,i为多次仿真的执行次 数,i取1,2,3……η,且从i = 1开始仿真;B2 读取第i次仿真中的结果状态信息,通过评估模块计算单一指标和综合指标, 并将单一指标和综合指标通过通讯模块输入到平台交互界面模块的评估指标输出界面;B3 执行第i+Ι次仿真,重复步骤Bl B2的过程,直至战场仿真单元判断仿真次 数达到设定的仿真次数,结束多次仿真的仿真过程;步骤四、仿真全过程结束,回到仿真平台的平台交互界面模块;步骤五、操作员查看仿真平台是否执行新的仿真任务,若有新的仿真任务,执行步 骤二,开始新的仿真任务的仿真过程;若没有新的仿真任务,退出仿真平台。本发明的优点在于1.本发明实现一种基于Agent技术的对抗行为建模仿真平台,其中的战场环境模 块通过提供虚拟的战场环境,设置参战Agent个体可以进行各种可能的行动方案,从而大 大减少风险和开销,提高了大规模作战对抗训练的效益;2.建立通用对抗行为建模仿真平台,内部Agent个体数量、属性、装备系统效能和 性能的评估体系为开放式设计,可以在其中嵌入多种Agent协同作战及情感表现模型,能 实现在虚拟仿真环境下对作战系统进行技术和效能的评估;3.对抗作战研究在逼真的战场环境支持下,通过局部协作与整体协作,可以演示 和验证多Agent联合作战能力,从而研究和发展新的作战方式和方法,提高联合作战能力;
4.通用对抗行为建模仿真平台内部,Agent个体通过行为建模具备不同个性,可 模拟真实作战个体在不同战场态势下的自身的心智活动与行为决策反映,从而使作战对抗 仿真过程不仅仅是单一的机械式决策反应,更具真实性和智能性;5.本发明完整的实现虚拟战场对抗仿真中战场角色的自主性和智能性的建模,能 实现高逼真度的作战仿真,充分考虑人员的行为研究。首先,目前基于假设作战个体具备完 全的感知能力,可以从外部环境获取完整、准确的信息,这是不符合客观实际的,而本发明 中强调了人员感知行为的真实性,通过感知模式集生成、感知因素的量化和可信度分析,建 立一个在仿真条件下可定量评估作战个体的感知能力的可计算的仿真模型;其次,为创建 真实可信的战场对抗行为模型,个人的能力、情感和性格等自身主观状态起着重要作用,本 发明通过神经网络逼近学习算法获得主观综合指标;最后,发明中外在行为输出结构引入 执行概率因子,实现模拟作战行为的熟练程度。



图1 本发明提出的基于Agent技术的对抗行为建模仿真平台的结构示意图;图2 本发明中作战人员Agent行为建模模块的结构图;图3 本发明中作战人员Agent行为生成过程的流程图;图4 本发明中评估模块的内部参数传递流程图;图5 本发明提出的基于Agent技术的对抗行为建模仿真方法的流程图。
具体实施例方式下面将结合附图和实施例对本发明作进一步的详细说明。本发明提出一种基于Agent技术的对抗行为建模仿真平台,如图1所示,所述的仿 真平台主要包括平台交互界面模块、战场环境模块、作战人员Agent行为建模模块、指挥协 作Agent模块、通讯模块和评估模块。所述的战场环境模块通过通讯模块,从平台交互界面模块获取初始参数信息,并 将该输出参数信息输出给指挥协作Agent模块;指挥协作Agent模块根据初始参数信息来 明确作战意图和任务,指挥协作Agent模块再将作战意图和任务分配到作战人员Agent行 为建模模块,作战人员Agent行为建模模块依据自身的态势感知结构、决策规划结构、个人 主观结构和外在行为输出结构,生成可执行的外在对抗行为。实现作战任务仿真,并由平台 交互界面模块进行实时显示。完成仿真后,战场环境模块将单次仿真产生的结果状态信息 输出到仿真平台交互界面上进行显示;平台交互界面模块还可以设置作战任务多次仿真, 将结果状态信息输出到评估模块计算指标效果评估,再将评估后的单一指标和综合指标通 过通讯模块发送到平台交互界面模块进行显示。通讯模块实现意图、感知、决策和行为等信 息参数的传输。所述的平台交互界面模块包括参数设置对话框、仿真实时动画显示界面、状态参 数显示对话框和评估指标输出界面。操作员通过参数设置对话框设置初始参数,包括战场 实际环境参数、己方和敌方人员参数、武器装备参数、仿真次数和评估指标参数,设置后生 成的初始参数,通过通讯模块发送到战场环境模块;仿真实时动画显示界面将作战任务在 作战人员Agent行为建模模块的仿真过程中对抗双方作战行为进行实时显示;作战任务仿真完成后,状态参数显示对话框根据用户要求选择性输出对抗双方的位置、速度、武器状态 和存活率等结果状态信息;评估指标输出界面根据用户要求输出单一指标和综合指标。所述的战场环境模块包括战场参数线程接口单元、解释单元、战场仿真单元和属 性参数单元。所述的战场参数线程接口单元读取平台交互界面模块经通讯模块向其发送的 初始参数,通过解释单元将初始参数解析为虚拟战场中的战场环境参数,所述的战场环境 参数主要包括战场环境信息(如地形、天气等)、己方作战人员Agent自身的状态(如方向、 速度、位置和武器状态等)与敌方的相关状态和己方的主观因素等。战场仿真单元通过判 定战场环境参数设定执行标记因子为1或0, 选择执行或结束仿真过程。当执行标记因子 设定为1时,属性参数单元利用战场环境参数,解析作战仿真所必需的战场属性参数,主要 包括探测半径、武器作战杀伤半径、通信半径和移动半径,并将战场属性参数和战场环境参 数通过通讯模块发送给作战人员Agent行为建模模块;当战场仿真单元的执行标记因子设 定为0时,可执行外在行为不再使战场环境参数变化,单次仿真过程完成,获得结果状态信 息;若仿真为单次仿真,结果状态信息通过通讯模块传递给平台交互界面模块的状态参数 显示对话框进行显示;若仿真为多次仿真,将结果状态信息通过通讯模块传递给评估模块 计算单一指标和综合指标,再将单一指标和综合指标通过通讯模块传递回战场环境模块中 的战场仿真单元,最终判定仿真次数是否达到预设的多次仿真的次数,若没有达到多次仿 真次数,战场环境模块需重新读取初始参数,并将执行标记因子设定为1,进行下一次仿真。 若达到多次仿真次数,战场仿真单元结束多次仿真全过程,并将每次仿真过程的单一指标 和综合指标通过通讯模块传递到平台交互界面的评估指标输出界面进行输出。所述的作战人员Agent行为建模模块,如图2所示,包括态势感知结构、决策规划 结构、个人主观结构和外在行为输出结构。态势感知结构接收通讯模块发送的战场环境参 数和战场属性参数,生成观察因素感知模式集,并计算观察因素量化值以及分析量化值的 可信度,合并观察因素量化值以及量化值的可信度形成当前的态势信念;个人主观结构利 用观察因素感知模式集的主观因素,生成主观综合指标,传递到决策规划结构中;决策规 划结构基于态势感知结构的态势信念构造决策任务,运用决策准则选出当前决策规则的方 案,并依据规则方案形成相应的战术行为意图;外在行为输出结构获得当前战术行为意图 后,生成可执行外在对抗行为,并经战场环境模块的战场仿真单元判定本次仿真是否完成, 并在完成后生成结果状态信息,并将该结果状态信息通讯模块传递给平台交互界面模块进 行输出或评估模块进行评估,且平台交互界面的仿真实时动画显示界面将作战任务在作战 人员Agent行为建模模块的仿真过程中对抗双方作战行为进行实时显示。所述的态势感知结构的实现过程包括以下四个过程,如图3所示,分别是生成观 察因素感知模式集、计算观察因素量化值、分析量化值的可信度和形成当前态势信念。具体 如下1)观察因素感知模式集生成态势感知结构通过通讯模块获取战场环境参数和战场属性参数,包括战场环境信 息(如地形、天气等)、己方作战人员Agent自身的状态(如方向、速度、位置和武器状态等) 与敌方的相关信息、己方的主观因素、探测半径、武器作战杀伤半径等,生成观察因素感知 模式集Ss。2)计算观察因素量化值
设战场环境的观察因素中第i因素的预设模式和感知模式分别是 ^=[ΑρΑ2,···,Α ···,Α ,Γ (e,。e£。 ,)和< 丨’如,…’%’…,礼,Γ,其中,E。ut 是作战人员预 设观察因素感知集,Ss为观察因素感知模式集,Pil Pin与qn qin是第i因素的预设模 式和感知模式的特征量,η为第i因素的预设模式和感知模式的特征量的数量,由第i因素 具体决定,以观察因素中的位置为例,由3个特征量(空间位置的3个坐标量)可以确定,
即η = 3。观察因素中第i因素的量化值Vi定义为v, =eXpp^MA1,4)1,其中,Pik和
V n k = \J
Qik是第i因素的预设模式和感知模式的特征量中对应值,Wk为加权系数,满足0 < Wk < 1, k = 1,2,3, ...,n&Wl+w2+...+wn = 1 ;0 < Vi ^ l,vi越大,观察因素中第i因素的感知模 式越接近预设模式,就会增大观察因素中第i因素的量化值Vi。3)量化值的可信度分析态势感知结构的态势信念的产生依赖于观察因素感知模式集Ss中的观察因素,这 些观察因素之间的关系影响量化值的可信度。设集合·Κ,4…,e"1是相互影响的观察因素感
知模式集合,则观察因素量化值的可信度m定义为=(η>1)。其中,1^的设定满
足1^+1^+···+!^ = !!,且k1; k2,…,kn>0,Iii的取值与<相关。可以根据观察因素不同,适 当将观察因素感知模式集合中的<分类集结,可以降低观察因素量化值的可信度m的计算 复杂度。4)形成当前态势信念态势感知结构形成当前态势信念是通过综合观察因素量化值和量化值的可信度, 生成观察因素量化集合,将此集合与先验态势信念作证据合并,计算获得当前的态势信念。所述的个人主观结构收到态势感知结构传递的感知模式集Ss中的主观因素,将这 些主观因素利用个人主观结构中的规则库和自学习系统综合后,生成的主观综合指标,并 传递到决策规划结构中,作为主观影响权值使用。个人主观结构自学习系统采用学习速率 快的RBF神经网络,网络的输入层由获得的主观因素(能力、性格、态度、情感和价值观)构 成,每个输入量根据当前主观因素的权值比例取值,网络的训练采用最近临聚类的算法,可 以在线自适应、学习时间短,且不需要事先确定隐含层单元的个数的优点,网络的输出量是 主观综合指标Pi。网络逼近权值的训练需要依赖于具体的战场态势和任务输入输出数据, 根据军事专家的指导,得出战场中各种主观因素可求取的主观综合指标,这样就得到RBF 网络训练所需的输入——输出对,将获得的数据分为两部分,80%的数据用于逼近网络训 练,其余的数据用于测试分析。所述的决策规划结构读取态势感知结构当前的态势信念和个人主观结构的主观 综合指标构造决策任务,运用决策准则选出当前决策规则的方案,并依据规则方案形成相 应的战术行为意图。决策规划结构首先进行状态属性判断,状态属性包括作战人员Agent 的生存状态、作战人员Agent的人员态势和作战人员Agent的个性状态,然后进行决策规则 的选择,最后依据决策规则形成对应的战术行为意图,并将战术行为意图发送到外在行为 输出结构,具体实现流程如下1)状态属性判断 作战人员Agent的生存状态判断有3种状态“存活”(Sa)、“受伤” (Sw)和“死亡”(Sd),Sa与Sw具有不同的行为能力,当受到的攻击次数超过一定阈值时,作战人员Agent 的状态被降级(从Sa降到Sw,或从Sw降到Sd)。当作战人员Agent受到救助后,作战人员 Agent的状态也可以从Sw恢复为Sa,但Sd状态不可恢复到Sw,并且Sd状态的作战人员Agent 在仿真平台的下一次仿真时将消失;作战人员 Agent的人员态势是决策规划结构从态势感知结构输出的态势信念中 获得的,人员态势的参数主要有友军数量M、探测半径Rs、属性概率Pf、杀敌半径Rf、通讯半 径R。和移动半径Rm等;作战人员Agent的个性状态由个人主观结构输出的主观综合指标Pi值决定,Pi的 大小反映了作战人员在战场中的作战愿望的强烈程度。如果主观综合指标Pi < 0,则表明 作战人员希望远离相应的作战任务。当双方对峙时,向敌方目标移动愿望较强的Agent更 具有进攻性,其对应的主观综合指Spi较大;反之,对应的主观综合指Spi较小,说明其更 具有防守性。2)决策规则考虑作战人员Agent的状态属性,运用决策规则能达到既定任务,决策规则由阈 值判断,阈值是由作战人员Agent的状态属性来动态设置;设计的规则有前进规则、聚集规 贝U、作战规则和撤离规则等,如图3所示,具体如下前进规则当前某地周围我方作战人员Agent数量判定大于推进阈值Ta时,才允 许我方作战人员Agent向敌方作战人员Agent推进;聚集规则当前某地周围我方作战人员Agent数量判定大于聚集阈值T。,且小于 等于推进阈值Ta时,我方作战人员Agent试图聚集在一起以便向敌方作战人员Agent推 进;作战规则在我方作战人员Agent的攻击探测范围内,我方与敌方作战判断权值 之差大于作战阈值Tf时,才允许我方作战人员Agent向敌方作战人员Agent推进并开始作 战。当我方作战人员Agent被允许作战后,可以向杀敌半径Rf内的所有敌方作战人员Agent 发起攻击,以属性概率Pf命中敌方作战人员Agent ;我方作战人员Agent和敌方作战人员 Agent被攻击次数超过自己的伤害阈值时,则其作战人员Agent的生存状态被降级,受伤后 的作战人员Agent的属性概率Pf会降低,影响到作战人员Agent的命中率、躲闪率和攻击 中的移动性;撤离规则在我方作战人员Agent的攻击探测范围内,我方与敌方作战判断权值 之差小于作战阈值Tf,且超过撤离阈值Td时,将命令我方作战Agent远离敌方作战Agent目 标,向己方基地方向撤离;优先级作战规则也称为任务作战规则,在我方作战人员Agent的攻击探测范围 内,判定为我方与敌方作战判断权值之差小于作战阈值Tf,但是我方作战人员Agent消灭任 务目标的权值大于任务完成阈值Tt,且我方作战人员Agent的损耗权值低于损耗阈值Tb时, 我方作战人员Agent集中火力向敌方作战人员Agent作战,并在任务完成后,按照最优的撤 离路线撤离。3)形成战术行为意图决策规划结构根据上述的决策规则生成相应的战术行为意图,包括机动意图和作 战意图。其中前进规则、聚集规则和撤离规则生成机动意图,作战规则和优先级作战规则生成作战意图,这两种战术行为意图将被发送到外在行为输出结构。所述的外在行为输出结构获取决策规划结构发送的战术行为意图,生成确定的可 执行外在行为,实现作战人员Agent动作反应的自主性和逼真性。引入战术动作的收益值 确定其执行的频率,在外在行为输出结构中设定概率因子P(ACi|d)。作战行为被赋予执行
的概率因子描述为:P、Ac,\d、= lMA ±k^ ;其中,P(AciId)表示作战人员行为的动作
;=1
意图d条件下选择动作Aci的概率,#(〃。) >0,表示选择执行动作的收益值,较大的k值指将 较高的概率赋予某个动作,1 > 1,表示作战人员在动作意图d条件下可以选择的动作总数。 此式的P(AciId)保留在外在行为输出结构的状态集合Sa。中,动作Aci被执行的次数越多, P (Aci I d)的赋值越大,且提高相应的动作收益值一〃4。所述的可执行外在行为包括机动行为和作战行为,其中机动行为实现作战人员 Agent的定速移动,定速移动通过加速、减速和速度大小判断实现;作战行为实现作战人员 Agent攻击目标选定、作战行为生成和评估开火效果。可执行外在行为使战场环境变化,战 场环境模块通过通讯模块实时获取战场环境信息,重新解析战场属性参数,并经战场环境 模块的战场仿真单元判定本次仿真是否完成,并在完成后得到结果状态信息,当仿真系统 进行单次仿真时,仿真过程经战场环境模块判定完成时,该结果状态信息通过通讯模块传 递给平台交互界面模块进行输出,当仿真系统进行多次仿真时,每一次仿真过程结束时,结 果状态信息均需要通过通讯模块传递到评估模块进行评估。所述的指挥协作Agent模块包括态势参数接口、态势参数缓存区和协作模式设定 单元。态势参数接口接收通讯模块发送的战场环境参数和战场属性参数,态势参数缓存区 缓存通讯模块发来的战场环境参数和战场属性参数,协作模式设定单元依据态势参数接口 接收到的参数,选定整体协作和局部协作。整体协作通过多个局部协作组合完成,整体协作 与作战人员Agent的实体类型和战场的部署态势有关,不同的作战人员Agent的实体类型 有着不同的决策推理规则,运行时不同的作战人员Agent的实体类型根据任务需要自组织 形成一个任务联盟;战场的部署态势决定整体协作的目的,决定了作战人员Agent将要采 取何种目的的行动。所述的整体协作和局部协作,具体为1)整体协作仿真平台确定当前所采用的部署,整体决策的制定由高层的指挥协 作Agent完成。规则如下行为推进协作此协作可使用在我方作战人员Agent没有进入与敌作战的战场范 围阶段,指挥协作Agent从仿真平台的全局态势出发,考虑当前任务的特点,要求我方作战 人员Agent向敌方作战人员Agent作协作推进,给每个我方作战人员Agent布置行进路线, 定义推进阈值Ta和聚集阈值T。,以便我方作战人员Agent在推进协作过程中,自主有效地 选择前进或聚集规则;作战部署协作此协作可使用在我方作战人员Agent进入作战的战场范围阶段, 指挥协作Agent考虑当前任务的特点,要求我方作战人员Agent向敌方作战人员Agent攻 击作战,给每类我方作战人员Agent定义推进阈值Ta、聚集阈值T。、作战阈值1、任务完成阈 值Tt和损耗阈值Tb,以便我方作战人员Agent在攻击过程中,自主有效地选择前进、聚集、 作战或任务作战规则;
防御态势协作此协作可使用在我方作战人员Agent远离作战的战场范围阶段,指挥协作Agent要求我方作战人员Agent提高防御,并向远离敌方作战人员Agent方向撤 离,给每类我方作战人员Agent定义聚集阈值T。和撤离阈值Td,以便作战人员在远离过程 中,自主有效地选择聚集或撤离规则。2)局部协作整体协作作为宏观上宽泛的指导;为使整体协作顺利实施,需提供 局部战术协作。当单个作战人员Agent行为建模模块不能实现任务仿真,便向指挥协作 Agent模块提出协作请求,由指挥协作Agent模块选择协作计划并将命令发给相关作战人 员Agent进行协作,构成了一个局部协作。对局部协作采用基于剧本的思想进行描述,用一 组数组选择值来指出事件的发生序列,每个协作计划由若干个场景组成,给出每个场景中 各Agent的行动指导。协作计划中的每个场景在虚拟战场中不一定都会出现,而需要Agent 从中根据需要进行选择。协作计划中包括战术的名称、编码、优先级、成员个数、场景数、失 败条件及战术中所包含的各场景等。所述的通讯模块是仿真平台中独立的模块,包括线程接口、接收缓存区、发送缓存 区、接收和发送进程、过滤线程、解释权和地址薄。通讯模块用于完成战场环境模块设置,以 及战场环境模块、作战人员Agent行为建模模块和指挥协作Agent模块的之间信息交互传 递。所述的通讯模块采用Agent通信语言FIPA-ACL描述战场环境模块、作战人员 Agent行为建模模块和指挥协作Agent模块之间的信息协议的交互,并定义规范的模块互 操作语言及完整的语法定义结构。在实现模块间的通信时,首先要创建消息,发送端的模块 将要发送的消息封装成FIPA-ACL格式,接收端的模块将消息拆封并执行相应的动作。所述的评估模块是仿真平台的输出后处理模块,如图4所示,包括状态参数读取 单元、单一指标值统计单元、效果测度计算单元和综合指标统计单元。针对平台交互界面模 块设置的多次仿真,作战实时仿真过程中,状态参数读取单元通过通讯模块读取虚拟战场 对抗双方的结果状态信息,所述的结果状态信息包括存活量、射击次数、剩余弹药数量、摧 毁数量等,所述的结果状态信息传递给单一指标值统计单元进行单一指标计算,同时结果 状态信息通过效果测度计算单元计算效果测度,将效果测度传递给综合指标统计单元进行 综合指标计算,多次仿真过程全部结束后,单一指标和综合指标通过通讯模块输入到平台 交互界面模块,以曲线或表格的形式输出到评估指标输出界面。所述的单一指标值统计单元是针对结果状态信息的物理意义,用公式r = 81/\直 接求取结果状态信息的单一指标,所述的结果状态信息的单一指标r用百分比形式表示。 公式中,Su与Sm分别是结果状态信息的结束量和初始量,如生存率是用每次仿真中战斗结 束后的个体与全部参战个体的比值,其它的结果状态信息的单一指标如射击效率、弹药消 耗率、损耗率等的求取方法与生存率的单一指标的求取方法一致,然后将单一指标在多次 仿真统一后作比较;所述效果测度计算单元计算结果状态信息的效果测度,由于结果状态值信息的各 个指标量纲不同,在求取综合指标之前,需要将结果状态信息中的各个指标转化成可以比 较的指标测度。综合指标的计算具体如下生存率测度采用极大值最优因素,生存率f利用上限效果测度 ^ =^ IS丨赚’ Simwi > st\0< C < 1,其中《)为第η次仿真在初始参数中的某个参数k条件下的生存值,Slfflax为第η次仿真初始参数条件下获得的生存最大值;射击效率测度采用中值最优因素,射击效率rsn利用适中效果测度rsn = min (Ssn, u0) /max (ssn,U0),0彡rsn彡1,其中min (ssn,U0)为第η次仿真初始参数和武器装备U0条件 下获得的射击最小值,max (ssn,Utl)为第η次仿真初始参数和武器装备Utl条件下获得的射击 最大值;弹药消耗率测度采用极小值最优因素,消耗率C利用下限效果测度 -ScrmJs^, Scmm <s^,0<r^<l,其中W为第η次仿真在初始参数中的某个参数k条件下的 弹药消耗值,Scfflin为第η次仿真初始参数条件下获得的消耗最小值;毁伤程度率测度对敌毁伤程度率测度与自身生存率测度采用的方法一致,毁伤 程度率C利用上限效果测度C =《、_,,其中€为第η次仿真在初 始参数中的某个参数k条件下的对敌毁伤程度值,Sdfflax为第η次仿真初始参数条件下获得 的对敌毁伤程度最大值;攻击路径率测度攻击路径率测度与射击效率测度采用的方法一致,攻击路径率 4”利用适中效果测度 rpn = min (tpn,v0) /max (tpn,v0), 0 ^ rpn 彡 1,其中 min (tpn,v0)为第 η 次仿真初始参数和速度Vtl条件下获得的时间最小值,max (tpn,v0)为第η次仿真初始参数和 速度%条件下获得的时间最大值。所述的综合指标统计单元进行效果测度的综合指标计算,综合指标q定义为 ^ik/.,。其中,&是生存率测度、射击效率测度、弹药消耗率测度、毁伤程度率测度和攻击
J=I
路径率测度,kj的设定满足ki+k2+··· +k5 = 1,且k1; k2,…,k5 > 0,kj的取值与各个指标测 度h在仿真任务中的重要性相关。本发明还提出一种基于Agent技术的对抗行为建模的仿真方法,如图5所示,包括 以下几个步骤步骤一、仿真平台初始化;进行仿真平台初始化,激活仿真平台的平台交互界面模块、战场环境模块、作战人 员Agent行为建模模块、指挥协作Agent模块、通讯模块和评估模块。步骤二、设置初始参数;操作员通过仿真平台的平台交互界面模块的参数设置对话框设置初始参数,初始 参数通过通讯模块发送到战场环境模块,得到战场环境参数和战场属性参数;操作员设置 作战任务,作战任务决定指挥协作模块设置整体协作和局部协作的部署态势。步骤三、仿真过程;A 若步骤二中设置的初始参数中的仿真次数为1,开始单次仿真;Al 作战人员Agent行为建模模块的态势感知结构通过战场环境参数和战场属性 参数,生成观察因素感知模式集,计算观察因素量化值以及量化值的可信度,生成当前态势 信念;个人主观结构利用观察因素感知模式集的主观因素,生成主观综合指标,传递到决策 规划结构中,作为主观影响权值参数使用;决策规划结构基于态势感知结构的态势信念构 造决策任务,运用决策准则选出当前决策规则的方案,并依据规则方案形成相应的战术行 为意图;外在行为输出结构获得当前战术行为意图,并生成可执行的外在对抗行为。A2 可执行的外在对抗行为使战场环境变化,战场环境模块实时获取战场环境参数,重新解析战场属性参数,返回步骤Al的仿真流程,同时仿真实时动画显示界面将实时 显示对抗行为,直至战场仿真单元判断单次仿真的仿真结束,得到结果状态信息,并将该结 果状态信息传递给平台交互界面模块;B 若步骤二中设置的初始参数中的仿真次数大于1,开始多次仿真;Bl 执行第i次仿真,仿真过程与步骤Al和A2相同,其中,i为多次仿真的执行次 数,i取1,2,3……η,且从i = 1开始仿真;B2 读取第i次仿真中的结果状态信息,通过评估模块计算单一指标和综合指标, 并将单一指标和综合指标通过通讯模块输入到平台交互界面模块的评估指标输出界面;
B3 执行第i+Ι次仿真,重复步骤Bl B2的过程,直至战场仿真单元判断仿真次 数达到设定的仿真次数,结束多次仿真的仿真过程;步骤四、仿真全过程结束,回到仿真平台的平台交互界面模块;步骤五、操作员查看仿真平台是否执行新的仿真任务,若有新的仿真任务,执行步 骤二,开始新的仿真任务的仿真过程;若没有新的仿真任务,退出仿真平台。
权利要求
一种基于Agent技术的对抗行为建模仿真平台,其特征在于包括平台交互界面模块、战场环境模块、作战人员Agent行为建模模块、指挥协作Agent模块、通讯模块和评估模块;所述的平台交互界面模块包括参数设置对话框、仿真实时动画显示界面、状态参数显示对话框和评估指标输出界面;操作员通过参数设置对话框设置初始参数,包括战场实际环境参数、己方和敌方人员参数、武器装备参数、仿真次数和评估指标参数,并将该初始参数通过通讯模块发送到战场环境模块;仿真实时动画显示界面将仿真过程中对抗双方作战行为进行实时显示,仿真过程完成后,状态参数显示对话框选择性输出仿真过程中的结果状态信息,评估指标输出界面选择性输出单一指标和综合指标;所述的战场环境模块包括战场参数线程接口单元、解释单元、战场仿真单元和属性参数单元,所述的战场参数线程接口单元读取平台交互界面模块向其发送的初始参数,通过解释单元将初始参数解析为虚拟战场中的战场环境参数;战场仿真单元通过判定战场环境参数,设定执行标记因子为1或0,来选择执行或结束仿真过程;当战场仿真单元的执行标记因子设定为1时,属性参数单元利用战场环境参数解析获得战场属性参数,并将战场属性参数和战场环境参数通过通讯模块发送给作战人员Agent行为建模模块;当战场仿真单元的执行标记因子设定为0时,战场环境参数不再变化,本次仿真过程结束,战场仿真单元获得结果状态信息,根据设置的初始参数中的仿真次数的不同,进行如下动作A仿真为单次仿真时,将结果状态信息通过通讯模块传递给平台交互界面模块进行显示;B仿真为多次仿真时,将每次仿真结束后的结果状态信息通过通讯模块传递给评估模块,并判定仿真次数是否达到预设的多次仿真次数,当没有达到多次仿真次数时,战场环境模块重新读取初始参数,并将执行标记因子设定为1,进行下次仿真,直至执行仿真次数达到设定的多次仿真次数,战场仿真单元结束多次仿真全过程,并将每次仿真过程的单一指标和综合指标通过通讯模块传递到平台交互界面的评估指标输出界面进行输出;所述的作战人员Agent行为建模模块包括态势感知结构、决策规划结构、个人主观结构和外在行为输出结构;所述的态势感知结构接收通讯模块发送的战场环境参数和战场属性参数,生成观察因素感知模式集,计算观察因素量化值以及分析量化值的可信度,合并观察因素量化值以及量化值的可信度形成当前的态势信念,具体的实现过程如下A观察因素感知模式集生成态势感知结构通过通讯模块获取战场环境参数和战场属性参数,生成观察因素感知模式集Ss;B计算观察因素量化值设战场环境的观察因素中第i观察因素的预设模式和感知模式分别是和其中,Eout是作战人员预设观察因素感知集,Ss为观察因素感知模式集,pi1~pin与qi1~qin是第i观察因素的预设模式和感知模式的特征量,n为第i观察因素的预设模式和感知模式的特征量的数量,由第i观察因素具体决定,观察因素中第i观察因素的量化值vi定义为其中,pik和qik是第i观察因素的预设模式和感知模式的特征量中对应值,wk为加权系数,满足0<wk<1,k=1,2,3,…,n及w1+w2+…+wn=1,0<vi≤1;C量化值的可信度分析态势感知结构的态势信念产生依赖于观察因素感知模式集Ss中的观察因素量化值的可信度m,可信度m定义为n≥1,ki满足k1+k2+…+kn=n,且k1,k2,…,kn>0,集合是相互影响的观察因素感知模式集合,ki的取值与相关;D形成当前态势信念综合观察因素量化值和量化值的可信度生成观察因素量化集合,将此集合与先验态势信念作证据合并,计算获得当前的态势信念;所述的个人主观结构收到态势感知结构传递的感知模式集Ss中的主观因素,将这些主观因素利用个人主观结构中的规则库和自学习系统综合后,生成主观综合指标,并传递到决策规划结构中;个人主观结构中的自学习系统采用学习速率快的RBF神经网络,网络的输入层由获得的主观因素构成,每个输入量根据当前主观因素的权值比例取值,网络的输出量是主观综合指标pi;网络逼近权值的训练依赖于战场态势和任务输入输出数据,得出战场中各种主观因素可求取的主观综合指标;所述的决策规划结构读取态势感知结构当前的态势信念和个人主观结构的主观综合指标构造决策任务,运用决策准则选出当前决策规则的方案,并依据规则方案形成相应的战术行为意图;决策规划结构首先进行状态属性判断,然后进行决策规则的选择,最后依据决策规则形成对应的战术行为意图,并将战术行为意图发送到外在行为输出结构,具体实现流程如下A状态属性判断状态属性判断包括作战人员Agent的生存状态、作战人员Agent的人员态势和作战人员Agent的个性状态的判断;B决策规则根据作战人员Agent的状态属性,运用决策规则能达到既定任务,决策规则由阈值判断,阈值是由作战人员Agent的状态属性来动态设置;设计的决策规则有前进规则、聚集规则、作战规则、撤离规则和优先级作战规则;C形成战术行为意图;决策规划结构根据决策规则生成战术行为意图,包括机动意图和作战意图;所述的前进规则、聚集规则和撤离规则生成机动意图,所述的作战规则和优先级作战规则生成作战意图,机动意图和作战意图通过通讯模块发送到外在行为输出结构;所述的外在行为输出结构获取决策规划结构发送的战术行为意图,生成确定的可执行外在行为,实现作战人员Agent动作反应的自主性和逼真性;引入战术动作的收益值确定其执行的频率,在外在行为输出结构中设定概率因子P(Aci|d),作战行为被赋予执行的概率因子描述为其中,P(Aci|d)表示作战人员行为的动作意图d条件下选择动作Aci的概率,表示选择执行动作的收益值,k值越大,表明赋予某个动作的概率越大,l≥1,表示作战人员在动作意图d条件下可以选择的动作总数;所述的可执行外在行为使战场环境变化,战场环境模块通过通讯模块实时获取战场环境信息,重新解析战场属性参数,得到结果状态信息,当仿真系统进行单次仿真时,如果仿真过程经战场环境模块判定完成,则结果状态信息通过通信模块传递给平台交互界面模块进行输出,当仿真系统进行多次仿真时,每一次仿真过程结束时,结果状态信息通过通讯模块传递到评估模块进行评估;所述的指挥协作Agent模块包括态势参数接口、态势参数缓存区和协作模式设定单元;所述的态势参数接口接收通讯模块发送的战场环境参数和战场属性参数,态势参数缓存区缓存通讯模块发来的战场环境参数和战场属性参数,协作模式设定单元依据态势参数接口接收到的战场环境参数和战场属性参数,选定整体协作和局部协作;整体协作通过多个局部协作组合完成,整体协作与作战人员Agent的实体类型和战场的部署态势有关;所述的通讯模块用于完成战场环境模块设置,以及战场环境模块、作战人员Agent行为建模模块和指挥协作Agent模块的之间信息交互传递;通讯模块采用Agent通信语言FIPA ACL描述战场环境模块、作战人员Agent行为建模模块和指挥协作Agent模块之间的信息协议的交互,并定义规范互操作语言及完整的语法定义结构;所述的评估模块是仿真平台的输出后处理模块,包括状态参数读取单元、单一指标值统计单元、效果测度计算单元和综合指标统计单元;当平台交互界面模块设置的仿真为多次仿真,状态参数读取单元通过通讯模块读取结果状态信息,将该结果状态信息传递给单一指标值统计单元进行单一指标计算,同时该结果状态信息还通过效果测度计算单元计算效果测度,将效果测度传递给综合指标统计单元进行综合指标计算,多次仿真的仿真过程全部结束后,单一指标和综合指标通过通讯模块输入到平台交互界面模块,以曲线或表格的形式输出到评估指标输出界面。FSA00000266788700021.tif,FSA00000266788700022.tif,FSA00000266788700023.tif,FSA00000266788700024.tif,FSA00000266788700025.tif,FSA00000266788700026.tif,FSA00000266788700027.tif,FSA00000266788700031.tif,FSA00000266788700032.tif
2.根据权利要求1所述的仿真平台,其特征在于所述的作战人员Agent的生存状态 判断有3种状态“存活”Sa、“受伤”Sw和“死亡”Sd,Sa与Sw具有不同的行为能力,当受到的 攻击次数超过伤害阈值时,作战人员Agent的状态被降级;当作战人员Agent受到救助后, 作战人员Agent的状态从Sw恢复为Sa,Sd状态不能恢复到Sw,并且Sd状态的作战人员Agent 在仿真平台的下一次仿真时将消失;所述的作战人员Agent的人员态势是决策规划结构从态势感知结构输出的态势信念 中获得的,人员态势的参数包括友军数量M、探测半径Rs、属性概率Pf、杀敌半径Rf、通讯半 径R。和移动半径Rm ;所述的作战人员Agent的个性状态由个人主观结构输出的主观综合指标Pi值决定,Pi 的大小反映了作战人员在战场中的作战愿望的强烈程度;主观综合指Spi < 0,则表明作 战人员希望远离相应的作战任务;当双方对峙时,向敌方目标移动愿望较强的Agent更具 有进攻性,其对应的主观综合指标Pi较大;反之,对应的主观综合指Spi较小。
3.根据权利要求1所述的仿真平台,其特征在于所述的前进规则指当前某地周围我 方作战人员Agent数量判定大于推进阈值Ta时,才允许我方作战人员Agent向敌方作战人 员Agent推进;所述的聚集规则是指当前某地周围我方作战人员Agent数量判定大于聚集阈值T。, 且小于等于推进阈值Ta时,我方作战人员Agent试图聚集在一起以便向敌方作战人员Agent推进;所述的作战规则是指在我方作战人员Agent的攻击探测范围内,我方与敌方作战判 断权值之差大于作战阈值Tf时,才允许我方作战人员Agent向敌方作战人员Agent推进并 开始作战;我方作战人员Agent被允许作战后,向杀敌半径Rf内的所有敌方作战人员Agent 发起攻击,以属性概率Pf命中敌方作战人员Agent ;我方作战人员Agent和敌方作战人员 Agent被攻击次数超过自己的伤害阈值时,则其作战人员Agent的生存状态被降级,受伤后 的作战人员Agent的属性概率Pf会降低,影响到作战人员Agent的命中率、躲闪率和攻击 中的移动性;所述的撤离规则是指在我方作战人员Agent的攻击探测范围内,我方与敌方作战判 断权值之差小于作战阈值Tf,且超过撤离阈值Td时,将命令我方作战Agent远离敌方作战 Agent目标,向己方基地方向撤离;所述的优先级作战规则也称为任务作战规则,是指在我方作战人员Agent的攻击探测 范围内,判定为我方与敌方作战判断权值之差小于作战阈值Tf,且我方作战人员Agent消灭 任务目标的权值大于任务完成阈值Tt,且我方作战人员Agent的损耗权值低于损耗阈值Tb 时,我方作战人员Agent集中火力向敌方作战人员Agent作战,并在任务完成后,按照最优 的撤离路线撤离。
4.根据权利要求1所述的仿真平台,其特征在于所述的可执行外在行为包括机动行 为和作战行为,所述的机动行为实现作战人员Agent的定速移动,定速移动通过加速、减速 和速度大小判断实现;所述的作战行为实现作战人员Agent攻击目标选定、作战行为生成 和评估开火效果。
5.根据权利要求1所述的仿真平台,其特征在于所述的整体协作和局部协作,具体实 现过程为A 整体协作仿真平台确定当前所采用的部署,整体决策的制定由高层的指挥协作 Agent完成,规则如下行为推进协作此协作使用在我方作战人员Agent没有进入与敌作战的战场范围阶 段,指挥协作Agent从仿真平台的全局态势出发,考虑当前任务的特点,要求我方作战人员 Agent向敌方作战人员Agent作协作推进,给每个我方作战人员Agent布置行进路线,定义 推进阈值Ta和聚集阈值Ts,以便我方作战人员Agent在推进协作过程中,自主有效地选择 前进或聚集规则;作战部署协作此协作使用在我方作战人员Agent进入作战的战场范围阶段,指挥协 作Agent考虑当前任务的特点,要求我方作战人员Agent向敌方作战人员Agent攻击作战, 给我方作战人员Agent定义推进阈值Ta、聚集阈值T。、作战阈值Tf、任务完成阈值Tt和损耗 阈值Tb,以便我方作战人员Agent在攻击过程中,自主有效地选择前进、聚集、作战或任务作 战规则;防御态势协作此协作使用在我方作战人员Agent远离作战的战场范围阶段,指挥协 作Agent要求我方作战人员Agent提高防御,并向远离敌方作战人员Agent方向撤离,给我 方作战人员Agent定义聚集阈值T。和撤离阈值Td,以便作战人员在远离过程中,自主有效 地选择聚集或撤离规则;B 局部协作当单个作战人员Agent行为建模模块不能实现任务仿真,便向指挥协作Agent提出协作请求,由指挥协作Agent选择协作计划并将命令发给相关作战人员Agent进 行协作,构成了一个局部协作;对局部协作采用基于剧本的思想进行描述,用一组数组选择 值来指出事件的发生序列,每个协作计划由若干个场景组成,给出每个场景中各Agent的 行动指导,协作计划中的每个场景在虚拟战场中的出现由Agent进行选择;协作计划中包 括战术的名称、编码、优先级、成员个数、场景数、失败条件及战术中所包含的各场景。
6.根据权利要求1所述的仿真平台,其特征在于所述的单一指标值统计单元是针对 各种结果状态信息的物理意义,用公式r = su/sm直接求取结果状态值的单一指标,该结果 状态值的单一指标r用百分比形式表示,Su与Sm分别是结果状态值的结束量和初始量,然 后将单一指标多次仿真统一后作比较;所述效果测度计算单元计算结果状态信息的效果测度,结果状态信息的各个指标量纲 不同,在求取综合指标之前,将结果状态信息的各个指标转化成指标测度,所述的指标测度 包括生存率测度、射击效率测度、弹药消耗率测度、毁伤程度率测度和攻击路径率测度。
7.根据权利要求6所述的仿真平台,其特征在于所述的生存率测度、射击效率测度、 弹药消耗率测度、毁伤程度率测度和攻击路径率测度的计算方法为生存率测度采用极大值最优因素,生存率C利用上限效果测度 rlk) = C Isl^,> C < 1,其中为第Π次仿真在初始参数中的某个参数k条件下的 生存值,Slfflax为第η次仿真初始参数条件下获得的生存最大值;射击效率测度采用中值最优因素,射击效率rsn利用适中效果测度rsn = min (ssn,u0) / max (ssn, u0), O^rsn ^ 1,其中min (ssn,uQ)为第η次仿真初始参数和武器装备uQ条件下获 得的射击最小值,max (ssn,Utl)为第η次仿真初始参数和武器装备Utl条件下获得的射击最大 值;弹药消耗率测度采用极小值最优因素,消耗率C利用下限效果测度 C =\._/€,,其中为第η次仿真在初始参数中的某个参数k条件下的 弹药消耗值,Scfflin为第η次仿真初始参数条件下获得的消耗最小值;毁伤程度率测度对敌毁伤程度率测度与自身生存率测度采用的方法一致,毁伤程度 率#利用上限效果测度T =#、■ UOM;) U,其中《为第η次仿真在初始参 数中的某个参数k条件下的对敌毁伤程度值,Sdfflax为第η次仿真初始参数条件下获得的对 敌毁伤程度最大值;攻击路径率测度攻击路径率测度与射击效率测度采用的方法一致,攻击路径率〃,利 用适中效果测度 rpn = min (tpn,v0) /max (tpn,v0), 0 ^ rpn 彡 1,其中 min (tpn,v0)为第 η 次仿 真初始参数和速度%条件下获得的时间最小值,max (tpn,v0)为第η次仿真初始参数和速度 V0条件下获得的时间最大值。
8.根据权利要求1所述的仿真平台,其特征在于所述的综合指标统计单元进行效果测度的综合指标计算,综合指标q定义为= ;其中,h是生存率测度、射击效率测度、7=1弹药消耗率测度、毁伤程度率测度和攻击路径率测度,、的设定满足1^+1 2+···+1 5 = 1,且k1; k2,…,k5 > 0,kj的取值与各个指标测度rj在仿真任务中的重要性相关。
9.一种基于Agent技术的对抗行为建模的仿真方法,其特征在于包括以下几个步骤步骤一、仿真平台初始化;仿真平台初始化,激活仿真平台的平台交互界面模块、战场环境模块、作战人员Agent 行为建模模块、指挥协作Agent模块、通讯模块和评估模块; 步骤二、设置初始参数;操作员通过仿真平台的交互界面模块的参数设置对话框设置初始参数,初始参数通过 通讯模块发送到战场环境模块,得到战场环境参数和战场属性参数;操作员设置作战任务, 作战任务决定指挥协作模块设置整体协作和局部协作的部署态势; 步骤三、仿真过程;A 当步骤二中设置的初始参数中的仿真次数为1,开始进行单次仿真,具体如下 Al 作战人员Agent行为建模模块的态势感知结构通过战场环境参数和战场属性参 数,生成观察因素感知模式集,计算观察因素量化值以及量化值的可信度,合并两者形成当 前的态势信念;个人主观结构利用观察因素感知模式集的主观因素,生成主观综合指标,传 递到决策规划结构中,作为主观影响权值参数使用;决策规划结构基于态势感知结构的态 势信念构造决策任务,运用决策准则选出当前决策规则的方案,并依据规则方案形成相应 的战术行为意图;外在行为输出结构获得当前战术行为意图,并生成可执行的外在对抗行 为;A2 可执行的外在对抗行为使战场环境变化,战场环境模块实时获取战场环境参数,重 新解析战场属性参数,返回步骤Al的仿真流程,同时仿真实时动画显示界面将实时显示对 抗行为,直至战场仿真单元判断单次仿真的仿真结束,得到结果状态信息,并将该结果状态 信息传递给平台交互界面模块;B 当步骤二中设置的初始参数中的仿真次数大于1时,开始进行多次仿真,具体如下 Bl 执行第i次仿真,仿真过程与步骤Al和A2相同,其中,i为多次仿真的执行次数, 且从i = 1开始仿真;B2 读取第i次仿真中的结果状态信息,通过评估模块计算单一指标和综合指标,并将 单一指标和综合指标通过通讯模块输入到平台交互界面模块的评估指标输出界面;B3 执行第i+Ι次仿真,重复步骤Bl B2的过程,直至战场仿真单元判断仿真次数达 到设定的仿真次数,结束多次仿真的仿真过程;步骤四、仿真全过程结束,回到仿真平台的交互界面模块;步骤五、操作员查看仿真平台是否执行新的仿真任务,若有新的仿真任务,执行步骤 二,开始新的仿真任务的仿真过程;若没有新的仿真任务,退出仿真平台。
全文摘要
本发明提出一种基于Agent技术的对抗行为建模仿真平台及仿真方法,所述的仿真平台包括平台交互界面模块、战场环境模块、作战人员Agent行为建模模块、指挥协作Agent模块、通讯模块和评估模块。该仿真平台在逼真的战场环境支持下,通过局部协作与整体协作,可以演示和验证多Agent联合作战能力,从而研究和发展新的作战方式和方法,提高联合作战能力,且Agent个体通过行为建模具备不同个性,可模拟真实作战个体在不同战场态势下的自身的心智活动与行为决策反映,从而使作战对抗仿真过程更具真实性和智能型,提高了虚拟模拟战场作战建模行为的智能性、自主性和差异性。
文档编号G06F19/00GK101964019SQ20101027960
公开日2011年2月2日 申请日期2010年9月10日 优先权日2010年9月10日
发明者吴振东, 杨飞, 王青, 董朝阳, 解志君, 黄喜元 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1