一种基于生成对抗网络的指挥信息系统数据生成方法与流程

文档序号:22833486发布日期:2020-11-06 16:23阅读:184来源:国知局
一种基于生成对抗网络的指挥信息系统数据生成方法与流程

本发明涉及指挥信息系统数据技术领域,具体来说,涉及一种基于生成对抗网络的指挥信息系统数据生成方法。



背景技术:

指挥信息系统是指具有指挥、控制、通信、本物质基础。实战化地指挥信息系统训练,存在费用高、安全隐患大、武器弹药消耗多、战场环境需求多样、多兵种联合协同难以及训练后效能评估复杂等问题。基于兵种建设的模训系统地指挥信息系统训练,涉及指挥控制、情报侦察、信息传输、信息处理等多个专业方向,需要构建被训对象的训练目标、训练对象模型、模拟装备,需要提供作战想定、战场环境、主要事件、模拟设施、模型运算符法则、武器/装备数据库,需要在模训实施前下发作战想定、实施过程中对红蓝对抗双方进行监督、训练结束后进行评估与总结,整个过程需要模拟的对象、过程繁多复杂,涉及到的技战术指标相互影响叠加,数据采集分析困难。

目前,技术支撑单位提供的样本数据能够浅表化地支撑模训系统运行,但是对于针对性训练、定制化训练、重复场景的强化训练、全元素的综合训练的支撑能力还不够。目前指挥信息系统模拟数据集生成的研究主要有两类,一类是使系统能够在小样本的环境下运行,实现模型参数的优化该类方法能够达到基本的要求,但限制了系统涌现性和自组织性地体现,某些特定环境条件地训练无法展开,如针对海岛、高原的训练等。另一类是基于先验知识,通过简单地数据分析和选取特征后扩充数据。对系统的非线性变量考虑较少,形成的模型不能真实模拟战场环境,对原始样本中数据值缺失、异常值等特征比较敏感,导致生成的数据与原数据地线性回归拟合不好。

针对相关技术中的问题,目前尚未提出有效的解决方案。



技术实现要素:

针对相关技术中的问题,本发明提出一种基于生成对抗网络的指挥信息系统数据生成方法,以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的:

一种基于生成对抗网络的指挥信息系统数据生成方法,包括以下步骤:

步骤s1,获取并进行清洗指挥信息系统运行过程中产生的数据,按照信息类型区分为结构化信息和非结构化信息两部分,对数据进行预处理;

步骤s2,进行拟合度作为gan系统的判别模型目标函数的修正因子,实现生成的模拟数据集与原始数据集的数据分布的快速拟合,进行实现数据的学习、训练和生成。

进一步的,所述数据进行预处理,包括以下步骤:

步骤s101,区分短报文、长报文、语音信息后,将长报文、语音信息转换为短报文集的形式,其中,包括长报文进行短语识别转换为短报文集和语音信息进行语音识别;

步骤s102,对获取的短报文集进行信息提取,包括获取短报文语义,并对短报文进行数据映射,建立短报文信息与编码之间的对应关系集;

步骤s103,将处理完的非结构化信息与结构化信息进行数据清洗,包括将同一时刻的多维度信息转换成为表征指挥信息系统技战术指标的时间切片信息。

进一步的,包括以下步骤:

步骤s201,固定生成模型,训练判别模型,其判别模型的函数表示为:

maxv(d,g)=ex[logd(x)]+ez[log(1―d(x)]

步骤s202,固定判别模型,训练生成模型,生成模型的目标是使得生成的数据集使判别模型无法判别,其目标函数表示为:

minv(d,g)=ez[log(1―d(g(z)))]

步骤s203,定义判别模型和生成模型的优化方法;

步骤s204,每迭代n次进行数据分布拟合度校验,修正判别模型的目标函数,从而提高向原始数据拟合的收敛度,其修正函数表示为:

sin*(ex[logd(x)]+ez[log(1―d(g(z)))])

其中,n=round(m/n),round()为取整函数,m为目前的迭代总次数,sin为第n轮的拟合度值。

进一步的,所述原始数据拟合的收敛度,包括以下步骤:

迭代生成的模拟数据集,选取任意两个随机变量x,y,使其分布在两维的空间中,使用m*n的网格进行空间划分,对落在各个网格的点数进行统计;

计算落在第(x,y)网格的频率p(x,y),同时计算落在在第x行的数据点的频率作为p(x)地估计,同理获得p(y)的估计,表示为:

通过遍历,改变m,n的值,变化网格的划分,寻找使得a,b落在第(x,y)网格中的频率的各种可能,获得互信息最大的网格划分参数,即随机变量x,y的互信息值,其中m*n<b,b=f(datasize)=n0.6,表示为:

获取任意模拟数据集中任意两个随机变量的互信息值,通过归一化,使互信息的值分布在(0,1)区间内,构建互信息邻接矩阵;

确定本轮与原始数据互信息邻接矩阵之间的互信息值,得本轮数据集相似度sin,设计第n轮的拟合度为s为第n轮与第n―1轮相似度的比值,若第n轮相似度高于第n―1轮的相似度,则增强该方向梯度下降的信心,否则降低向该方向梯度下降的信心,表示为:

sin=f(matrix(mic)n,matrix(mic)base);

本发明的有益效果:

本发明基于生成对抗网络的指挥信息系统数据生成方法,通过获取并进行清洗指挥信息系统运行过程中产生的数据,按照信息类型区分为结构化信息和非结构化信息两部分,对数据进行预处理,而进行拟合度作为gan系统的判别模型目标函数的修正因子,实现生成的模拟数据集与原始数据集的数据分布的快速拟合,进行实现数据的学习、训练和生成,实现通过灵活调参实现损失函数的收敛平衡,提高优化水平,实现复杂高维数据的学习训练与生成,采用互信息的方式对各指标体系间的关系进行描述,通过回归拟合曲线验证新数据集的概率分布和相关关系,检验生成数据的可信度,为指挥信息系统的全元素训练提供数据支撑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于生成对抗网络的指挥信息系统数据生成方法的流程示意图;

图2是根据本发明实施例的一种基于生成对抗网络的指挥信息系统数据生成方法的数据生成流程示意图;

图3是根据本发明实施例的一种基于生成对抗网络的指挥信息系统数据生成方法的能力指标体系示意图;

图4是根据本发明实施例的一种基于生成对抗网络的指挥信息系统数据生成方法的数据收集与清洗流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

根据本发明的实施例,提供了一种基于生成对抗网络的指挥信息系统数据生成方法。

如图1所示,根据本发明实施例的基于生成对抗网络的指挥信息系统数据生成方法,包括以下步骤:

步骤s1,获取并进行清洗指挥信息系统运行过程中产生的数据,按照信息类型区分为结构化信息和非结构化信息两部分,对数据进行预处理;

步骤s2,进行拟合度作为gan系统的判别模型目标函数的修正因子,实现生成的模拟数据集与原始数据集的数据分布的快速拟合,进行实现数据的学习、训练和生成。

进一步的,所述数据进行预处理,包括以下步骤:

步骤s101,区分短报文、长报文、语音信息后,将长报文、语音信息转换为短报文集的形式,其中,包括长报文进行短语识别转换为短报文集和语音信息进行语音识别;

步骤s102,对获取的短报文集进行信息提取,包括获取短报文语义,并对短报文进行数据映射,建立短报文信息与编码之间的对应关系集;

步骤s103,将处理完的非结构化信息与结构化信息进行数据清洗,包括将同一时刻的多维度信息转换成为表征指挥信息系统技战术指标的时间切片信息。

进一步的,包括以下步骤:

步骤s201,固定生成模型,训练判别模型,其判别模型的函数表示为:

maxv(d,g)=ex[logd(x)]+ez[log(1―d(x)]

其,设计判别模型为三层全连接神经网络,输入层节点数为22,隐藏层节点数为128,输出层节点数为1,使用交叉熵作为判别器的损失函数,即提高将真实数据集判断为真的期望,降低将生成数据集判断为真的期望,最后一层输出执行sigmoid函数,获得在范围[0,1]内的实数值,通过目标函数最优,对判别模型进行训练,实现梯度的快速下降,寻找最优解,提升判别模型的甄别能力。

步骤s202,固定判别模型,训练生成模型,生成模型的目标是使得生成的数据集使判别模型无法判别,其目标函数表示为:

minv(d,g)=ez[log(1―d(g(z)))]

其设计生成模型为三层全连接神经网络,输入层节点数为100,隐藏层节点数为128,输出层节点数为22,使用交叉熵作为生成器的损失函数,目标是使生成模型生成数据通过判别模型的期望最大,获得公式13的最小值。

步骤s203,定义判别模型和生成模型的优化方法;包括先固定生成模型优化判别模型参数;再固定判别模型,并把优化后的判别模型参数传给生成模型,优化生成模型的参数,通过大量迭代后,逐步实现目标函数的最优化,使得生成样本数据分布接近真实数据分布,判别模型处于纳什均衡,判别模型对于生成模型产生的数据很难做出准确的判断。

步骤s204,每迭代n次进行数据分布拟合度校验,修正判别模型的目标函数,从而提高向原始数据拟合的收敛度,其修正函数表示为:

sin*(ex[logd(x)]+ez[log(1―d(g(z)))])

其中,n=round(m/n),round()为取整函数,m为目前的迭代总次数,sin为第n轮的拟合度值。

其中,所述原始数据拟合的收敛度,包括以下步骤:

迭代生成的模拟数据集,选取任意两个随机变量x,y,使其分布在两维的空间中,使用m*n的网格进行空间划分,对落在各个网格的点数进行统计;

计算落在第(x,y)网格的频率p(x,y),同时计算落在在第x行的数据点的频率作为p(x)地估计,同理获得p(y)的估计,表示为:

通过遍历,改变m,n的值,变化网格的划分,寻找使得a,b落在第(x,y)网格中的频率的各种可能,获得互信息最大的网格划分参数,即随机变量x,y的互信息值,其中m*n<b,b=f(datasize)=n0.6,表示为:

获取任意模拟数据集中任意两个随机变量的互信息值,通过归一化,使互信息的值分布在(0,1)区间内,构建互信息邻接矩阵;

确定本轮与原始数据互信息邻接矩阵之间的互信息值,得本轮数据集相似度sin,设计第n轮的拟合度为s为第n轮与第n―1轮相似度的比值,若第n轮相似度高于第n―1轮的相似度,则增强该方向梯度下降的信心,否则降低向该方向梯度下降的信心,表示为:

sin=f(matrix(mic)n,matrix(mic)base);

借助于上述技术方案,实现通过灵活调参实现损失函数的收敛平衡,提高优化水平,实现复杂高维数据的学习训练与生成,采用互信息的方式对各指标体系间的关系进行描述,通过回归拟合曲线验证新数据集的概率分布和相关关系,检验生成数据的可信度,为指挥信息系统的全元素训练提供数据支撑。

另外,如图2-图3所示,包含指标体系构建、数据收集与清洗、gan(generativeadversarialnetworks,生成对抗网络)数据生成、互信息数据真实度验证。另外,针对目前合成旅指挥信息系统典型运用模式,本着简单、可测、稳定、时效、独立的原则,反映指挥信息系统从作战方案的确定,情报获取、情报分析、信息传输、火力协同、指挥控制与战斗数据的收集,到完成作战方案库的不断优化的完整过程,体现指挥信息系统履行使命任务的支撑能力。通过研究筛选,根据指挥流程中各个能力的分析描述,区分信息获取分系统、信息传输分系统、信息处理分系统、辅助决策分系统、指挥控制分系统、资源管理分系统、系统对抗分系统七类系统,梳理为信息支撑能力、指挥控制能力、协同作战能力、信息传输能力、系统稳定能力五种支撑能力,共计22个维度的信息。

另外,具体的,如图4所示,针对短报文或短报文集进行信息提取。首先,根据基础词典库中的词语组合信息,对短语字符串进行词性分析,将字符串切分并作简单标注,对字符串进行初步的结构化;其次,根据军用词典库中的词语组合信息,抽取相关词组的类型定义、前后条件约束,采用军用术语关键词切分全句,将字符串切分成若干段,通过识别词性获取该词的语义;根据语法规则库中语法约束信息,判断前后词性是否符合约束规则,对实体进行完整性匹配,进行语法推理,获取短报文语义。根据短报文语义,对短报文进行数据映射,建立短报文信息与编码之间的对应关系集。

将处理完的非结构化信息与结构化信息进行数据清洗,目的是将同一时刻的多维度信息转换成为表征指挥信息系统技战术指标的时间切片信息。首先,进行数据格式转换,数据矩阵横坐标为维度信息,纵坐标为按照时间先后的编号;其次进行数据缺失值、异常值、噪音处理,即将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除;最后进行规范化处理,将数据归一到[0,1]的范围内,便于进行深度学习的数据训练。

综上所述,借助于本发明的上述技术方案,通过基于gan,构建判别器与生成器,提出拟合度因子,通过灵活调参实现损失函数的收敛平衡,提高优化水平,实现复杂高维数据的学习训练与生成。在此基础上,采用互信息的方式对各指标体系间的关系进行描述,通过回归拟合曲线验证新数据集的概率分布和相关关系,检验生成数据的可信度,为指挥信息系统的全元素训练提供数据支撑。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1