有效载荷的故障决策方法与流程

文档序号：17328881发布日期：2019-04-05 21:57阅读：499来源：国知局

本发明涉及航天器领域，尤其涉及一种有效载荷的故障决策方法。

背景技术：

目前，航天器有效载荷故障诊断方法主要分为：基于专家系统的故障诊断方法、基于支持向量机的诊断方法、基于人工神经网络的诊断方法、基于故障树分析的诊断方法等。

航天器是有效探索、开发和合理利用空间资源的设备，实时高效的故障诊断与决策技术对航天器的可靠稳定运行具有重要意义。然而，由于系统复杂性、运行环境的特殊性以及不确定性等因素，传统的故障诊断方法仅仅诊断原因而缺少决策辅助，且对多重因素影响下的复杂跳变参数具有较高的误检率，无法满足智能性、准确性和时效性的要求。

技术实现要素：

本发明所要解决的技术问题是针对现有技术的不足，提供一种有效载荷的故障决策方法及一种存储介质。

本发明解决上述技术问题的技术方案如下：

一种有效载荷的故障决策方法，包括：

获取有效载荷的运行参数；

建立决策模型，根据所述运行参数和马尔科夫模型对所述决策模型进行训练，其中，所述决策模型为深度增强网络模型；

根据训练后的所述决策模型对所述有效载荷的故障进行决策。

本发明的有益效果是：本发明提供的故障决策方法，通过运行参数和马尔科夫模型对深度增强网络模型进行训练，将故障诊断、推理与决策相结合，实现航天器有效载荷从故障发现直到故障决策的全周期过程，解决了多重因素影响下复杂跳变参数关联性和误检率高的问题，实现了上下文逻辑关系的概率模糊诊断和动态更新，提高了故障诊断与决策的准确性和时效性。

本发明解决上述技术问题的另一种技术方案如下：

一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述技术方案所述的方法。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明有效载荷的故障决策方法的实施例提供的流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明有效载荷的故障决策方法的实施例提供的流程示意图，该方法包括：

s1，获取有效载荷的运行参数。

需要说明的是，有效载荷是指航天器上装载的为直接实现航天器在轨运行要完成的特定任务的仪器、设备、人员、试验生物及试件等。例如，当有效载荷为航天器的仪器时，运行参数可以为仪器的温度、电压、工作状态等。

应理解，为了对决策模型进行训练，获取的是运行参数的数据集，例如，当运行参数为温度时，可以以预设的采集频率采集温度值，得到数据集，然后再将数据集划分成训练集和测试集，使用训练集对决策模型进行训练。

s2，建立决策模型，根据所述运行参数和马尔科夫模型对所述决策模型进行训练。

其中，所述决策模型为深度增强网络模型。

需要说明的是，深度增强网络模型中包含策略，可以用π(atst；θ)表示，价值函数可以用v(st；θv)表示。其中，at是执行的动作，st为状态，θ为深度增强网络的参数，对深度增强网络模型的训练过程，就是优化θ的过程。策略π可以理解为执行了动作at后，从状态st变为了状态st+1，这就是一个决策的结果。

其中，由于动作at和状态st之间的关系不易确定，因此引入马尔科夫模型，根据决策模型执行动作at后的动作回报，反向推导出状态，进行充分挖掘了航天器有效载荷复杂跳变参数间的相关性和上下文关系，提高了有效载荷故障诊断与决策的精确度。同时，通过训练后决策模型进行故障检测，不仅是检测故障，还能给出对应的策略π，解决了现有的空间有效载荷只能检测故障，而无法对故障进行决策的问题。

优选地，除马尔科夫模型外，还可以使用dqn算法、lssvm算法、ddpg算法等替代马尔科夫模型。

应理解，这些替代模型存在一定的缺陷和不足。dqn算法是基于值函数的深度学习算法，缺点是训练的收敛性不容易保证，容易出现过拟合的现象；lssvm算法的计算量大且运算时间长，空间复杂度以及时间复杂度较高；ddpg算法涉及的模型较多，存在着计算复杂度较高的问题。

s3，根据训练后的所述决策模型对所述有效载荷的故障进行决策。

通过对有效载荷的运行数据进行检测，将其输入到训练后的决策模型中，就能够迅速地检测出对应的故障，以及相应的故障应对策略，充分的保障了航天器的运行安全。

本实施例提供的故障决策方法，通过运行参数和马尔科夫模型对深度增强网络模型进行训练，将故障诊断、推理与决策相结合，实现航天器有效载荷从故障发现直到故障决策的全周期过程，解决了多重因素影响下复杂跳变参数关联性和误检率高的问题，实现了上下文逻辑关系的概率模糊诊断和动态更新，提高了故障诊断与决策的准确性和时效性。

应理解，本申请涉及的技术方案不仅可以应用于航天器故障诊断与决策领域，还可以推广到自动驾驶、无人机等领域。通过决策辅助能够快速及时的采取故障解决措施，迅速有效的避免故障升级和事故的发生。

可选地，在一些实施例中，根据所述运行参数和马尔科夫模型对所述决策模型进行训练之前，还包括：

初始化所述决策模型，设定所述决策模型参数的初始值，所述参数包括：深度网络参数、价值函数参数、最大时间步数、时间步数变量和有效载荷状态。

应理解，本申请的决策模型为多线程，因此，初始时，对总线程和子线程一起进行初始，分别设定总线程和每个子线程的深度网络参数和价值函数参数，然后将总线程的深度网络参数和价值函数参数赋值给每个子线程，使全部线程在开始时具有相同的深度网络参数和价值函数参数。

应理解，在开始时，应设定深度网络参数的微分和价值函数参数的微分趋近于0。

深度网络参数和价值函数参数是需要通过训练不断进行优化的参数，其训练的好坏决定了决策模型的精度。

其中，价值函数是用于对状态st选取的动作的好坏的评价。

最大时间步数指的是每个子线程中进行每轮训练时的总步数。例如，假设某训练集中供50步，而最大时间步数为40步，那么某子线程在对该训练集进行训练时，执行到地40步后，该轮训练结束。

时间步数变量指的是每步之间的数值，例如，假设时间步数变量为1，那么步数就为第1步、第2步、第3步…，假设时间步数变量为2，那么步数就为第2步、第4步、第6步…。

可选地，在一些实施例中，根据所述运行参数和马尔科夫模型对所述决策模型进行训练，具体包括：

将所述运行参数输入到所述决策模型的多个子线程中，每个所述子线程分别根据所述运行参数和马尔科夫模型对所述决策模型进行训练；

将训练结果输出给总线程，总线程对所述决策模型的深度网络参数和价值函数参数进行更新。

需要说明的是，航天器有效载荷出现故障如未能及时处理，可能演变成事故造成巨大损失，因此时效性至关重要。然而传统的故障诊断方法难以满足时效性的要求，本实施例中通过多个子线程来加速故障诊断到决策的全周期过程，提高了实时数据的高效利用和处理效率。

可选地，在一些实施例中，每个所述子线程分别根据所述运行参数和马尔科夫模型对所述决策模型进行训练，具体包括：

每个所述子线程根据所述运行参数执行策略中的动作，得到动作回报，所述策略中包含动作、状态和深度网络参数；

根据所述动作回报和马尔科夫模型计算得到新状态，将所述状态更新为所述新状态；

更新时间步数，重复计算新状态，直到所述运行参数的时间步数执行完或达到最大时间步数；

根据所述新状态计算得到优势函数，根据所述优势函数得到新深度网络参数和新价值函数参数。

可选地，在一些实施例中，根据所述动作回报和马尔科夫模型计算得到新状态，具体包括：

获取全局累计动作回报，根据所述全局累计动作回报、所述动作回报和马尔科夫状态转移概率按时间步数的倒序计算新动作回报；

根据所述新动作回报计算所述新状态。

可选地，在一些实施例中，根据以下公式计算新动作回报：

r′＝ρi(ri+γr)

其中，r′为新动作回报，i为时间步数，取值范围为{t-1，t-2，t-3，…，ts}，t为时间步数的数量，ts为初始时间步数，ρi为第i步的马尔科夫状态转移概率，ri为第i步的动作回报，γ为预设常数，r为全局累计动作回报；

根据以下公式计算新状态：

其中，st为状态，θ'v为价值函数参数，v(st,θ'v)为状态st的价值函数估计，ρ(st)为马尔科夫状态转移概率。

可选地，在一些实施例中，根据以下公式计算优势函数：

其中，a(st,at；θ',θv')为优势函数，at为动作，st为状态，k为状态数量，γ为预设常数，i为时间步数，t为时间步数的数量，ri为动作回报，θ'为深度网络参数，θ'v为价值函数参数，ρ为马尔科夫状态转移概率，v(st,θ'v)为状态st的价值函数估计，v(st+k,θ'v)为状态st+k的价值函数估计。

可选地，在一些实施例中，根据所述优势函数得到新深度网络参数和新价值函数参数，具体包括：

根据所述优势函数计算损失函数；

根据所述损失函数得到深度网络参数的微分和价值函数参数的微分；

对所述深度网络参数的微分和所述价值函数参数的微分进行累计梯度异步处理，得到新深度网络参数和新价值函数参数。

可选地，在一些实施例中，根据以下公式计算损失函数：

其中，h为熵，β为熵的正则化系数，at为动作，st为状态，t为时间步数的数量，θ'为深度网络参数，θ'v为价值函数参数，r′为新动作回报，v(st,θ'v)为状态st的价值函数估计，ρ(st)为马尔科夫状态转移概率；

需要说明的是，深度增强网络的非输出层参数之间相互共享，并且通过卷积层和softmax函数输出策略分布π和线性输出值函数v，同时将策略π的熵正则化项加到损失函数来加强探索策略效果，防止模型陷入局部最优。采用基于均方根传播rmsprop(rootmeansquarepropagation)方法来进行更新和优化。

根据以下公式计算深度网络参数的微分和价值函数参数的微分：

dθ＝dθ+δθ'logπ(at|st；θ')ρ(st)(r′-v(st；θv'))

其中，dθ为深度网络参数的微分，dθv为深度网络参数的微分，i为时间步数。

应理解，可以使用梯度下降法更新值函数网络参数θv'。在得到dθ和dθ后，可以使用dθ和dθ累计梯度异步更新网络参数θ和θv。

可以理解，在一些实施例中，可以包含如上述各实施例中的部分或全部步骤。

在本发明的其他实施例中，还提供一种存储介质，该存储介质中存储有指令，当计算机读取该指令时，使计算机执行如上述实施例中任一项所述的方法。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：樊中华;宋磊;郭丽丽;王红飞;孙冬柏;张卫冬;尹怡欣
技术所有人：中国科学院空间应用工程与技术中心
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。