一种基于知识嵌入的结构化管制指令提取方法与流程

文档序号：26007519发布日期：2021-07-23 21:26阅读：来源：国知局

技术特征：

1.一种基于知识嵌入的结构化管制指令提取方法，其特征在于，包括如下步骤：

步骤1，构建机场知识字典；

步骤2，构建规则替换管制指令文本中的已知信息；

步骤3，进行信息抽取模型训练；

步骤4，通过训练好的模型进行预测，得到结构化的管制指令。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：将特定已知机场信息编写入机场先验知识字典，所述特定已知机场信息包括机场中的跑道号、滑行道号、塔台名称，所述机场知识字典包含两部分，一是在模型训练过程中数据来源机场的知识；二是在模型预测过程中目标数据的来源机场，构建方法以键值对的形式保存，即{信息属性：信息值}的方式建立映射关系。

3.根据权利要求2所述的方法，其特征在于，步骤2包括：对管制指令中出现的机场中的跑道、滑行道信息进行辨析，通过检索机场知识字典预处理管制指令数据，将信息替换成属性，辨析方法是直接搜索字典中有无相应信息。

4.根据权利要求3所述的方法，其特征在于，步骤3包括：

步骤3-1，进行预处理：从机场塔台收集管制指令作为训练数据，针对训练数据的管制指令，检索对应的机场知识字典，检索出管制指令中出现的实体信息，在管制指令中将实体替换成对应的通用表述实体，将替换后的管制指令数据组成训练数据集；

步骤3-2，训练信息抽取模型。

5.根据权利要求4所述的方法，其特征在于，步骤3-2包括：对训练数据集中的管制指令进行标注，将其中出现的实体信息一一标出，同时对介词词组进行一致性标注，向命名实体识别模型输入训练数据集中的管制指令，设定管制指令句子长度是l，即所述句子包含l个单字，使用词嵌入技术得到每个字的向量表示，设向量维度是512，则输入句子的维度变成(l，512)；

所述命名实体识别模型包括双向长短期记忆网络bilstm模型和条件随机场crf模型，bilstm模型包含两个方向相反的lstm，一个lstm利用目标词的上文信息对目标词实体属性进行预测，另一个lstm利用目标词的下文对目标词的实体属性进行预测；经过bilstm模型处理，输出(l，m)维的信号，其中m是标注类别的数量，最后利用crf模型得到实体类别输出序列。

6.根据权利要求5所述的方法，其特征在于，两个方向相反的lstm均符合以下条件：设定输入文本为x＝x1，x2，...，xt，xt表示文本中的第t个字，t是输入文本长度，lstm利用门限机制记住位置上的信息，计算公式如下：

it＝σ(wxixt+whiht-1+wcict-1+bi)

ft＝σ(wxfxt+whfht-1+wcfct-1+bf)

ct＝ftct-1+ittanh(wxcxt+whcht-1+bc)

ot＝σ(wxoxt+whoht-1+wcoct+bo)

ht＝ottanh(ct)(1)

其中，σ是激活函数，it，ft，ot分别表示输入门、遗忘门和输出门在位置t上的输出值，ct表示第t个单元格状态，模型在第t个神经元上的隐藏状态ht由ot和ct计算得到；wxi，wxf，wxo，wxc是输入x的权重矩阵，whi，whf，who，whc是隐藏状态h的权重矩阵，wci，wcf，wco是单元格状态c的权重矩阵，bi，bf，bc，bo分别是输入门、遗忘门、单元格状态更新、输出门方程的偏置值；tanh(z)＝2f(2z)-1是激活函数，是激活函数，z表示输入表示序列。

7.根据权利要求6所述的方法，其特征在于，步骤4包括：

步骤4-1，对于需要处理的管制指令，通过检索机场知识字典找出实体信息，并对实体进行替换；

步骤4-2，通过命名实体识别模型处理管制指令，抽取出相关的实体，形成结构化的管制指令。

技术总结
本发明提供了一种基于知识嵌入的结构化管制指令提取方法，包括：构建计算机可读的结构化管制指令；引入机场信息，提升任务处理模型在实际使用时的通用性。通过处理非结构化管制指令，实现以下辅助功能：提取管制指令中出现的场面、气象等信息并进行汇聚；提取航空器的动作、状态等信息并进行模拟仿真；形成计算机可读的结构化信息。该方法针对管制指令中出现的词语之间的语义关系特点设计专门的处理方法，同时针对收集的训练数据的无法覆盖所有机场的特点，提出将机场知识嵌入进行改进，使模型具有通用性。

技术研发人员：王煊;聂建强;蒋伟煜;徐秋程;严勇杰
受保护的技术使用者：中国电子科技集团公司第二十八研究所
技术研发日：2021.04.26
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2