1.一种基于知识嵌入的结构化管制指令提取方法,其特征在于,包括如下步骤:
步骤1,构建机场知识字典;
步骤2,构建规则替换管制指令文本中的已知信息;
步骤3,进行信息抽取模型训练;
步骤4,通过训练好的模型进行预测,得到结构化的管制指令。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:将特定已知机场信息编写入机场先验知识字典,所述特定已知机场信息包括机场中的跑道号、滑行道号、塔台名称,所述机场知识字典包含两部分,一是在模型训练过程中数据来源机场的知识;二是在模型预测过程中目标数据的来源机场,构建方法以键值对的形式保存,即{信息属性:信息值}的方式建立映射关系。
3.根据权利要求2所述的方法,其特征在于,步骤2包括:对管制指令中出现的机场中的跑道、滑行道信息进行辨析,通过检索机场知识字典预处理管制指令数据,将信息替换成属性,辨析方法是直接搜索字典中有无相应信息。
4.根据权利要求3所述的方法,其特征在于,步骤3包括:
步骤3-1,进行预处理:从机场塔台收集管制指令作为训练数据,针对训练数据的管制指令,检索对应的机场知识字典,检索出管制指令中出现的实体信息,在管制指令中将实体替换成对应的通用表述实体,将替换后的管制指令数据组成训练数据集;
步骤3-2,训练信息抽取模型。
5.根据权利要求4所述的方法,其特征在于,步骤3-2包括:对训练数据集中的管制指令进行标注,将其中出现的实体信息一一标出,同时对介词词组进行一致性标注,向命名实体识别模型输入训练数据集中的管制指令,设定管制指令句子长度是l,即所述句子包含l个单字,使用词嵌入技术得到每个字的向量表示,设向量维度是512,则输入句子的维度变成(l,512);
所述命名实体识别模型包括双向长短期记忆网络bilstm模型和条件随机场crf模型,bilstm模型包含两个方向相反的lstm,一个lstm利用目标词的上文信息对目标词实体属性进行预测,另一个lstm利用目标词的下文对目标词的实体属性进行预测;经过bilstm模型处理,输出(l,m)维的信号,其中m是标注类别的数量,最后利用crf模型得到实体类别输出序列。
6.根据权利要求5所述的方法,其特征在于,两个方向相反的lstm均符合以下条件:设定输入文本为x=x1,x2,...,xt,xt表示文本中的第t个字,t是输入文本长度,lstm利用门限机制记住位置上的信息,计算公式如下:
it=σ(wxixt+whiht-1+wcict-1+bi)
ft=σ(wxfxt+whfht-1+wcfct-1+bf)
ct=ftct-1+ittanh(wxcxt+whcht-1+bc)
ot=σ(wxoxt+whoht-1+wcoct+bo)
ht=ottanh(ct)(1)
其中,σ是激活函数,it,ft,ot分别表示输入门、遗忘门和输出门在位置t上的输出值,ct表示第t个单元格状态,模型在第t个神经元上的隐藏状态ht由ot和ct计算得到;wxi,wxf,wxo,wxc是输入x的权重矩阵,whi,whf,who,whc是隐藏状态h的权重矩阵,wci,wcf,wco是单元格状态c的权重矩阵,bi,bf,bc,bo分别是输入门、遗忘门、单元格状态更新、输出门方程的偏置值;tanh(z)=2f(2z)-1是激活函数,
7.根据权利要求6所述的方法,其特征在于,步骤4包括:
步骤4-1,对于需要处理的管制指令,通过检索机场知识字典找出实体信息,并对实体进行替换;
步骤4-2,通过命名实体识别模型处理管制指令,抽取出相关的实体,形成结构化的管制指令。