一种面向军事语料的命名实体标注方法与流程

文档序号:21547355发布日期:2020-07-17 17:58阅读:来源:国知局

技术特征:

1.一种面向军事语料的命名实体标注方法,其特征在于,所述方法包括以下步骤:

s1,分别使用基于双向lstm与crf结合的神经网络模型、基于latticelstm神经网络模型和基于bert预训练神经网络模型三种深度神经网络来进行机器命名实体识别自动标注;

s2,使用xgboost方法将s1的三种算法获取的结果进行集成学习,获取标注成功的样本和标注失败的样本,其中成功样本的定义是三种机器实体识别中任意两种识别结果一致的样本,失败样本的定义三种机器实体识别结果都不一致的样本;

s3,使用人工标注的方式标注失败的样本;

s4,将所有样本标注结果以json的方式存入数据库管理。

2.根据权利要求1所述的一种面向军事语料的命名实体标注方法,其特征在于:将军事实体标注分为7种类型,包括人名实体、时间实体、地名实体、人员军职军衔实体、军事装备实体、军事设施实体、军事机构实体,分别记为person_entity、time_entity、location_entity、position_entity、weapon_entity、facility_entity、military_org_entity,将每个元素标注为“b-x”、“i-x”或者“o”。其中,“b-x”表示此元素所在的片段属于x类型并且此元素在此片段的开头,“i-x”表示此元素所在的片段属于x类型并且此元素在此片段的中间位置,“o”表示不属于任何类型。

3.根据权利要求1所述的一种面向军事语料的命名实体标注方法,其特征在于:lstm模型中长短时记忆模块计算过程如下:

(1)输入词xt在t时刻通过输入门(inputgate)进入网络,包含t时刻的输入以及与之相连的t-1时刻隐含层与细胞更新(cell)的输出,激活函数计算;

(2)通过遗忘门(forgetgate)实现信息遗忘,与(1)相同,得到激活函数:

(3)细胞单元(cell)激活函数包括t时刻的输入与t-1时刻隐含层的输出;

(4)最终信息单元输出包括通过输出门ot的向量输出及细胞单元输出,即前向推算的结果。


技术总结
本发明公开了一种面向军事语料的命名实体标注方法,分别使用基于双向LSTM与CRF结合的神经网络模型、基于Lattice LSTM神经网络模型和基于BERT预训练神经网络模型三种深度神经网络来进行机器命名实体识别自动标注;使用XGBoost方法将S1的三种算法获取的结果进行集成学习,获取标注成功的样本和标注失败的样本,其中成功样本的定义是三种机器实体识别中任意两种识别结果一致的样本,失败样本的定义三种机器实体识别结果都不一致的样本;使用人工标注的方式标注失败的样本;将所有样本标注结果以json的方式存入数据库管理。本发明可以显著提高军事语料中军事实体的标注准确率,同时以最小的人工代价达到最好的标注效果。

技术研发人员:黄宇;冯洋
受保护的技术使用者:中科世通亨奇(北京)科技有限公司
技术研发日:2020.02.19
技术公布日:2020.07.17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1