一种基于多源标注的事件抽取方法、装置及系统

文档序号:37687776发布日期:2024-04-18 21:02阅读:来源:国知局

技术特征:

1.一种基于多源标注的事件抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多源标注的事件抽取方法,其特征在于,创建一个包含多个不同事件类型的事件集,每个事件由一个或多个角色组成,包括:

3.根据权利要求2所述的基于多源标注的事件抽取方法,其特征在于,所述数据集划分,包括:

4.根据权利要求1所述的基于多源标注的事件抽取方法,其特征在于,推断易混淆类别包括:

5.根据权利要求4所述的基于多源标注的事件抽取方法,其特征在于,标签的质量是一个高斯分布,其分布函数由数学期望e和方差v决定,即:

6.根据权利要求5所述的基于多源标注的事件抽取方法,其特征在于,将得到的标签质量作为众数投票的权重,对最终聚合的标签结果进行投票,得到最终具有高可靠性的标签,即:

7.根据权利要求6所述的基于多源标注的事件抽取方法,其特征在于,对一个深度神经网络进行训练,包括:

8.一种使用如权利要求1-7任一项所述方法的基于多源标注的事件抽取装置,其特征在于,包括

9.一种基于多源标注的事件抽取系统,其特征在于,包括:数据采集终端,应用权利要求1-7任一项方法的事件抽取服务器。


技术总结
本发明属于自然语言处理技术领域,公开了一种基于多源标注的事件抽取方法、装置及系统,方法包括步骤:创建一个包含多个不同事件类型的事件集;将从各种数据源收集大量文本;将语料库数据集划分为两个子集;对训练集进行标注;对标签进行融合;将通过标签聚合得到的最终标签作为训练标签,将训练集中的文本作为输入,对深度神经网络进行训练;训练好的神经网络模型被用来对新的文本进行事件抽取;利用训练好的模型,对新的文本进行事件类型的预测,从而完成事件抽取的任务。本发明有效评估标注方的区分能力,将标签与标注方在对应类别上的表现进行加权,得到适当的难标注事件标签的质量,在有限条件下获得高质量的事件抽取有标签数据。

技术研发人员:刘丽华,黄宏斌,吴继冰,王懋,张翀,陈海文,王吉
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:
技术公布日:2024/4/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1