本发明涉及知识图谱构建及应用领域,具体涉及一种基于序列标注的事件图谱构建方法、装置及可读储存介质。
背景技术:
1、本节中的陈述仅提供与本公开相关的背景信息,并且可能不构成现有技术。
2、知识图谱是google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。事件图谱是包括事件、事件属性、事件间关联关系的以事件为基本单位的知识网络。每个事件都有自己的事件类型,不同的事件类型拥有不同的角色。构建事件图谱能够将各类资源,包括资讯、观点等,围绕事件进行组织,从而帮助用户更高效更全面获取事件信息;同时,能够让决策者清晰地了解一个事件可能的原因和结果,进而使决策者做出更加全面及有根据的考虑。事件图谱构建的核心即是事件抽取,其目标是对事件的相关要素进行结构化抽取。事件相关要素具体包括触发词、论元实体、论元角色。传统的端到端事件抽取技术难度较大,学术上效果还没有达到直接可用的水平,在公开权威数据集ace2005上的f1只有60%。
技术实现思路
1、本发明的目的在于:针对上述现有技术中存在的问题,提供了基于序列标注的事件图谱构建方法、装置及可读储存介质,借助序列标注模型,从非结构化文本中自动识别触发词及论元实体;将同一句子中的触发词和论元实体两两配对,借助文本分类模型,自动识别该实体对关系,即论元角色;根据论元角色识别结果,关联组织触发词及论元实体,从而完成事件图谱构建。
2、本发明的技术方案如下:
3、基于序列标注的事件图谱构建方法,包括:
4、步骤s1:生成事件实体识别模型;
5、步骤s2:生成论元角色分类模型;
6、步骤s3:针对输入的非结构化文本,基于事件实体识别模型和论元角色分类模型,构建事件图谱。
7、进一步地,所述步骤s1,包括:
8、通过标注特定类型事件触发词、论元实体识别样本,训练序列标注模型,生成事件实体识别模型。
9、进一步地,所述步骤s2,包括:
10、在实体识别样本标注的基础上,标注论元角色识别模型训练样本,训练文本分类模型,生成论元角色识别模型。
11、进一步地,所述步骤s3,包括:
12、针对输入的非结构化文本,在文本分句的基础上,调用事件实体识别模型,识别待提取文本事件触发词、论元实体;
13、调用论元角色分类模型,判断论元实体与触发词之间的关系,形成文本事件结构化描述;
14、通过事件触发词及论元实体作为网络节点、论元角色作为节点关系,将一系列事件结构化描述转化事件图谱,进而完成事件图谱构建。
15、进一步地,每种类型的论元实体识别样本数不少于30条。
16、进一步地,所述论元角色识别模型训练样本数不少于50条。
17、基于序列标注的事件图谱构建装置,包括:存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的事件图谱构建方法的步骤。
18、一种计算机可读储存介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述的事件图谱构建方法的步骤。
19、与现有的技术相比本发明的有益效果是:
20、基于序列标注的事件图谱构建方法、装置及可读储存介质,将事件图谱构建过程分为事件触发词/论元实体识别、论元角色识别、图谱要素关联三个阶段。借助序列标注和文本分类模型,提高事件结构化描述中触发词、论元实体及角色信息抽取的准确率,进而提高事件图谱构建的有效性。
1.基于序列标注的事件图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的基于序列标注的事件图谱构建方法,其特征在于,所述步骤s1,包括:
3.根据权利要求1所述的基于序列标注的事件图谱构建方法,其特征在于,所述步骤s2,包括:
4.根据权利要求1所述的基于序列标注的事件图谱构建方法,其特征在于,所述步骤s3,包括:
5.根据权利要求2所述的基于序列标注的事件图谱构建方法,其特征在于,每种类型的论元实体识别样本数不少于30条。
6.根据权利要求3所述的基于序列标注的事件图谱构建方法,其特征在于,所述论元角色识别模型训练样本数不少于50条。
7.基于序列标注的事件图谱构建装置,包括:存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述的事件图谱构建方法的步骤。
8.一种计算机可读储存介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述的事件图谱构建方法的步骤。