一种基于虚拟时序约束增强的时序知识图谱问答方法

文档序号:37003918发布日期:2024-02-09 12:49阅读:53来源:国知局
一种基于虚拟时序约束增强的时序知识图谱问答方法

本发明属于知识图谱,尤其涉及一种基于虚拟时序约束增强的时序知识图谱问答方法。


背景技术:

1、在军事情报分析和兵力调动方面,知识图谱问答技术可以提供更高效、精准的分析和预测能力,帮助情报分析人员和指挥员更快速地获取关键信息,提高决策效率。但是,常规的知识图谱问答使用静态知识图谱作为知识库回答自然语言问题,其中的知识与信息是一成不变的,不存在时序信息,而在实际军事领域中,知识和舆情往往是动态更新的,这也是知识的重要特征之一,其中涉及到对时序知识的推理,常规的知识库问答方法也难以进行有效推理。这些缺陷极大地约束了知识图谱问答在实际军事领域中的应用,无法满足动态环境下的情报分析诉求。

2、因此,时序知识图谱(temporal kg)逐渐成为各类动态知识的载体,其相对于静态知识图谱具有额外的时序维度信息,在随着时序的变化不断更新迭代的同时,保留历史知识,为下游任务提供更加丰富可靠的信息与知识来源。而基于时序图谱的问答任务(temporal kgqa)相对于常规的知识图谱问答方法则具备了以下更多的特点:1.知识库是一个时序知识图谱。2.答案是实体或持续的时序。3.需要复杂的时序推理。这些特点使得时序知识图谱的问答具有更广泛的应用场景,也导致了时序问答的复杂性,如何对时序维度,尤其是如何对时序的时序性和多粒度特征进行有效建模成为一个难点。动态开放的组织环境需要更快的信息处理、更及时的信息更新、更广泛的信息创新,时序维度的信息变得越来越重要,基于时序图谱的多粒度时序问答可以有效解决动态知识的利用和查询问题,帮助军事部门更好地掌控各方的军事动向。

3、现有的时态知识图谱问答方法主要可以划分为两类:基于时间约束的分解方法和基于时态知识图谱的表示方法。基于时间约束的分解方法虽然简化了问题解决过程,但由于使用预先指定的模板进行分解和对实体的时间限制假设,这类方法在处理具有时间范围的时态知识图谱时效率较低。基于时态图表示的方法,如cronkgqa和tempoqr,尽管在某些方面取得了一定的进展,但它们在理解隐含的时间和时间限制推理方面仍然存在不足。例如,cronkgqa在处理复杂的时间限制问题时遇到挑战,tempoqr虽然增强了问题表示的语义信息,但未充分考虑时间的限制因素,这些限制和挑战是的当前的时序问答方法难以真正实际应用。


技术实现思路

1、在军事情报分析和兵力调动方面,知识图谱问答技术可以提供更高效、精准的分析和预测能力,帮助军事情报分析人员和作战指挥员更快速地获取关键信息,提高决策效率。传统的知识图谱很难满足即时情报信息更新与数据同步,而时序知识图谱更能记录和储存情报信息并保证信息的即时性。因此,军事领域中,针对时序知识图谱的智能问答在更具有实际应用价值。然而,时序知识图谱在实际应用中存在着时序信息粒度多样、时序关系复杂和信息不完备等问题。本发明克服模型对单时序粒度的依赖与复杂时序约束建模难的问题,提出了一个新的框架类模型virekgqa,该模型通过加入虚拟时序约束来增强时序知识图谱的嵌入。virekgqa学习捕获三种时序逻辑类型的嵌入:相对顺序、序数和多粒度。有了这些丰富的表示,virekgqa可以实现对多时序粒度时序图谱进行复杂的时序推理。在此基础上,本发明增加了rerank模块,利用规则逻辑查询知识库,提升模型返回答案的精度。

2、本发明公的基于虚拟时序约束增强的时序知识图谱问答方法,包括以下步骤:

3、在原始知识图谱上构造辅助时态逻辑图,所述辅助时态逻辑图中的虚拟关系表示时序约束;

4、学习原始知识图谱以及这些时序逻辑图进行推断的实体关系表示;依靠所述实体关系表示,执行涉及多粒度知识图谱问题问答tkgqa的复杂时序推理,所述复杂时序推理包括多粒度表示学习和时序推理,所述多粒度表示学习学习不同粒度事件的嵌入表示和跨粒度的时序逻辑约束;所述时序推理基于学习到的嵌入表示对知识图谱进行时序推理;通过所述多粒度表示学习和时序推理,结合跨粒度和多粒度tkgqa的时序逻辑约束,实现复杂时序推理;

5、利用规则逻辑对知识库进行查询,去除不符合时序逻辑要求的候选答案,最后输出综合的答案列表。

6、进一步地,为了实现复杂的时序推理,在原始知识图谱上构造辅助时序逻辑图,具体来说,添加三种类型的虚拟时序约束:相对顺序逻辑、序数逻辑和多粒度逻辑;所述约束由反映事件之间时序关系的新事实来表示。

7、进一步地,对于所述相对顺序逻辑,添加表示事件之间的相对顺序的事实;

8、对于所述序数逻辑,添加表明事件的序数位置的事实;

9、对于多粒度逻辑,添加连接不同粒度上事件的事实。

10、进一步地,使用tkg k:=(e,r,t,f)表示一个多关系有向图,其中,e、r、t、f分别表示实体、关系、时间戳、事实的集合;实体之间的边带有时序戳;k中的一个事实形式化为gtlkg,其中,s,o∈e表示主体和对象实体,r∈r表示它们之间的关系,τ∈t是与该关系相关的时序戳;

11、给定原始tkg,添加一组新的关系rvirtual,连接f中的事件节点si,oj,表示满足约束的逻辑约束和事实flogic:

12、rvirtual={relative(r)∪ordinal(r)|r∈r}

13、tlogic={coarse(τ)|τ∈t}

14、flogic={(s,r*,o,τ*)|r*∈rvirtual,τ*∈tlogic}

15、gtlkg={(s,r,o,τ)|(s,r,o,τ)∈flogic∪ftruth}

16、relative表示相对逻辑关系,ordinal表示序数逻辑关系,coarse表示粗粒度事件,r*表示虚拟关系,τ*表示虚拟时间,tlogic表示构建的虚拟逻辑时间,ftruth表示原始的知识图谱,flogic表示扩充的时序逻辑图谱;

17、所得到的时序逻辑图gtlkg除了包含原始知识图谱外,还包含事件之间丰富的时序逻辑关系;通过优化gtlkg上的嵌入表示,学习执行复杂的多粒度时序推理。

18、进一步地,所述多粒度表示学习包括:

19、对于四元组(s,r,o,τ),用eò,vr,tτ分别表示复杂空间中的主题嵌入、关系嵌入、对象嵌入和时序戳嵌入,有

20、es=re(s)+iim(s),er=re(r)+iim(r),

21、eo=re(o)+iim(o),eτ=re(τ)+iim(τ)

22、其中eò,vr,tτ∈£k,并且re(·)表示实部,im表示虚部;

23、使用tkg嵌入方法学习k维向量eò,vr,tτ,使得每一个事实(s,r,o,τ)∈f通过一个得分函数φ(·),形式上为φ(es,vr,eo,tτ)>φ(es′,vr′,eo′,tτ′);

24、根据tcomplex,使用交互学习来简化训练过程,损失函数定义如下:

25、通过tkg完成任务在gtlkg上对tcomplex进行训练;学习复空间cd中的实体和关系表示,其中d表示复向量的维数;

26、其中,所述tcomplex是考虑时序信息的complex的扩展,它将每个实体、关系和时序戳编码为复向量,tcomplex的得分函数φ(·)

27、定义为:

28、

29、其中(·)是嵌入向量的复共轭,⊙是逐元素乘积,是候选的答案实体表示向量。

30、进一步地,为了获得问题中的实体和时序信息,使用命名实体识别和时序提取工具,将知识图谱kg中的实体与时序对齐,使模型能够更准确地访问kg中的信息,具体包括:

31、使用预先训练的通用ner工具来提取问题文本,过滤掉其中的实体名称,然后通过模糊匹配将其与kg中的实体进行匹配,以找到最相似的实体作为实体结果进行后续推理:

32、qentity=fuzzymatch(qner,e),

33、其中fuzzymatch表示模糊匹配,qner是已识别实体的列表,并且通过计算相似度将已识别实体与kg中的实体e模糊匹配:

34、

35、其中le是实体e的文本长度,是e1和e2之间可以匹配的最大长度;在e中具有最高相似性的实体将被添加到实体链接集qentity。

36、进一步地,通过预先训练的语言模型获得问题的语义信息,具体而言,问题qtext的自然语言形式通过预先训练的roberta转换为语义矩阵qr:

37、qr=wr roberta(qtext)

38、其中是一个d×l的嵌入矩阵,l是tokens的数量,d是tkg嵌入的维度,wr是一个flogic的映射矩阵,其中droberta是roberta嵌入的维数,最终问题表示q=qcls。

39、进一步地,由于kg提供的事实都在日粒度上,然而,该问题包含关于年和月粒度的推理,并且不能直接从预先训练的tkg嵌入中获得语义信息,为了解决这个问题并获得更粗粒度的时序嵌入,对于问题中的月份粒度时序m,本发明首先提取所有包含的日期时序戳d1,d2,...,dn以及它们的tkg嵌入其具有丰富的时序信息,n是相关天数;

40、此外为了获得月份粒度的时序表示,构造时序语义矩阵td,

41、

42、其中是一个包含m个月全天嵌入的矩阵;

43、时序作为一个排序序列与单词在文本中的位置有着内在的相似性,因此通过使用正弦位置编码方法来丰富其顺序特性;这里,td中的第kth个位置被编码为:

44、

45、其中j是d维向量中的偶数/奇数位置;

46、此外,通过向td添加位置嵌入来获得td′,添加位置嵌入确保了时序戳之间的顺序。

47、进一步地,将信息融合为单个时序表示tm,之后,使用一个信息融合层,该层由一个专用的可学习编码器transformer(·)组成,该编码器由2个transformer编码层组成;该编码器允许时序tokens相互参与,将所有天的嵌入融合为一个月的嵌入,最终的token嵌入矩阵tm计算为:

48、tm=transformer(td′),

49、其中并且最终的问题表示tm=tcls,

50、重复聚合,得到年粒度ty的时序表示;对于τ处的问题,最终的时序表示为tτ;

51、最后,得到由所有实体和时序戳组成的候选答案的分数,

52、

53、其中,s、o和τ分别是注释的主题、对象和时序戳,ε表示候选答案,we和wt分别是特定于实体预测和时序预测的d×d可学习矩阵,φ表示tcomplex中的得分函数;可互换地处理注释的主体和对象,并且max(·)函数确保当s或o是虚拟实体时,忽略分数;

54、在训练过程中,softmax用于计算该组合得分向量上的概率,并使用交叉熵损失。

55、进一步地,针对自然语言问句和不同的问题类型,通过构建的不同规则抽取问句中的主实体、关系与时序;根据抽取出的信息在时序知识图谱中查询对应的答案。

56、本发明的有益效果如下:

57、灵活的时序约束处理:通过引入虚拟时序约束,virekgqa能够更灵活地处理多时序粒度和复杂时序关系的问题,而不依赖预定义的模板或固定的时间限制假设。

58、捕获丰富的时序逻辑类型:virekgqa能够学习和理解相对顺序、序数和多粒度等多种时序逻辑类型,增强了模型的时序推理能力。

59、增强的复杂问题处理能力:借助rerank模块,virekgqa可以更准确地评估和选择答案,特别是在涉及复杂时间限制的问题上,提供了更精确可靠的解决方案。

60、适应更广泛的应用场景:virekgqa不仅适用于具有单一时间戳的情境,还能够有效处理具有时间范围的时态知识图谱,使其在更广泛的实际应用场景中具有更高的价值。

61、总体来说,virekgqa框架通过结合虚拟时序约束和多层次的时序逻辑嵌入,实现了对时序知识图谱的更精细、灵活和强大的推理能力,从而在时态知识图谱问答任务中树立了新的标杆。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1