一种基于预训练语言模型的本体修正方法与系统

文档序号:37587842发布日期:2024-04-18 12:17阅读:10来源:国知局
一种基于预训练语言模型的本体修正方法与系统

本发明涉及一种基于预训练语言模型的本体修正方法与系统,属于语义网中本体修正。


背景技术:

1、随着万维网的快速发展,互联网数据急剧增长,如何让计算机快速、精准、自动地从这些数据中获取有价值的信息成为一个难题。为此,万维网之父蒂姆·伯纳斯-李提出语义网,对万维网进行扩展,使其具有语义和智能。在语义网中,本体被用来形式化地进行知识表示,可以定义实体以及实体之间的关系,对语义网中的知识共享、知识推理等起着至关重要的作用。随着网络本体语言owl成为w3c的推荐规范、链接开放数据项目的推动以及知识图谱技术的推广,人们开发出越来越多的本体,本体的重要性得到更进一步的增强。

2、作为一阶谓词逻辑的子集的描述逻辑为owl本体提供推理支持,可通过标准的描述逻辑推理机从本体已有的知识推导出一些蕴含的知识。这样的推理建立在一致本体的基础上,即对不一致本体进行推理时获得的推论是无意义的。因此,在执行标准推理之前,确保本体的一致性是个重要的环节。而本体的不协调性是导致本体不一致的一个主要的潜在因素,且在本体的构建、维护和演化等过程中往往不可避免地出现本体的不协调性,导致本体的不协调性处理成为一个重中之重的任务。在本体不协调性处理工作中,本体修正用可靠的本体修正待修正的本体,扮演着非常重要的角色。

3、本体修正旨根据一个可靠本体一致地修正一个待修正的本体,使得修正后的本体与可靠本体的合并不产生逻辑不协调性,即不包含任何解释为空集的不可满足概念。其中,可靠本体与待修正本体各自都假设是一致且协调的,而其合并后的本体是一致但不协调。本体修正有着较为广阔的应用场景,还可用于修补本体映射或单个本体。在修补本体映射时,本体映射转换得到的公理集合可看作待修正的本体,用于映射的两个本体的并可看作可靠的本体;在修补单个本体时,可将其公理分为静态部分与待修正部分,此静态部分包含一些可靠的或不可移除的公理。

4、截至目前,研究人员已经提出各种本体修正方法,利用公理的权重、在r-mips中的出现频率、逻辑推论、实体的签名等策略来挑选公理删除,使得修正后的本体跟对应的可靠本体合并起来不再存在不协调性。但是,这些方法往往只停留在本体的语法层或逻辑推理层,而很少考虑公理自身的语义信息,并且考虑推理层信息容易导致效率低下,只考虑语法层信息又往往很难区分一些公理的重要程度。最新的单个本体修补工作中,虽然存在个别工作考虑公理的语义信息,利用预训练语言模型对公理进行打分,但是尚未考虑本体修正的任务,即未能根据可靠本体与待修正本体的特征对公理打分。


技术实现思路

1、本发明的目的在于克服现有技术中的不足,提供一种基于预训练语言模型的本体修正方法与系统,考虑了公理的语义信息,可高效地分批处理不可满足概念。

2、为达到上述目的,本发明是采用下述技术方案实现的:

3、第一方面,本发明提供了一种基于预训练语言模型的本体修正方法,包括:

4、将输入的可靠本体k0与待修正本体k中的公理转成自然语言的句子,然后再用预训练模型将句子转成稠密的向量;

5、获取给定数量的不可满足概念,计算其r-mips;

6、给r-mips中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个r-mips中抽取子集;

7、基于r-mips中抽取的子集,计算得到最优修正方案,使得从k中移除该方案的所有公理后k∪k0变成协调的;

8、去除所述最优修正方案中的冗余公理,得到去过冗余的最终解决方案。

9、进一步的,所述将输入的可靠本体k0与待修正本体k中的公理转成自然语言的句子,然后再用预训练模型将句子转成稠密的向量,包括:

10、给出一个可靠本体k0和一个待修正本体k,并初始化全局诊断d为空集,其中k0与k都各自是一致的和协调的,而k∪k0是不协调的,其中,一个本体是不一致的当且仅当该本体不存在任何语义模型,反之是一致的;

11、使用概念转换规则与公理转换规则将公理转化为自然语言描述的短语或句子;

12、应用预训练模型将句子转换为向量,其中,所述预训练模型采用双向编码器表示bert模型,所述向量是七百多维的稠密向量;

13、其中,所述概念转换规则将本体k0与k中的原子概念或复杂概念转为自然语言表示的概念或短语,其中复杂概念是指在原子概念的基础上使用各种构造子连接起来的字符串,包括以下规则:

14、规则1:对于概念的交,设定a1、a2、…、an的交中a1、…、am都是原子概念,且am+1、…、an都是复杂概念,其中m与n都为正整数且m<n,则翻译为“a1 and…and am thatam+1and…andan”,其中的am+1…an被翻译为自然语言对应的短语;

15、规则2:对于概念的并,设定a1、a2、…、an的并,将其翻译为“a1 ora2 or…oran”;

16、规则3:对于形如objectsomevaluesfrom(r c)的存在量词限制,翻译为“r atleast one c”;

17、规则4:对于形如datasomevaluesfrom(r d)的存在量词限制,翻译为“has some rthat is d”;

18、规则5:对于形如objectallvaluesfrom(p a)或datasomevaluesfrom(p d)的全称量词约束,分别翻译为“p only from a”或“p only from d”;

19、规则6:对于形如objectexactcardinality(n op a)、objectmincardinality(nop a)与objectmaxcardinality(n op a)的数量约束,分别翻译为“p exactly n a”、“p atleast n a”与“p at most na”;

20、所述公理转换规则将本体中的逻辑公理转为自然语言表示的句子,包括以下规则:

21、规则1:对于形如subclassof(a b)的包含公理,如果b是一个原子概念,则转换为“a is a subclass ofb.”;否则转换为“every a b”;

22、规则2:对于两个概念的不交公理,则翻译为“classes a and b are disjoint.”;

23、规则3:对于属性之间的包含关系,设定p包含于r,则翻译为“p is a subpropertyofr”;

24、规则4:对于属性的不交公理,设定p与r不相交,则翻译为“properties p and rare disjoint.”;

25、规则5:对于属性定义域定义的公理,设定属性r的定义域为c,则翻译为“thedomain ofproperty r is c.”;

26、规则6:对于属性值域定义的公理,设定属性r的值域为c,则翻译为“the rangeofproperty ris c.”;

27、规则7:对于形如c(a)的实例类型断言,则翻译为“a is a c.”;

28、规则8:对于形如objectpropertyassertion(p ab)与datapropertyassertion(ra v)的属性断言,分别翻译为“ap b.”与“arv.”。

29、进一步的,所述获取给定数量的不可满足概念,计算其r-mips,包括:

30、调用标准的本体推理机pellet对k′∪k0进行推理,获得给定数量不可满足概念;

31、如果确实获得到k个不可满足概念,则计算这些不可满足概念的本地r-mips;否则,获得当前剩余的不足k个的不可满足概念,再计算其本地r-mips,其中,k为步长;

32、所述本地r-mips的定义是:假设有一个可靠的本体k0和一个待修改本体k,则k相对于k0的一个r-mips k'是k的子集,并且满足以下条件:(1)k′∪k0是不协调的;(2)对于每个k”∪k0是协调的,一个本体是不协调的当且仅当该本体包含至少一个不可满足概念,一个概念是不可满足的当且仅当它的解释为空集。

33、进一步的,所述计算这些不可满足概念的本地r-mips时,先计算这些不可满足概念的所有r-mups,然后从中挑选出r-mips;

34、所述r-mups的定义为:假设有一个可靠的本体k0和一个待修改本体k,对于k有关k0的一个不可满足概念c,它的一个r-mups k′是k的一个子集,且满足以下条件:(1)c在k′∪k0中不可满足;(2)对于每个c在k”∪k0是可满足的。

35、进一步的,所述计算这些不可满足概念的所有r-mups是指计算每个不可满足概念的所有r-mups的并集,而一个不可满足概念所有r-mups的计算采用基于碰集树的黑盒方法;

36、单个r-mups的计算先不停地从k中挑选公理添加到初始化为空集的集合s中,直到当前的s与k0的并集使得c变成不可满足时停止添加;然后再逐个检查s中的公理,如果从s中移除一个公理后c仍然在s∪k0中是不可满足的,那么就从s中移除该公理;最后得到的s就是一个r-mups;

37、基于碰集树的黑盒方法是指将一个r-mups作为一棵树的根节点,该r-mups中每条公理作为边,对每条边进行遍历,如果从k中删除该边上的公理后,c仍然在k∪k0中不可满足,则继续在当前的k中找下一个相对于k0的有关c的r-mups,再将该r-mups作为此边连接的节点,再继续将当前r-mups的所有公理作为边,从根节点出发的一条路径结束的标志是从原始的k中移除该路径上所有边表示的公理,使得c在k∪k0中变得可满足,通过该碰集树的构建,节点上的所有r-mups是c在k中相对于k0的所有r-mups。

38、进一步的,所述给r-mips中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个r-mips中抽取子集,包括:

39、设计四种不同的打分函数,所述四种打分函数中包括基于r-mips并集的打分函数、基于r-mips的打分函数、基于待修正本体的打分函数与基于可靠本体的打分函数,这些函数的定义都基于一个公理集合与一条公理之间的相似度的计算,其中,如果选择基于可靠本体的打分函数,那么从每个r-mips中抽取分数最低的那些公理构成子集;如果选择另外三种打分函数,那么抽取分数最高的公理为子集;

40、假设有一个可靠的本体k0和一个待修正本体k,给定k中一条公理a、k∪k0的一个子集s和一个预定义的阈值t,a与s之间的相似度定义为:

41、

42、其中,s′={b∈s|sim(va,vb)≥t},va与vb分别表示公理a与b对应的向量,sim(va,vb)表示va与vb之间的相似度。

43、进一步的,假设表示k有关k0的一个r-mips集合,则基于r-mips并集的打分函数定义为a与r-mips并集中公理的平均相似度,具体定义如下:

44、

45、基于r-mips的打分函数的定义为a与r-mips的平均相似度,具体定义如下:

46、

47、基于待修正本体的打分函数的定义为a与k中公理的平均相似度,具体定义如下:

48、

49、基于可靠本体的打分函数的定义为a与k0中公理的平均相似度,具体定义如下:

50、

51、进一步的,所述基于r-mips中抽取的子集,计算得到最优修正方案,使得从k中移除该方案的所有公理后k∪k0变成协调的,包括:

52、从r-mips中挑选出来的子集中的每个公理赋予一个二值变量;

53、基于这些二值变量构建一个目标函数;

54、基于构建的目标函数,根据每个子集构建一个约束;

55、通过求解器计算出一个满足所有约束的方案;

56、将该方案对应到一个公理集合,得到一个针对当前挑选出的子集计算出来的一个相对于给定子集的最优修正方案;

57、其中,所述修正过程的停止条件是当从k中移除所有找到的修正方案中包含的公理后k∪k0变成协调的时,否则继续从当前的k∪k0中计算k个不可满足概念;如果剩下的不可满足概念少于k个,则获取剩余的所有不可满足概念。

58、进一步的,所述去除所述最优修正方案中的冗余公理,得到去过冗余的最终解决方案,包括:

59、从原始的k中去除全局修正方案d中一个公理,如果该公理删除不影响k∪k0的不协调性,说明该公理是冗余的,则从d中移除该公理;

60、从原始k中去除下一个d中的公理,重复此过程直到d中所有公理被检查一遍,最终得到的d便是去过冗余的最终解决方案。

61、第二方面,本发明提供一种基于预训练语言模型的本体修正系统,包括:

62、准备模块,用于将输入的可靠本体k0与待修正本体k中的公理转成自然语言的句子,然后再用预训练模型将句子转成稠密的向量;

63、r-mips计算模块,用于获取给定数量的不可满足概念,计算其r-mips;

64、打分模块,用于给r-mips中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个r-mips中抽取子集;

65、修正方案计算模块,用于基于r-mips中抽取的子集,计算得到最优修正方案,使得从k中移除该方案的所有公理后k∪k0变成协调的;

66、去冗余模块,用于去除所述最优修正方案中的冗余公理,得到去过冗余的最终解决方案。

67、与现有技术相比,本发明所达到的有益效果:

68、本发明提供一种基于预训练语言模型的本体修正方法与系统,一方面采用基于预训练模型的打分函数,使得公理分数的计算考虑到了现有技术往往忽略的公理自身的语义信息;另一方面,本发明提出了一个基于给定步长的本体修正算法,由于避开了传统的非常耗内存与时间的基于所有r-mips的计算,效率可得到大大的提升,同时也可回避逐个修正不可满足概念带来的信息移除过多的问题;另外,本发明提供了一个更一般的本体修正框架,当k的值大于k∪k0中不可满足概念的数量时,该本体修正算可变成传统的基于所有r-mips的算法,当k=1时,该算法变成传统的逐个修正不可满足概念的算法;本发明提供的本体修正方法可满足用户的个性化配置,根据所需挑选不同的预训练模型、向量之间相似度的度量标准和打分函数等;本发明中步长的设置,可以根据本体的表达能力、不可满足概念的数量和r-mups的数量与大小等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1