基于知识蒸馏联合内生规则约束的知识图谱补全方法

文档序号:36499980发布日期:2023-12-28 01:19阅读:34来源:国知局
基于知识蒸馏联合内生规则约束的知识图谱补全方法

本发明属于桥梁检测知识图谱补全,尤其涉及一种基于知识蒸馏联合内生规则约束的知识图谱补全方法。


背景技术:

1、知识图谱由google公司提出,作为增强其搜索功能的知识库,在近几年得到了迅速发展。随着知识图谱价值不断地被发掘,各类领域知识图谱也迅速建设起来。当前知识图谱已经被广泛应用在自然语言处理的各项任务中,但知识图谱中实体间关系的缺失也给其实际的应用带来了很多问题。因此,目前学术界围绕知识图谱的补全进行了大量的研究工作。

2、桥梁检测领域伴随大数据与人工智能相关技术的迅速发展,也逐步引入了大量自动化与半自动化智能技术做为辅助,来帮助行业相关从业人员开展对于桥梁的日常检测工作。其中贡献较为突出的,如桥梁检测自动问答、桥梁检测信息可视化等基于神经网络与深度学习的技术体系,大多依赖于完备的、成熟的桥梁领域知识图谱做为支撑。将桥梁领域自动问答系统做为一个技术体系来看,知识图谱的构建与补全工作处于整个体系的最上游。一个完备的、成熟的知识图谱对于下游任务,如实体抽取、实体消歧、知识融合、链接预测、图谱推理等任务来说,都是工作顺利进展的基石。因此,构建一个专注于桥梁检测领域的垂直行业知识图谱,是智能化技术在桥梁检测领域持续发展必不可少也是至关重要的一步。

3、知识图谱的构建通常分为本体层(模式层)和实例层(数据层)。本体层是知识图谱的概念模型和逻辑基础,对实例层进行规范约束。规范化的知识图谱多采用本体作为知识图谱的模式层,借助本体定义的规则和公理约束知识图谱的实例层。也可将知识图谱视为实例化了的本体,知识图谱的数据层是本体的实例。经工程实践和理论分析表明,桥梁检测领域的专业知识庞杂博广,无法在短时间内或可控成本范围内,完成知识图谱本体层的构建与完善工作,其主要原因在于构建本体层需要以统筹全领域的高度概括性完成领域知识模式的总结、归纳与表述,要求参与本体层构建的相关人员具备大量的领域知识并付出极高的时间成本。因此绝大多数垂直领域的知识图谱在构建初期,都绕过本体层的顶层设计而直接构建实例层,从而造成了知识图谱的实例化构建缺乏本体层做为指导和约束。而知识图谱补全技术做为知识推理的一种直接应用,又必须要求图谱提供实例层之外的规则和约束做为推理依据。客观上造成了知识图谱在缺乏本体层的情况下又需要本体层提供的规则做推理的矛盾。

4、为了给缺乏本体层的知识图谱提供推理约束的同时又能避免人工参与规则的设计与制定,现有相关工作常见的做法是制作一套简易的规则充当约束,如引入几种一阶逻辑范式构成一个不完备的规则体系,或定义特定的子图模式进行全局搜索匹配等方法。此类规则的共性在于,虽然具有极强的可解释性。但是,该类方法对噪声数据的容忍度极低、对训练的数据清洁程度要求很高、规则约束的模式过于固定。这些特点都决定了该类方法不适合应用于数据治理程度比较低的垂直领域。而桥梁管养领域正好属于专业知识庞杂博广的垂直领域。对于桥梁管养领域而言,该方法的规则设计脱离于知识图谱和数据集本身,在多数情况下并不能很好的表征数据集本身的规则特点。因此,难以使用该方法进行桥梁管养领域的知识图谱补全。

5、综上,在缺乏本体层和规则体系做指导的情况下,怎样才能较好的实现桥梁管养领域的知识图谱补全,成为目前亟待解决的问题。


技术实现思路

1、针对上述现有技术的不足,本发明提供了一种基于知识蒸馏联合内生规则约束的知识图谱补全方法,可以较好的实现桥梁管养领域的知识图谱补全。

2、为了解决上述技术问题,本发明采用了如下的技术方案:

3、基于知识蒸馏联合内生规则约束的知识图谱补全方法,包括以下步骤:

4、s1、根据知识图谱构建经验和桥梁检测领域专业知识,设计出n种桥梁检测领域常见的知识图谱子图结构;

5、s2、使用s1的知识图谱子图结构对原知识图谱的三元组进行筛选,得到m个三元组子集,作为内生于原知识图谱抽取出的规则约束;其中,m≤n;

6、s3、对s2筛选出的三元组子集进行清洗处理,得到规则训练集;

7、s4、将s3得到的规则训练集作为训练数据集的补充,使用规则训练集与训练数据集联合训练知识蒸馏的teacher网络,使teacher网络学习原知识图谱抽取出的规则约束;

8、s5、将训练数据集中的正确标签联合做为监督,同时将训练后的teacher网络的预测结果作为另一种监督,联合对知识蒸馏的student网络进行训练,使student网络向融合规则之后的学习结果逼近;

9、s6、使用训练后的student网络对原知识图谱进行补全。

10、本发明与现有技术相比,具有如下有益效果:

11、1、针对规则的提取与挖掘,现有的方法大多根据领域知识设计规则,这些规则的设计脱离于知识图谱和数据集本身,在多数情况下并不能很好的表征数据集本身的规则特点。本发明所引入的推理约束,则是基于桥梁检测领域常见的知识图谱子图结构,抽取出内生于原知识图谱和数据集的规则,这些规则在知识层面更契合原知识图谱,可以更好的表征数据集本身的规则特点,从而更好地帮助模型学习内嵌于知识图谱的领域知识表征,提高知识图谱嵌入的表达能力。

12、2、针对规则约束,现有方法通常采用基于符号学习的方法,这些方法对噪声数据的容忍度极低、对训练的数据清洁程度要求很高、规则约束的模式过于固定,不适用于领域知识图谱。本发明引入基于知识蒸馏的网络架构,通过teacher网络充分学习所抽取的规则,再对student网络形成监督的方式,间接完成规则的融入。这样,既保证对于数据噪音有较强的鲁棒性,又可以充分学习规则的表征。

13、3、本方法的模型能够在缺乏本体层和规则体系做指导的情况下,对现有知识图谱挖掘具有针对性的规则约束,进而利用这些规则做约束,在知识蒸馏的架构下完成对规则的学习,最终实现图谱的补全。

14、综上,使用本方法,可以较好的实现桥梁管养领域的知识图谱补全。

15、优选地,s2包括:

16、s21、将构成原知识图谱的所有三元组纳入一个统一的三元组集合;

17、s22、对s21得到的三元组集合进行遍历,分别得到符合s1中设计的各知识图谱子图结构的三元组子集;

18、s23、若某个知识图谱子图结构的三元组所占比例达到预设的阈值,则判定该知识图谱子图结构所代表的规则内生于原知识图谱;

19、s24、将s23中判定为内生于原知识图谱的m个知识图谱子图结构对应的三元组子集,作为原知识图谱抽取出的规则约束。

20、这样,可以保证对原知识图谱中三元组筛选的完整性,从而保证规则提取与挖掘的有效性。

21、优选地,s3中,所述清洗处理包括:去重、去除格式异常、人工筛选错误知识以及规范化输出。

22、这样,保证用于后续模型训练规则约束的有效性,保证后续模型训练的效果。

23、优选地,s4中,teacher网络的训练过程如下:

24、s41,将s3的规则训练集做为训练集t2,与现有原始数据集中的训练数据集t1融合为联合训练集t;

25、s42,初始化teacher网络;

26、s43,对t1训练得到训练集上的损失函数loss_train,对t2训练得到规则集上的损失函数loss_rule;

27、s44,对teacher网络总体损失函数loss=loss_train+loss_rule进行优化,完成teacher网络的训练。

28、这样,可以使teacher网络充分学习从原知识图谱中抽取的规则,保证后续训练的效果。

29、优选地,teacher网络以lineare模型作为基础。

30、优选地,s5中,student网络的训练过程如下:

31、s51,初始化student网络;

32、s52,训练过程中,对于每一个批次的训练样本,样本对应的标签为y_label,由训练好的teacher网络给出的预测为y_teacher;student网络的预测为y_student;将y_label作为训练集本身产生的监督信息,将y_teacher作为规则约束产生的监督信息;

33、s53,y_label和y_student之间交叉熵计算得到损失函数loss_1,y_student和y_teacher之间交叉熵计算得到损失函数loss_2;

34、s54,优化student网络的总体损失函数loss=loss_1+loss_2,完成student网络的训练。

35、这样的监督的方式,可以间接完成原知识图谱抽取的规则的融入。在训练student网络时,可以既保证充分学习训练集的数据,又兼顾融入的规则约束。

36、优选地,student网络以lineare模型作为基础。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1