一种基于多视图表征学习的异构本体匹配系统及方法

文档序号：37542221发布日期：2024-04-08 13:42阅读：14来源：国知局

本发明属于知识管理和语义处理技术相结合的领域，特别涉及一种基于多视图表征学习的异构本体匹配系统及方法。

背景技术：

1、知识管理是系统内部确保知识有效流通、应用和增值的一系列策略和实践。它涉及知识的识别、捕获、共享、保存和创新等方面，旨在提升系统的决策能力、创新性和竞争优势。本体作为信息科学中精确描述特定领域知识的形式化模型，定义了一系列概念、属性、关系和规则。在知识管理体系中，本体被用于组织和表示知识，它通过构建一个标准化的概念框架来增强知识检索的准确性，并促进不同系统之间的语义兼容。

2、但是迄今为止本体构建的结果未有一个准确的语义化规范，受到开发人员主观思维及用户需求的影响，相同领域的相似概念或属性可能会被描述成不同的形式，从而导致了本体在知识建模和粒度级别上的异构问题。具体表现在三个方面，分别是系统异构、语法异构和结构异构。这些异构问题严重阻碍了语义web程序间的互操作，给本体在知识管理方面的应用带来了巨大的挑战。在智能家居设备领域，公司a开发的本体使用“智能设备”这一类别，并直接用属性“所在位置”来描述设备的位置，而公司b开发的本体则细分了“家居设备”和“智能控制器”，并通过“位于”属性将设备与房间类别的实例相联系。这种异构的特性可能会导致在整合来自不同智能家居系统的数据或在它们之间进行信息交换时出现问题。如果一个服务提供商想要创建一个跨品牌的集成智能家居平台，他们需要处理并对齐这两个本体中的不同概念和关系，以确保数据的一致性。因此本体匹配技术被提出来消除概念间的异构问题，成为实现知识共享、语义融合的关键。

3、本体匹配的核心目的是识别相同或相交领域本体之间实体的对应关系，旨在推动知识的重用和系统间互操作的实现。早期的本体匹配任务主要依赖于各种预定义的词库，通过查询同义词库来确定不同概念间的映射。然而，由于本体规模的日益扩大，手工构建和维护这样的词库变得越来越困难，并且会在没有字典或足够的文本语料库的情况下受到限制。随着深度学习的发展，基于表征学习的方法开始被运用到本体匹配任务中，通过对本体中的概念进行特征向量化表征，从而将匹配问题转化为基于向量相似度的计算。尽管这种方法有所进步，但仍然面临一些挑战和局限性，具体表现在：

4、(一)匹配任务在处理本体中的稀疏实体时编码能力较差，意味着当某些实体在本体中缺乏充分的上下文信息或与其他实体的关联较少时，实体的向量表征可能不够准确。

5、(二)匹配任务主要集中于利用术语特征学习词向量以发现实体间的语义关系，却忽视了本体的结构特征。这种偏向会导致匹配结果缺乏全面性，从而降低了匹配的泛化能力，因为仅用术语无法充分表达本体内部的复杂关联和层次结构。

6、在实践中，这些挑战和局限性会导致智能家居设备间的互操作性问题，使得不同来源的设备难以实现有效的通信和协作。例如，新推出的智能设备可能因为缺乏准确的表征而无法被系统正确识别，或者因为忽视了设备间的结构关系而无法在自动化场景中正确响应。这不仅影响了用户体验，也限制了智能家居系统的功能扩展和智能化水平。

技术实现思路

1、针对上述方法所存在的不足，本发明的目的在于提供一种基于多视图表征学习的异构本体匹配系统及方法，该系统能够从不同角度出发捕捉智能家居知识体系中的实体特征，有效促进了异构本体的集成。具体而言，本发明首先采用本体嵌入方法学习实体的向量映射，强化了模型对特定本体的编码能力。其次模型在考虑自身语义视图的同时，结合了丰富的结构特征，包括属性视图和层次视图，这种综合的多视图方法使得模型能够从多个维度全面理解实体，提高了匹配过程的准确性和鲁棒性。

2、为解决上述问题，本发明的技术方案如下：

3、一种基于多视图表征学习的异构本体匹配系统，包括本体嵌入模块、多视图编码模块、多视图聚合模块和相似度计算模块；

4、所述本体嵌入模块，用于读取本体文件，将rdf三元组转换为有向拓扑图，执行随机游走算法，得到节点序列作为词向量模型的训练语料库；

5、所述多视图编码模块，用于将实体向量映射送入孪生网络进行编码；

6、所述多视图聚合模块，用于使用加性注意力机制加权聚合各视图信息，获得综合向量表征；

7、所述相似度计算模块，用于使用欧几里得距离公式计算来自不同本体的实体综合向量表征，得到最终相似度得分。

8、进一步，所述孪生网络包括两个分支，每个分支中包括三个并行的编码子网络：层次视图编码器采用长短期神经网络处理每个实体在本体中的路径信息，属性视图编码器采用图卷积网络处理每个实体的在本体中邻域信息，语义视图编码器采用多层感知机丰富每个实体的在本体中概念信息。

9、进一步，所述本体嵌入模块的具体执行流程为：

10、(1)本体解析：解析器jena通过读取rdf格式的本体文件，将rdf三元组加载到内存中，形成一个可查询和操作的数据结构；

11、(2)构建rdf图：以rdf三元组为基础构建有向拓扑图g＝(v,e)，其中每个实体是一个节点，每个谓词表示从主体节点到宾语节点的有向边，而v是节点的集合，e是有向边的集合；

12、(3)随机游走：对rdf图中每个选定的目标实体执行随机游走，按照如下概率分布随机选择边进行转移：

13、

14、p(vi|vi-1)表示从节点vi-1到节点vi的概率，|n(vi-1)|是节点vi-1的邻接节点数量；

15、(4)语料库生成：将随机游走得到的节点路径转换为序列，视为图中实体和关系的上下文，用于生成词嵌入训练的语料库；

16、(5)向量训练：使用skip-gram跳字模型的词嵌入算法来学习每个实体的向量映射，跳字模型的目标是给定一个中心词wt，预测它的上下文词wc，因此需要最大化以下条件概率：

17、

18、和是中心词与上下文词的向量形式，来自语料库的词汇表，通过自监督训练尺寸大小为v的词向量，最终实现对特定本体的初始嵌入。

19、进一步，所述层次视图编码器用于捕获实体在本体中的上下文路径结构：

20、r1＝lstm(v(p))

21、r1为层次嵌入，v(p)是路径信息p的向量表示。

22、所述属性视图编码器用于捕获实体在本体中的局部邻域结构：

23、r2＝gcn(v(n))

24、r2为属性嵌入，v(n)是邻域信息n的向量表示。

25、所述语义视图编码器用于捕获实体本身概念的含义和内容：

26、r3＝mlp(v(c))

27、r3为语义嵌入，v(c)是概念信息c的向量表示。

28、进一步，所述多视图聚合模块的具体步骤包括：

29、(1)对于每个视图嵌入ri，计算其注意力分数si：

30、si＝wttanh(wri+b)

31、w是可学习的权重向量，w是权重矩阵，b是偏置项；

32、(2)使用softmax函数对所有视图的注意力分数进行归一化，得到每个视图的权重αi：

33、

34、(3)通过这些权重对每个视图的嵌入进行加权求和，得到最终的聚合表征rcombined：

35、

36、进一步，所述相似度计算模块使用欧几里得距离公式计算来自不同本体的实体综合向量表征，得到最终的相似度得分。所述欧几里得距离用于直观地反映两个实体的综合向量(尺寸大小v)之间的差异，计算公式为：

37、

38、本发明还提供一种基于多视图表征学习的异构本体匹配方法，包括以下步骤：

39、步骤1：读取本体文件，将rdf三元组转换为有向拓扑图，执行随机游走算法，得到节点序列作为词向量模型的训练语料库；

40、步骤2：将实体向量映射送入孪生网络进行编码，所述孪生网络包括两个分支，每个分支中包括三个并行的编码子网络分别进行以下处理：采用长短期神经网络处理每个实体在本体中的路径信息，采用图卷积网络处理每个实体的在本体中邻域信息，采用多层感知机丰富每个实体的在本体中概念信息；

41、步骤3：使用加性注意力机制加权聚合各视图信息，获得综合向量表征；

42、步骤4：使用欧几里得距离公式计算来自不同本体的实体综合向量表征，得到最终相似度得分。

43、本发明网络模型在负采样策略下，采用边际损失函数进行训练，具体步骤如下：

44、(1)确定正样本，通常来自不同本体参考的相似或等价实体对。

45、(2)结合随机抽样和k近邻算法为每一对正样本选择k个通过硬采样挑选的负样本，若已有的正样本实体对(e,el+)，将el+替换为在语义上非常接近但仍可区分的实体，以生成负样本实体对(e,el-)；

46、(3)通过边界损失函数度量两个实体之间的距离，并且在距离小于阈值时惩罚负样本对，边界损失函数公式为：

47、

48、γ是一个边际超参数，e代表所有实体的集合。

49、本发明的有益效果在于：

50、(一)现有匹配任务在处理本体中的稀疏实体时编码能力较差，意味着当某些实体在本体中缺乏充分的上下文信息或与其他实体的关联较少时，实体的向量表征可能不够准确。针对这一问题本发明以本体rdf特性为基础，采用本体嵌入的方式，不仅捕捉了实体的直接语义信息，还通过随机游走算法考虑了实体间的远程依赖，从而为稀疏实体提供了更丰富的上下文信息。

51、(二)现有匹配任务主要集中于利用术语特征学习词向量以发现实体间的语义关系，却忽视了本体的结构特征。针对这一问题本发明采用多视图的方式，确保了模型不仅依赖于术语特征，还结合了结构和层次特征，这为发现实体间的语义关系提供了一个综合的视角。其次，自注意力机制的引入使得模型能够根据不同实体和上下文的特定情况，自适应地调整各个视图在最终表征中的贡献，这样的动态权重分配机制增强了模型对不同类型本体匹配任务的适应性和泛化能力。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：耿道渠,陈志刚,魏旻,许文萱,王平
技术所有人：重庆邮电大学
我是此专利的发明人

上一篇：行驶数据识别方法、装置、计算机设备及存储介质与流程
上一篇：一种分区式控制机柜的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。