一种基于竞价算法的本体匹配方法与流程

文档序号:15445947发布日期:2018-09-14 23:21阅读:517来源:国知局

本发明属于数据处理领域,尤其涉及一种基于竞价算法的本体匹配方法。



背景技术:

本体是指某个领域中的知识的概念化明确的规范说明,即对某个领域中存在的对象、概念、其他实体以及它们之间的关系的正式的和规范化描述。本体匹配过程:确定两个异质本体中语义相同的实体对集合的过程。本体匹配技术可以解决本体异质问题(同一个概念在不同本体有不同的名字),实现基于本体的应用程序在语义层面上的协作。然而面对大规模的本体概念集合,如何在本体匹配过程中高效地确定相似的本体概念对是本体匹配领域的挑战问题之一

本体作为语义网的核心技术,是一种共享的、正式的信息交换参考模型,它描述了某个领域中存在的对象、概念、其他实体以及它们之间的关系。本体技术在知识管理、信息检索、电子商务和生物医学等领域都具有重要应用,目前语义网上已公布的本体中含有的实体规模已经达到31亿之巨。然而,这些本体间的异质问题(同一个概念在不同本体有不同的名字)是实现语义网中不同应用间语义协作的最大障碍,也是制约语义网发展的瓶颈问题。本体匹配技术是当前解决本体异质问题最有效的方法。可是截至本专利申报书完成之前(2017年11月),已有的本体匹配技术对语义网上已公布的5亿个实体匹配结果有接近45%是错误的。因此目前急需一种能够高效获取最优本体匹配结果的本体匹配技术,而前沿的本体匹配技术普遍采用的方法是组合多个不同的本体匹配器的本体匹配结果以提高本体匹配结果的质量,其匹配效率普遍低下。

近年来进化算法成为实现本体匹配过程的前沿技术。为了通过进化过程来获取高质量的本体匹配结果,基于单目标进化算法memticalgorithm,以及基于两目标进化算法nsga-ii和moea/d的本体匹配技术陆续被提出。其中引入了matchfmeasure度量和uir度量以实现一次匹配多组本体的目的,通过聚类算法和交互式技术来组合不同的本体匹配器,提出了一种高效的局部搜索策略以提高本体匹配过程的效率;构建了一种两目标的本体匹配优化模型,提出了一种减少算法对优化目标偏好的本体匹配方案,提出了一种近似的本体匹配结果的质量度量技术,构建一种新的两目标的本体匹配优化模型,并设计了一种高效的本体匹配过程,通过将两个优化目标分解为多个子目标以减少算法对优化目标的偏好。但是无论采用什么策略,这些方法都需要消耗大量的运行时间和内存空间(尤其在本体中的概念数量庞大的时候)来确定次优的本体匹配结果,无法满足实际应用的需求。针对这一问题,本发明提出了一种基于竞价算法的本体匹配技术,该技术将本体匹配过程视为二分图的完美匹配问题,并在多项式时间内确定最优的本体匹配结果。



技术实现要素:

为解决上述问题本发明提供了一种基于竞价算法的本体匹配方法。

本发明是通过如下技术方案实现的:

一种基于竞价算法的本体匹配方法,所述本体o包括概念集合c,属性集合p和实例集合i,其中概念,属性和实例统称为本体的实体;本体匹配结果a是一个实体匹配对的集合,表示为一个四元组{e,e',n,rel},其中e和e'分别表示元本体和目标本体的实体,n是e和e'关系的可信度值,rel是e和e'之间的等价关系;所述本体匹配方法包括如下步骤,

步骤一)两个待匹配本体为o1={e11,e12,...e1n}和o2={e21,e22,...e2n},e1i,i=1,2,...,n和e2j,j=1,2,...,n分别是两个本体中的实体,建立如下模型:

其中:aij是实体e1i和e2j的相似度值;当e1i和e2j匹配上时xij=1,否则xij=0。

步骤二)初始化:设置本体o2中所有的实体e2j,j=1,2,...,n所对应的参数pj为0;

步骤三)迭代:对于本体o1中某个未匹配上的实体e1i,设置其对应的xij为1,其中j=argmaxaij,j∈{1,2,...,n},更新pj=aij-pj+ω,其中ω是一个很小的正数,可以取0.001;设置xkj=0,k∈{1,2,...,n},k≠i;

步骤四)终止条件:若所有的e1i∈o1都实现匹配,则终止。

与现有技术相比,本发明具有以下优点:

本发明将本体匹配过程视为二分图的完美匹配问题,并建立相应的优化模型;通过竞价算法确定最优的本体匹配结果。本发明减少了运行时间。竞价算法的能够在二项式时间内确定最优的本体匹配结果,远低于前沿的基于进化算法的本体匹配技术。本发明节约了内存消耗。竞价算法所需的内存远低于前沿的基于进化算法的本体匹配技术。本发明提高了本体匹配结果的质量。前沿的基于进化算法的本体匹配技术确定的是次优的本体匹配结果,而竞价算法可以确定最优的本体匹配结果。本发明中的方法可用于语义网、数据信息集成技术、电子商务系统、地理信息系统、web服务组合和智能语义检索系统。

具体实施方式

实施例1

(1)多目标本体匹配问题

在本发明中,本体o定义为o={c,p,i},其中c,p和i分别表示本体中的概念集合,属性集合和实例集合,其中概念,属性和实例统称本体的实体。本体匹配结果a是一个实体匹配对的集合,每一个实体匹配对可以表示为一个四元组{e,e',n,rel},其中e和e'分别表示元本体和目标本体的实体,n是e和e'关系的可信度值,rel是e和e'之间的关系(在本发明中特指等价关系)。

给定两个待匹配本体o1={e11,e12,...e1n}和o2={e21,e22,...e2n},e1i,i=1,2,...,n和e2j,j=1,2,...,n分别是两个本体中的实体,本体匹配问题的优化模型如下:

其中:aij是实体e1i和e2j的相似度值;当e1i和e2j匹配上时xij=1,否则xij=0。

(2)竞价算法

1.初始化步骤:设置所有的e2j,j=1,2,...,n对应的参数pj为0;

2.迭代步骤:对于某个未匹配上的实体e1i∈o1,设置其对应的xij为1,其中j=argmaxaij,j∈{1,2,...,n},更新pj=aij-pj+ω,其中ω是一个很小的正数,可以取0.001;设置xkj=0,k∈{1,2,...,n},k≠i。

3.终止条件:如果所有的e1i∈o1都匹配上了,算法终止。

以上实施例仅用于说明本发明,但不用来限制本发明的范围,凡是依据本发明的技术实质对以下实例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1