一种OGC地理信息服务语义相似度计算方法与流程

文档序号:12364116阅读:389来源:国知局

本发明涉及一种OGC地理信息服务语义相似度计算方法,属于语义网技术领域。



背景技术:

地理信息服务是一种对公众开放共享空间地理数据以及应用的便捷途径,其目标是在任何时间、任何地点,任何人都可以得到其想要的任何空间数据。地理信息服务以其共享性、综合性、时效性、多源数据等特点,广泛应用于国家建设与国民经济的各个方面,如国土管理、城市规划、交通运输、水利水电、资源调查、环境评估、灾害预测等领域。OGC(Open Geospatial Consortium:开放地理空间联合会)为消除地理信息应用之间以及地理应用与其它信息技术应用之间的藩篱,建立一个无“边界”的、分布的、基于构件的地理数据互操作环境,推出了多种地理信息数据互操作和共享实现规范,极大的促进了地理信息共享的发展。

随着信息网络技术,特别是传感网的发展,与地理信息相关的服务也越来越多,随之将是地理信息服务的剧增,然而地理信息服务在地理空间知识的有效组织和表达方面的能力比较弱,缺乏对服务信息的描述,处于数据丰富而知识缺乏的境地,造成了已有的数据在知识的表示和检索上的缺陷。一个地理信息服务所描述的往往不是一个孤立的地理语义,经常会因为地理信息分类体系之间的语义不一致性导致在不同领域、不同系统解决问题的侧重点不同,因而存在语义差异问题,因此,计算机更难以准确地发现和匹配用户所需的地理信息服务服务,这直接导致了用户获取信息的速度与效率低下,诸如单纯的字面匹配方式使机器在检索过程中无法理解自然语言的真正内涵,经常出现服务匹配错位的现象。而地理信息服务数据间缺乏逻辑的关联,导致计算机更加难以理解数据的内涵,准确地发现和识别服务,从而影响了用户获取信息的速度与效率。



技术实现要素:

本发明所要解决的技术问题是提供一种采用全新设计策略,利用语义相似度实现机器对地理信息服务中描述信息的语义理解,有效提高用户目标搜索关键词地理信息服务匹配效率的OGC地理信息服务语义相似度计算方法。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种OGC地理信息服务语义相似度计算方法,包括如下步骤:

步骤001.获得OGC地理信息服务数据中所有OGC地理信息服务所对应各个描述标签里所包含描述词汇对应的本体,进而获得OGC地理信息服务数据中所有OGC地理信息服务所对应的所有本体,并进入步骤002;

步骤002.基于地理领域,针对OGC地理信息服务数据中所有OGC地理信息服务所对应的所有本体,构建树状结构本体库,并进入步骤003;

步骤003.根据树状结构本体库,获得目标搜索关键词所对应的本体,作为目标本体;然后依次遍历树状结构本体库,将各OGC地理信息服务所对应描述词汇对应的本体依次作为对比本体,执行如下步骤004-步骤005,获得目标本体与对比本体之间的相似度值Sim(O目标,O对比),由此获得目标本体分别与各OGC地理信息服务所对应各本体之间的相似度,然后进入步骤006;

步骤004.获得目标本体与对比本体之间的语义距离相似度Simsd(O目标,O对比),同时获得目标本体与对比本体之间的结构语义相似度Simst(O目标,O对比),以及获得目标本体与对比本体之间的属性信息相似度Simat(O目标,O对比),然后进入步骤005;

步骤005.根据如下公式:

Sim(O目标,O对比)=wsdSimsd(O目标,O对比)+wstSimst(O目标,O对比)+watSimat(O目标,O对比)

获得目标本体与对比本体之间的相似度Sim(O目标,O对比),其中,wsd、wst、wat分别表示语义距离相似度、结构语义相似度、属性信息相似度的权重,且wsd+wst+wat=1;

步骤006.根据目标本体分别与各个对比本体之间的相似度Sim(O目标,O对比),通过如下公式,分别针对各个OGC地理信息服务,获得目标搜索关键词与OGC地理信息服务之间的相似度Sim(keyword,service),由此获得目标搜索关键词分别与各个OGC地理信息服务的相似度,然后进入步骤007;

其中,keyword表示目标搜索关键词,O目标表示目标搜索关键词keyword所对应的本体,service表示OGC地理信息服务,I表示OGC地理信息服务service中指定描述标签的总数,Oi表示OGC地理信息服务service中第i个指定描述标签所对应的本体;

步骤007.根据目标搜索关键词分别与各个OGC地理信息服务的相似度,选取最大相似度值所对应的OGC地理信息服务,即为目标搜索关键词所需查询的目标服务数据。

作为本发明的一种优选技术方案:所述步骤001中具体包括如下操作:

步骤001.分别针对OGC地理信息服务数据中各个OGC地理信息服务,获得OGC地理信息服务分别所对应的各个能力描述文件,基于粗糙集的属性约简算法优化获得各个能力描述文件中的各个描述标签,接着基于约简后的各个描述标签提取各OGC地理信息服务所包含的描述词汇,最后获得描述词汇所对应的本体,由此获得各OGC地理信息服务所对应的所有本体,并进入步骤002。

作为本发明的一种优选技术方案:所述步骤002中,还包括针对树状结构本体库中两两本体之间连接路径所对应的各个语义关系预设语义关系值;

并且所述步骤004中,获得目标本体与对比本体之间的语义距离相似度Simsd(O目标,O对比),具体包括如下步骤:

步骤004a1.根据如下公式:

获得目标本体与对比本体之间的语义距离Dis(O目标,O对比),然后进入步骤004a2,其中,k表示O目标与O对比之间不可传递关系的个数,n={1、…、N},N表示O目标与O对比之间连接路径所对应语义关系的个数,Rn表示O目标与O对比之间连接路径所对应第n个语义关系的预设语义关系值;

步骤004a2.根据如下公式:

获得目标本体与对比本体之间的语义距离相似度Simsd(O目标,O对比),其中,Dis(Oi,Oj)表示树状结构本体库中任意两个节点上本体Oi与Oj之间的语义距离,Max{Dis(Oi,Oj)}表示树状结构本体库中任意两个节点上本体之间语义距离中的最大语义距离;Oroot表示位于所述树状结构本体库中根节点上的本体,LCA(O目标,O对比)表示树状结构本体库中O目标所在节点与O对比所在节点的公共祖先节点上的本体,Dis(Oroot,LCA(O目标,O对比))表示Oroot与LCA(O目标,O对比)之间的语义距离。

作为本发明的一种优选技术方案:所述步骤004中,获得目标本体与对比本体之间的结构语义相似度Simst(O目标,O对比),具体包括,根据如下公式:

获得目标本体与对比本体之间的结构语义相似度Simst(O目标,O对比),其中,Nb(O目标)表示树状结构本体库中O目标所在节点的兄弟节点的数量,Nb(O目标)表示树状结构本体库中O对比所在节点的兄弟节点的数量;Nb(Oi)表示树状结构本体库中各本体Oi所在节点的兄弟节点的数量,Mean{Nb(Oi)}表示树状结构本体库中各本体Oi所在节点的兄弟节点的数量的平均数;LCA(O目标,O对比)表示树状结构本体库中O目标所在节点与O对比所在节点的公共祖先节点上的本体,Nr(LCA(O目标,O对比))表示LCA(O目标,O对比)所在节点到树状结构本体库中根节点的路径上所有节点的数量,Nr(O目标)表示O目标所在节点到树状结构本体库中根节点的路径上所有节点的数量,Nr(O对比)表示O对比所在节点到树状结构本体库中根节点的路径上所有节点的数量。

作为本发明的一种优选技术方案:所述步骤004中,获得目标本体与对比本体之间的属性信息相似度Simat(O目标,O对比),具体包括,根据如下公式:

获得目标本体与对比本体之间的属性信息相似度Simat(O目标,O对比),其中,Attri(O目标)、Attri(O对比)分别表示O目标、O对比的属性集合。

本发明所述一种OGC地理信息服务语义相似度计算方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明所设计的OGC地理信息服务语义相似度计算方法,面向OGC地理信息服务应用,并结合了OGC地理信息服务能力文件的描述特性,从原本全文匹配的方式转变成只匹配服务主要描述信息,提高了服务匹配的效率,从语义距离、语义结构、属性信息三个方面综合获取本体的语义信息,利用语义相似度实现机器对地理信息服务中描述信息的语义理解,从用户的目标搜索关键词入手,借助本体所抽象的知识体系和地理信息数据要素分类体系,计算目标搜索关键词与服务间的语义相似度值,使机器理解用户的查询需求,从海量的地理信息服务中快速、便捷、准确的获取到可用服务,并且在具体的计算方法中,引入了可调节的权重因子,因子由OGC地理信息服务具体领域的语义分析在语义距离、语义结构、属性信息方面的不同侧重所决定,因此,本方法在具体应用中具备较好的灵活性。

附图说明

图1是本发明设计OGC地理信息服务语义相似度计算方法的流程图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明所设计OGC地理信息服务语义相似度计算方法中,本体作为一种人类自然语言与机器间的桥梁,提供了一种处理模糊数据查询与理解自然语言的新思路,语义相似度模型能够使机器在语义层面理解用户需求并匹配对应的地理信息服务。

在空间地理信息学科中,语义相似度在多个应用中扮演着重要的角色,比如空间决策系统、数据挖掘、模式识别等。例如:空间决策系统通过分析在国土管理中土地区位、交通、环境、气候等因素,计算每个地块的语义相似度,为土地规划决策提供数据依据。在灾害预警系统中,利用对各个地区环境数据的语义分析,并以此进行数据挖掘,预测灾害发生的可能性。

因此,语义相似度计算是高效处理地理空间数据的核心,用于计算潜在用户互操作下的关键词与不同地理信息服务间的语义相似度。与此同时,语义相似度也是解决模糊数据查询、模糊概念搜索与自然语言间语义差异性的关键,在智能语义推理和智能检索领域中起到至关重要的作用。

如图1所示,本发明所设计的一种OGC地理信息服务语义相似度计算方法,在实际应用过程当中,具体包括如下步骤:

步骤001.分别针对OGC地理信息服务数据中各个OGC地理信息服务,获得OGC地理信息服务分别所对应的各个能力描述文件,基于粗糙集的属性约简算法优化获得各个能力描述文件中的各个描述标签,接着基于约简后的各个描述标签提取各OGC地理信息服务所包含的描述词汇,最后获得描述词汇所对应的本体,由此获得各OGC地理信息服务所对应的所有本体,并进入步骤002

步骤002.基于地理领域,针对OGC地理信息服务数据中所有OGC地理信息服务所对应的所有本体,构建树状结构本体库,并且针对树状结构本体库中两两本体之间连接路径所对应的各个语义关系预设语义关系值,然后进入步骤003。

步骤003.根据树状结构本体库,获得目标搜索关键词所对应的本体,作为目标本体;然后依次遍历树状结构本体库,将各OGC地理信息服务所对应描述词汇对应的本体依次作为对比本体,执行如下步骤004-步骤005,获得目标本体与对比本体之间的相似度值Sim(O目标,O对比),由此获得目标本体分别与各OGC地理信息服务所对应各本体之间的相似度,然后进入步骤006。

步骤004.获得目标本体与对比本体之间的语义距离相似度Simsd(O目标,O对比),同时获得目标本体与对比本体之间的结构语义相似度Simst(O目标,O对比),以及获得目标本体与对比本体之间的属性信息相似度Simat(O目标,O对比),然后进入步骤005。

上述步骤004中,获得目标本体与对比本体之间的语义距离相似度Simsd(O目标,O对比),具体包括如下步骤:

步骤004a1.根据如下公式:

获得目标本体与对比本体之间的语义距离Dis(O目标,O对比),然后进入步骤004a2,其中,k表示O目标与O对比之间不可传递关系的个数,n={1、…、N},N表示O目标与O对比之间连接路径所对应语义关系的个数,Rn表示O目标与O对比之间连接路径所对应第n个语义关系的预设语义关系值。

步骤004a2.根据如下公式:

获得目标本体与对比本体之间的语义距离相似度Simsd(O目标,O对比),且Simsd(O目标,O对比)∈[0,1],其中,Dis(Oi,Oj)表示树状结构本体库中任意两个节点上本体Oi与Oj之间的语义距离,Max{Dis(Oi,Oj)}表示树状结构本体库中任意两个节点上本体之间语义距离中的最大语义距离;Oroot表示位于所述树状结构本体库中根节点上的本体,LCA(O目标,O对比)表示树状结构本体库中O目标所在节点与O对比所在节点的公共祖先节点上的本体,Dis(Oroot,LCA(O目标,O对比))表示Oroot与LCA(O目标,O对比)之间的语义距离。

获得目标本体与对比本体之间的结构语义相似度Simst(O目标,O对比),具体包括,根据如下公式:

获得目标本体与对比本体之间的结构语义相似度Simst(O目标,O对比),且Simst(O目标,O对比)∈[0,1]其中,Nb(O目标)表示树状结构本体库中O目标所在节点的兄弟节点的数量,Nb(O目标)表示树状结构本体库中O对比所在节点的兄弟节点的数量;Nb(Oi)表示树状结构本体库中各本体Oi所在节点的兄弟节点的数量,Mean{Nb(Oi)}表示树状结构本体库中各本体Oi所在节点的兄弟节点的数量的平均数;LCA(O目标,O对比)表示树状结构本体库中O目标所在节点与O对比所在节点的公共祖先节点上的本体,Nr(LCA(O目标,O对比))表示LCA(O目标,O对比)所在节点到树状结构本体库中根节点的路径上所有节点的数量,Nr(O目标)表示O目标所在节点到树状结构本体库中根节点的路径上所有节点的数量,Nr(O对比)表示O对比所在节点到树状结构本体库中根节点的路径上所有节点的数量。

获得目标本体与对比本体之间的属性信息相似度Simat(O目标,O对比),具体包括,根据如下公式:

获得目标本体与对比本体之间的属性信息相似度Simat(O目标,O对比),且Simat(O目标,O对比)∈[0,1],其中,Attri(O目标)、Attri(O对比)分别表示O目标、O对比的属性集合。

步骤005.根据如下公式:

Sim(O目标,O对比)=wsdSimsd(O目标,O对比)+wstSimst(O目标,O对比)+watSimat(O目标,O对比)

获得目标本体与对比本体之间的相似度Sim(O目标,O对比),其中,wsd、wst、wat分别表示语义距离相似度、结构语义相似度、属性信息相似度的权重,且wsd+wst+wat=1。

OGC地理信息服务本身具有良好的标准规范,相较于一般的地理信息Web服务而言,其描述信息分布更加集中和规范,以基于OGC标准的网络地图服务(WMS)为例,其包含服务描述标签的内容主要分在如下表1所示。

表1

所有这些描述标签的内容重要性并不是等价的,其中服务标题、服务名称、服务摘要和服务关键字这四个标签几乎囊括了该服务所有的描述信息。而其他标签的只是对服务中具体信息的补充或扩展,其补充扩展内容与上述四个标签的描述信息具有极高的重复性,这造成服务描述信息提取的冗余。为了快速、便捷提取有效描述信息,降低信息冗余,本方法仅从服务名称、服务标题、服务摘要以及服务关键字四个标签中提取属性信息。

利用以上的相似度Sim(O目标,O对比),本方法可以计算出目标本体分别与各个对比本体之间的间的语义相似度,但是对于目标搜索关键词与OGC地理信息服务的语义匹配的应用还是远远不够的。因此,接下来继续设计了如下步骤。

步骤006.根据目标本体分别与各个对比本体之间的相似度Sim(O目标,O对比),通过如下公式,分别针对各个OGC地理信息服务,获得目标搜索关键词与OGC地理信息服务之间的相似度Sim(keyword,service),由此获得目标搜索关键词分别与各个OGC地理信息服务的相似度,然后进入步骤007。

其中,keyword表示目标搜索关键词,O目标表示目标搜索关键词keyword所对应的本体,service表示OGC地理信息服务,I表示OGC地理信息服务service中指定描述标签的总数,Oi表示OGC地理信息服务service中第i个指定描述标签所对应的本体,即这里指定的描述标签为服务标题、服务名称、服务摘要和服务关键字四个描述标签,即I=4。

步骤007.根据目标搜索关键词分别与各个OGC地理信息服务的相似度,选取最大相似度值所对应的OGC地理信息服务,即为目标搜索关键词所需查询的目标服务数据。

本发明所设计的OGC地理信息服务语义相似度计算方法,面向OGC地理信息服务应用,并结合了OGC地理信息服务能力文件的描述特性,从原本全文匹配的方式转变成只匹配服务主要描述信息,提高了服务匹配的效率,从语义距离、语义结构、属性信息三个方面综合获取本体的语义信息,利用语义相似度实现机器对地理信息服务中描述信息的语义理解,从用户的目标搜索关键词入手,借助本体所抽象的知识体系和地理信息数据要素分类体系,计算目标搜索关键词与服务间的语义相似度值,使机器理解用户的查询需求,从海量的地理信息服务中快速、便捷、准确的获取到可用服务,并且在具体的计算方法中,引入了可调节的权重因子,因子由OGC地理信息服务具体领域的语义分析在语义距离、语义结构、属性信息方面的不同侧重所决定,因此,本方法在具体应用中具备较好的灵活性。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1