基于语义相似度的地理要素查询扩展方法

文档序号:6655104阅读:248来源:国知局
专利名称:基于语义相似度的地理要素查询扩展方法
技术领域
本发明属于地球空间信息系统领域,尤其涉及一种基于地理本体语义相似度进行地理要素查询扩展方法。
背景技术
“人类正在被数据淹没,但人类却贫乏于知识。”随着计算机和互联网技术的飞速发展,网络上的信息量急剧增长,面对庞大的信息资源,人们感到无所适从,迷失在 Internet这张巨大的信息网中,“信息过载”和“信息迷航”已经成为人们谈论最多的话题之一。面对浩如烟海的信息,信息技术领域的一个热点问题就是如何帮助用户高质量地检索获取真正有用的信息。但是目前实用的信息检索系统,主要是基于人工分类目录和关键词匹配的。前者由于需要手工操作,对海量信息资源的揭示的效率和深度都很有限,后者仅局限在字符形式匹配的层面上,对信息的语义、语用的揭示极为有限,同时多义词、同义词等异构信息的存在使得这种词形匹配方式的缺陷日益明显,因此许多检索系统经常会出现检索不全、答非所问的情况。而对于约占人类信息80%左右的空间信息来说,由于具有分布性、多样性、异构性的特点,给空间信息的共享和互操作带来了许多不便。同时,限于相关技术的研制与发展, 目前空间信息资源的提供者对数据的描述只停留在数据的表面层次上,数据之间缺乏必要的关联,导致计算机无法理解数据的内涵,难以准确地发现满足用户需求的数据,从而直接影响到用户获取信息的速度和效率。而在传统的地理信息检索方式中,以下问题日益明显(1)地理空间信息表现形式的多样性。传统的地理空间信息常以地名或空间坐标数据的形式出现,这是多数人所认可和熟知的。但这两类常见的地理空间信息因为国度、文化、承载介质的不同而表现各异。随着人类对地理信息世界认识的不断深入以及地理空间信息解决方案的不断改进,地理空间信息的表现形式逐渐走向多样化,这为地理空间信息的检索带来了许多挑战。(2)地理空间信息描述的模糊性。这主要表现在两个方面。一方面是在描述地理空间信息时使用了无法精确定位的名称。另一方面是对地理空间信息的描述存在歧义。如部分不同地区的地名称谓相同、或者地名与方位名相同,这些名称在传统的词形匹配方式信息检索时极易造成混淆,给地理空间信息的检索造成障碍。(3)传统信息检索主要以关键词词形匹配的方式实现,多义词、同义词等异构信息的存在使得这种词形匹配方式的缺陷日益明显。在传统信息检索基础上发展而来的地理空间属性特征信息的检索同样继承了这个缺陷。另外,用户在查询需要的地理信息时,往往并不了解数据在数据库中的名称和存储结构,另外人们对世界认知的不同方式,导致对同一地理现象的观察描述会侧重于对象不同的侧面,从而产生观点上的差异,并形成语义异构。即由于用户认知和概念世界中的概念与系统模型中的概念之间存在语义异质性,用户查询出来的数据往往并不是他们真正需要的。这就要求系统能够对用户表达的查询语句进行相似匹配,把满足条件的信息返回给用户,因此可以利用地理本体来建立智能地理信息发现和查询系统以及地理信息服务系统。所谓地理本体就是,把有关地理科学领域的知识、信息和数据抽象成由一个个具有共识的对象(或实体),并按照一定的关系而组成的体系,同时进行概念化处理和明 确的定义,最后以形式化表达的理论与方法。相似度的计算方法目前有三种途径一是利用语料库统计的方法,根据两个概念在上下文出现的频率,计算概念间语义相似度;二是利用语义词典如WorNet、HowNet等的同义词或义原组成的树状层次体系结构,通过计算两个概念之间的信息熵或语义距离,计算概念间的语义距离;三是利用本体中两个概念节点之间的语义距离计算概念的相似度。基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。基于词典的方法简单有效,也比较直观、易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间的句法和语用特点考虑得比较少。第三类方法虽然对影响概念语义相似度的节点深度、节点密度、属性信息等因素加以考虑,但仅考虑到基本的属性信息,而忽略了地理概念间的空间关系这一影响因子,这恰恰是地理本体中对语义相似度影响最大的因素,因此在计算地理要素相似度方面很难加以应用。本发明提出的基于语义相似度的地理概念的查询扩展算法在第三类方法的基础上,对影响语义相似度计算的因子进行充分的考虑和取舍,重点考虑空间关系对地理要素语义相似度的影响,最终得到较理想的结果,很好的解决了语义查询扩展这一问题。

发明内容
本发明在分析、评价现有的相似度算法模型的基础上,充分考虑和选取各种影响因子,实现基于地理本体语义相似度模型的地理要素查询扩展,能够快速、准确的得到用户查找的信息,改变了单纯的词形匹配的查询方式,提高了查询的效率。由此,本发明提供了一种基于地理本体语义的相似度获取方法,包括如下步骤(1)从地理信息系统中提取基础地理信息,从中获取描述地理本体所需的各概念以及各概念之间的关系;(2)将所述各概念以及各概念之间的关系用网络拓扑结构进行描述,使用不同节点来描述不同概念,使用节点之间的连线来描述概念之间的关系;(3)根据概念节点间不同的空间关系,对概念节点之间的连线进行赋值,对每种不同关系连线赋予不同的权重系数;(4)查找待分析的两概念节点之间最短路径,根据所述最短路径上各关系连线的不同权重计算获得两概念节点之间的语义距离;(5)查找待分析的两概念节点所共有的公共祖先节点,计算获得待分析的两概念节点到公共祖先节点的深度;(6)计算获得待分析的两概念节点的公共祖先节点密度;
(7)计算获得待分析的两概念节点的共有属性比例(主要是空间关系);(8)通过所述步骤(4)至步骤(7)中获得的两概念节点之间的语义距离、两概念节点到公共祖先节点的深度、两概念节点的公共祖先节点密度、两概念节点的共有属性计算得到带分析的两概念之间的相似度。在上述技术方案中,在所述步骤(8)中进一步包括分别对两概念节点之间的语义距离、两概念节点到公共祖先节点的深度、两概念节点的公共祖先节点密度、两概念节点的共有属性设置调节参数。在上述技术方案中,相似度计算公式如下
权利要求
1.一种基于地理本体语义的相似度获取方法,其特征在于包括如下步骤(1)从地理信息数据库中提取基础地理信息,从中获取描述地理本体所需的各概念以及各概念之间的空间关系,所述空间关系包括方位关系、拓扑关系以及度量关系;(2)将所述各概念以及各概念之间的空间关系用网络拓扑结构进行描述,使用不同节点来描述不同概念,使用节点之间的连线来描述概念之间的关系;(3)根据概念节点间不同的空间关系,对概念节点之间的连线进行赋值,对每种不同关系连线赋予不同的权重系数;(4)查找待分析的两概念节点之间最短路径,根据所述最短路径上各关系连线的不同权重计算获得两概念节点之间的语义距离;(5)查找待分析的两概念节点所共有的公共祖先节点,计算获得待分析的两概念节点到公共祖先节点的深度;(6)计算获得待分析的两概念节点的公共祖先节点密度;(7)计算获得待分析的两概念节点的共有属性比例,特别是空间属性;(8)通过所述步骤(4)至步骤(7)中获得的两概念节点之间的语义距离、两概念节点到公共祖先节点的深度、两概念节点的公共祖先节点密度、两概念节点的共有属性计算得到待分析的两概念之间的相似度。
2.如权利要求1中所述的基于地理本体语义的相似度获取方法,其特征在于在所述步骤(8)中进一步包括分别对两概念节点之间的语义距离、两概念节点到公共祖先节点的深度、两概念节点的公共祖先节点密度、两概念节点的共有属性设置调节参数。
3.如权利要求2中所述的基于地理本体语义的相似度获取方法,其特征在于在所述步骤(8)中使用如下公式计算相似度
4.一种使用权利要求1-4中任一项所述基于地理本体语义的相似度获取方法的地理要素查询扩展方法,其特征在于除查询用户直接输入的概念外,还扩展查询相关概念,所述相关概念与所述用户直接输入的概念通过所述基于地理本体语义的相似度获取方法所计算得到的相似度大于所设定的阈值。
5.如权利要求4中所述的地理要素查询扩展方法,其特征在于所述相关概念的查询结果根据计算得到的相似度进行排序,相似度高的相关概念的查询结果排序靠前。
全文摘要
本发明涉及一种基于语义相似度的地理要素查询扩展方法,利用地理本体中两个概念节点之间的最短连线距离计算概念的相似度,同时还考虑到节点深度、节点密度影响因子、共有属性比例和公共祖先节点密度等影响因素。此外,充分考虑地理本体区别于一般领域本体的特性-地理概念之间的空间关系,例如方位关系、拓扑关系、度量关系等,这一重要的影响因子,根据概念间空间关系的不同,赋予它们不同的权值,从而将空间关系对语义相似度的影响进行量化。在充分考虑和选取各种影响因子的基础上,实现基于地理本体语义相似度模型的地理要素查询扩展,能够快速、准确的得到用户查找的信息,改变了单纯的词形匹配的查询方式,提高了查询的效率。
文档编号G06F17/30GK102156726SQ20111008150
公开日2011年8月17日 申请日期2011年4月1日 优先权日2011年4月1日
发明者刘纪平, 张东, 张福浩 申请人:中国测绘科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1