基于语境的地名检索方法及系统的制作方法

文档序号:6575154阅读:170来源:国知局
专利名称:基于语境的地名检索方法及系统的制作方法
技术领域
本发明涉及地理信息检索技术领域,尤其涉及一种基于语境的地名检索方法及系 统。
背景技术
随着信息技术的高速发展,人们获取信息越来越方便。面对网络中海量的信息源, 帮助用户从中快速准确的找到有用信息的信息检索技术得到了长足发展。地理空间信息在 网络信息中占据很大的比例,如果不能有效的对地理信息进行处理,必然会减低信息检索 的准确度,影响用户的使用。地理信息检索就是在传统信息检索的基础上,充分利用文档中 包含的与地理相关的信息,结合地理信息的特点和处理方式,帮助用户更加有效的完成信 息检索。地理信息检索技术主要支持以下三方面的应用地名检索,例如北京、中关村等, 检索返回地名的地理空间位置;类型检索,例如山川、河流等,检索返回指定类型的地理实 体;关系检索,例如方向关系、距离关系等,检索返回满足条件的地理实体。地名是表达某一特定空间位置上自然或人文地理实体的专有名称。一方面,日常 交流中人们表达和接受地理位置时多依赖地名进行,同时大量的社会经济数据乃至一些自 然观测数据中的地理位置的表达也通过地名进行;另一方面,类型检索、关系检索往往需要 地名来参与表达查询内容。因此,地名检索成为地理信息检索中最为广泛的应用。然而,现有地名检索的准确度不高,很难满足用户的需求。这一不足主要有以下三 方面的原因1、现有地名检索技术不能正确理解页面内容或查询中地名所蕴含的地理空间语 义,不能有效的处理地名重名问题,出现查不准或查不全的现象;2、现有地名检索技术没有考虑查询检索时用户的查询目的、用户所处的地理位置 等个人偏好,检索结果往往并不是用户所需要的;3、现有地名检索技术无法有效的处理文本信息,计算机尚不能理解地名的自然语 言表述形式,现有地名检索主要采用的是全文检索的方式,仅仅通过简单的关键词文本匹 配完成,检索结果存在大量的冗余和错误。语境本是语言学中的一个术语。在语言学中,语境指具体语言形式出现的环境, 通常分为广义的语境和狭义的语境广义的语境是指社会文化语境,也就是语言形式赖以 生存的社会文化形态,它涉及到人类生活的各个方面,从衣食住行、风俗习惯到价值观念等 等;狭义的语境是指语言形式出现的具体语境,又称为情景,如上下文关系、角色、语体、语 调、语法、词汇等等。对一个概念来说,同时存在着语境不相关的性质和语境相关的性质。语 境不相关的性质形成了它的核心意义,而语境相关的性质则反映了语义编码的变化性。研 究表明,地名具有明显的语境相关性,同一地名在不同的语境下表达的地理空间语义有所 不同。地名在一定的语境下能够更加准确的表达地理空间实体及其位置。

发明内容
本发明的目的是提供一种基于语境的地名检索方法及系统,其能够提高地名检索准确度,同时更好的满足用户需求,以克服现有技术的不足。为实现上述目的,本发明采用如下技术方案。本发明一种实施方式的基于语境的地名检索方法,包括S1.根据语境,将待检索 地名语句分为基于表达语境的检索内容部分以及基于查询语境的检索用户特征部分,并输 入;S2.处理所述检索内容部分,查询检索得到初始检索结果及其匹配度;S3.处理所述检 索用户特征部分,调整所述初始检索结果的匹配度,得到最终检索结果及其匹配度。其中,所述表达语境表示地名的地理空间语义,以及约束地名的适用范围;所述查 询语境表示地名检索行为发生时的检索背景,以及用户对检索结果的期望。其中,所述检索内容部分包括以下三个内容元素名称为待检索目标对象的地 名;类型为所述目标对象的类型;关系断言由参照对象、以及所述目标对象的与所述参 照对象的关系两部分组成。其中,所述三个内容元素独立地,或通过逻辑和、逻辑或、逻辑否定的形式,构成所 述检索内容部分。其中,所述检索用户特征部分包括以下两个内容元素查询主题为检索用户所 关心的主题、领域;用户位置为所述检索用户所处的地理空间位置。其中,所述匹配度为检索结果与用户对地名检索的期望之间的匹配程度,其数值 在0 1之间。本发明的另一实施方式提供了一种基于语境的地名检索系统,该系统包括输入 模块,用于根据语境,将待检索地名语句分为基于表达语境的检索内容部分以及基于查询 语境的检索用户特征部分,并输入;初始检索模块,用于处理所述检索内容部分,查询检索 得到初始检索结果及其匹配度;最终检索模块,用于处理所述检索用户特征部分,调整所述 初始检索结果的匹配度,得到最终检索结果及其匹配度。其中,所述表达语境表示地名的地理空间语义,以及约束地名的适用范围;所述查 询语境表示地名检索行为发生时的检索背景,以及用户对检索结果的期望。其中,所述检索内容部分包括以下三个内容元素名称为待检索目标对象的地 名;类型为所述目标对象的类型;关系断言由参照对象、以及所述目标对象的与所述参 照对象的关系两部分组成。其中,所述三个内容元素独立地,或通过逻辑和、逻辑或、逻辑否定的形式,构成所 述检索内容部分。其中,所述检索用户特征部分包括以下两个内容元素查询主题为检索用户所 关心的主题、领域;用户位置为所述检索用户所处的地理空间位置。其中,所述匹配度为检索结果与用户对地名检索的期望之间的匹配程度,其数值 在0 1之间。本发明的地名检索方法及系统,提供了适用于地名检索的语境的规范化定义,区 别了表达语境和查询语境,使得地名检索的内容更加完整,地名表达更加准确,消除了地名 的不确定性;使得地名检索获得更加符合用户需求的检索结果;形式化表达包含语境的地 名检索语句,建立相应的查询处理策略,使得计算机能够处理包含语境的地名检索;对地名检索结果的准确度进行量化评价,可帮助用户更有效地使用地名检索结果。


图1为依照本发明的一种实施方式的基于语境的地名检索方法流程图;图2为依照本发明的一种实施方式的基于语境的地名检索系统结构示意图。
具体实施方式
本发明提出的基于语境的地名检索方法及系统,结合附图和实施例详细说明如 下。如图1所示,依照本发明一种实施方式的基于语境的地名检索方法包括如下步 骤Si.根据语境,将包含语境的地名检索语句形式化表达,即将待检索地名语句分为 基于表达语境的检索内容部分以及基于查询语境的检索用户特征部分,并输入;S2.处理检索内容部分,查询检索得到初始检索结果及其匹配度;S3.处理检索用户特征部分,调整初始检索结果的匹配度,得到最终检索结果及其 匹配度。本发明将地名检索的语境区分为表达语境和查询语境。表达语境包括(1)待检索 目标对象的类型以及(2)目标对象与参照对象的关系两部分,用于表示地名的地理空间语 义,以及约束地名的使用范围;查询语境包括(1)用户查询主题以及(2)用户位置两部分, 用于表示用户地名检索行为发生时的检索背景,以及用户对检索结果的期望。两者是同时 存在并相互独立的,主要区别体现在以下三方面1、两者封装的语境对象不同。表达语境直接封装地名,作用于一个地名概念,反映 了地名的语义相关的性质,作用于地名检索的整个处理过程。查询语境则封装地名检索语 句,作用于一次地名检索行为,反映了地名检索的用户相关的性质,作用于地名检索结果的 准确度评价阶段。2、两者针对的技术问题不同。表达语境参与地名的地理空间语义的表达,能够表 达同一地名在不同语境下的不同含义;约束地名的使用范围,消除了地名的重名问题,目的 在于提高地名检索的准确度。查询语境则不涉及地名的语义问题,而关注于使用地名检索 的用户,目的在于提供更符合用户期望的个性化检索结果。3、两者对地名检索结果的影响不同。表达语境能够决定结果集的内容以及结果对 应检索内容本身的匹配度。查询语境只能在包含了表达语境的地名检索确定后的结果集内 部对结果的匹配度进行调整,而并不能删除某些结果。在步骤Sl中,通过分析待检索内容的组成结构,检索内容部分包括三个内容元 素名称(Name)为待检索目标对象的地名;类型(Type)为待检索目标对象的类型;关系断言(Predicate):由参照对象、以及所述目标对象的与所述参照对象的关 系两部分组成。传统地名检索的地名关键词映射为名称,表达语境中的目标对象的类型和 目标对象与参照对象的关系分别映射为类型和关系断言。同时,考虑到待检索内容的丰富性和灵活性,通过逻辑和(AND)、逻辑或(OR)和逻辑否定(NOT)三个逻辑元素用以表达以上 三个内容元素的逻辑组合。内容元素相互独立,且具有原子性。即它们可以单独使用以表 达简单查询,也可能借助逻辑元素以逻辑组合的方式表达任意的复杂查询。检索用户特征部分包括两个元素
查询主题(Theme)为检索用户所关心的主题、领域;用户位置(Location)为检索用户所处的地理空间位置。查询语境中的用户查询主题和用户为之分别映射为查询主题和用户位置。举例来说,位于中关村的用户查询“北京市的人民医院”,这一地名检索可形式化 为
名称__A^_
类型 医院 检索内容部分 ---
^7ic1参照对象北京市关系断言--
___目标对象与参照对象关系 以内
查询主题无
检索用户特征部分--
_ 用户位置I_中关村_步骤S2及步骤S3中检索内容部分以及检索用户特征部分的处理即表达语境和查 询语境的处理,均涉及了地名在类型和空间位置两方面的信息。因为表达语境与地名直接 相关,而查询语境则与地名检索的用户相关,所以本发明中表达语境的处理优先级高于查 询语境的处理优先级。对地名检索形式化后的元素而言,优先对检索内容部分进行处理。具 体为,首先对检索内容部分中的类型/关系断言进行处理,如果对检索内容部分中的类型/ 关系断言进行了处理,则不对检索用户特征部分中的查询主题/用户位置进行处理,用户 位置/查询主题的处理不受影响。步骤S4中,匹配度指最终检索结果与用户对地名检索的期望之间的匹配程度,其 数值在0 1之间。匹配度数值越高则表示检索结果越符合用户的检索期望。影响匹配度 的因素及相关处理策略如下1、地名类型的相似度。匹配度可表示相似类型与检索的地名类型的相似程度,检 索结果得到检索地名类型的相似类型,以获得更多的可能结果。例如位于中关村的用户查 询“北京市的人民医院”这一地名检索中的医院类型可以扩展为私人诊所、专科医院、中医 院等医疗机构,不同类型之间的相似程度由具体应用的算法决定。2、模糊的空间关系。地名检索中涉及到的空间关系往往是定性表达的,因而具有 模糊性,如方向关系或远、近等距离关系。匹配度可表示将定性关系转化为定量关系进行计 算得到结果对应这种定性关系的隶属度。例如可以将定性距离关系远近转化为“1公里以 内”、“1公里-10公里之间”和“10公里以外”等一系列距离进行定量计算。检索结果对应 定性关系的隶属度由具体应用的算法决定。3、查询语境。根据查询语境记录的检索用户的偏好在初始检索结果的匹配度基础 上进行调整,以使得符合用户偏好的检索结果获得较高的匹配度。例如位于中关村的用户查询“北京市的人民医院”这一地名检索的结果中,离中关村近的检索结果的匹配度要高于 离中关村相对较远的检索结果匹配度。其中,查询主题引起的匹配度类似于地名类型的处 理,计算初始结果的类型与查询主题的相似程度;用户位置引起的匹配度根据初始结果位 置与用户位置的远近从近至远降低。本实施方式中,匹配度的计算部分包括匹配度综合和匹配度调整两个算法1、匹配度综合算法如下检索内容部分可能出现类型和关系断言同时存在的情 况,计算初始检索结果匹配度要综合这两方面的匹配度,采用“两者相较取其小”的原则选 择相对较低的匹配度 定义地名类型的相似度引起的匹配度为mdtype (0<md·彡1),模糊的空间关系引
起的匹配度为mdpredi。ate(0 < mdpredicate彡1),初始检索结果的匹配度为HicUinal,则mdoriginal = min Ondtype, mdpredicate)2、匹配度调整算法如下根据查询语境记录的检索用户的偏好在初始检索结果的 匹配度基础上进行调整的算法要满足、符合用户偏好的检索结果获得较高的匹配度原则定义初始检索结果的匹配度为md iginal(0 < mdoriginal彡1),查询主题引起的匹配 度为 Hldtheme (0 < Hldtheme ( 1),用户位置引起的匹配度为 Hldlocation (0 < Hldlocation ( 1),最终检 索结果的匹配度为Hidfinal,定义系数0 < λ” λ2,λ3< 1且满足条件λ1+λ2+λ3 = 1,则mdfinal = mdoriginalX (λ !+A2Xmdtheme+ λ 3Xmdlocation)匹配度计算过程涉及的具体算法以及参数,根据地名检索的应用目的,应用对象 不同而有所不同,具体算法以及参数的选择不在本发明的权利范围之内。综上所述,步骤S2中初始检索结果的匹配度计算遵循匹配度综合算法;步骤S3中 调整初始检索结果的匹配度的计算遵循匹配度调整算法。如图2所示,依照本发明的另一实施方式的基于语境的地名检索系统,该系统包 括输入模块,用于根据语境,将待检索地名语句分为基于表达语境的检索内容部分以及基 于查询语境的检索用户特征部分,并输入;初始检索模块,用于处理检索内容部分,查询检 索得到初始检索结果及其匹配度;最终检索模块,用于处理检索用户特征部分,调整初始检 索结果的匹配度,得到最终检索结果及其匹配度。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通 技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有 等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
权利要求
一种基于语境的地名检索方法,该方法包括步骤S1.根据语境,将待检索地名语句分为基于表达语境的检索内容部分以及基于查询语境的检索用户特征部分,并输入;S2.处理所述检索内容部分,查询检索得到初始检索结果及其匹配度;S3.处理所述检索用户特征部分,调整所述初始检索结果的匹配度,得到最终检索结果及其匹配度。
2.如权利要求1所述的基于语境的地名检索方法,其特征在于,所述表达语境表示地 名的地理空间语义,以及约束地名的适用范围;所述查询语境表示地名检索行为发生时的检索背景,以及用户对检索结果的期望。
3.如权利要求1所述的基于语境的地名检索方法,其特征在于,所述检索内容部分包 括以下三个内容元素名称为待检索目标对象的地名;类型为所述目标对象的类型;关系断言由参照对象、以及所述目标对象的与所述参照对象的关系两部分组成。
4.如权利要求3所述的基于语境的地名检索方法,其特征在于,所述三个内容元素独 立地,或通过逻辑和、逻辑或、逻辑否定的形式,构成所述检索内容部分。
5.如权利要求1所述的基于语境的地名检索方法,其特征在于,所述检索用户特征部 分包括以下两个内容元素查询主题为检索用户所关心的主题、领域;用户位置为所述检索用户所处的地理空间位置。
6.如权利要求1所述的基于语境的地名检索方法,其特征在于,所述匹配度为检索结 果与用户对地名检索的期望之间的匹配程度,其数值在0 1之间。
7.一种基于语境的地名检索系统,该系统包括输入模块,用于根据语境,将待检索地名语句分为基于表达语境的检索内容部分以及 基于查询语境的检索用户特征部分,并输入;初始检索模块,用于处理所述检索内容部分,查询检索得到初始检索结果及其匹配度;最终检索模块,用于处理所述检索用户特征部分,调整所述初始检索结果的匹配度,得 到最终检索结果及其匹配度。
8.如权利要求7所述的基于语境的地名检索系统,其特征在于,所述表达语境表示地 名的地理空间语义,以及约束地名的适用范围;所述查询语境表示地名检索行为发生时的检索背景,以及用户对检索结果的期望。
9.如权利要求7所述的基于语境的地名检索系统,其特征在于,所述检索内容部分包 括以下三个内容元素名称为待检索目标对象的地名;类型为所述目标对象的类型;关系断言由参照对象、以及所述目标对象的与所述参照对象的关系两部分组成。
10.如权利要求9所述的基于语境的地名检索系统,其特征在于,所述三个内容元素独 立地,或通过逻辑和、逻辑或、逻辑否定的形式,构成所述检索内容部分。
11.如权利要求7所述的基于语境的地名检索系统,其特征在于,所述检索用户特征部 分包括以下两个内容元素查询主题为检索用户所关心的主题、领域; 用户位置为所述检索用户所处的地理空间位置。
12.如权利要求7所述的基于语境的地名检索系统,其特征在于,所述匹配度为检索结 果与用户对地名检索的期望之间的匹配程度,其数值在0 1之间。
全文摘要
本发明涉及一种基于语境的地名检索方法及系统,该方法包括步骤根据语境,将待检索地名语句分为基于表达语境的检索内容部分以及基于查询语境的检索用户特征部分,并输入;处理所述检索内容部分,查询检索得到初始检索结果及其匹配度;处理所述检索用户特征部分,调整所述初始检索结果的匹配度,得到最终检索结果及其匹配度。本发明的方法及系统通过语境提高地名检索准确度、更好的满足用户需求。
文档编号G06F17/30GK101957819SQ20091008888
公开日2011年1月26日 申请日期2009年7月21日 优先权日2009年7月21日
发明者刘瑜, 张毅, 李润强, 袁一泓, 陈凯晨, 高勇 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1