一种基于互联网主动迭代探测的未知位置估算方法

文档序号:6385697阅读:212来源:国知局
专利名称:一种基于互联网主动迭代探测的未知位置估算方法
技术领域
本发明涉及一种未知位置估算方法,尤其是涉及一种基于互联网主动迭代探测的未知位置估算方法。
背景技术
随着GPS等定位技术的不断发展和完善,基于位置的服务LBS (Location-BasedService)的应用领域不断扩充,例如各种电子地图服务平台(百度地图、谷歌地图、Bing地图等)、旅游信息查询系统、日常生活兴趣点查询系统、交通查询系统、社交网络等。这些位置服务平台或系统提供位置信息查询的方法主要有两种:一种是利用GPS定位、地图操作等获取较为精确的位置坐标进行查询;另一种是利用自然语言位置描述进行查询,这种定性或者半定量的位置描述存在多种不确定度,但是比较符合人类的表达习惯和认知。面向自然语言位置查询,位置数据库需要存储位置名称与地理范围之间的映射关系,而现有位置数据库由于建设成本高、耗时长、规模受限、更新困难等原因,难以存储所有的位置名称,而是主要集中于主要地名、地址、显著性POI等重要位置的采集与保存。因此,对生活中数量庞大、显著性小、重要性相对较低的位置进行查询变得无法实现,从而与全方位、多层次、多粒度的位置服务需求相矛盾。(参考文献:古静,基于位置的信息服务应用系统研究与开发[D].西安电子科技大学,2004;夏保国,基于GIS的武汉市旅游信息查询系统的设计与实现[D].华中科技大学,2006;高威斯,基于位置的服务与城市交通导航系统的设计[D].云南大学,2011;杨煜尧等,一种基于地理位置信息的移动互联网社交模型[J].计算机研究与发展,2011;)互联网作为大型知识库提供了丰富的地理知识,可以作为位置服务的扩展数据源。网络搜索的位置参考信息,需要利用自然语言理解从大量文本信息中提取位置描述。自然语言理解是能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法,位置描述的自然语言理解主要是对位置名称和位置关系的识别。关于位置名称的识别,已有研究侧重于提取地理命名实体或地名,主要有两种方法:一种是基于规则的方法,建立地理命名实体或地名的语料库和构造规则,采用规则匹配的方式进行识别,这种方法对概念构造规则要求严格,能够提高抽取结果的准确率,但是使查全率下降很多,难以解决模糊位置和新位置识别的问题;另一种是基于统计的方法,由于不考虑句法、语义上的信息,不可避免地对一些低频数语的获取和邻接高频词引入的噪声上存在一些问题。关于位置关系的识别,已有研究主要侧重于提取基本空间关系(拓扑关系、度量关系、方位关系等),主要有两种方法:一种是基于语句分析的方法,这种方法需要彻底理解句法结构以及句子语义,存在脆弱性和多歧义问题;一种是基于模式的方法,可以避免对语句进行彻底分析,但是由于自然语言表达的丰富性,同一信息存在多种表达方式,会使模式的数量急剧膨胀。(参考文献:乐小虬等,基于空间语义角色的自然语言空间概念提取[J].武汉大学学报 信息科学版,2005;姜琳等,地理实体概念及其位置关系的获取和 验证[J].计算机科学,2007;李丽双等,基于支持向量机的中文文本中地名识别[J].大连理工学报,2007;李晗静,基于自然语言处理的空间概念建模研究[D].哈尔滨工业大学,2007;李玉森,面向GIS的地理命名实体识别研究[J].重庆邮电大学学报(自然科学版),2008;马龙,基于条件随机域模型的中文地名识别的研究[D].大连理工大学,2009;唐旭日等,基于篇章的中文地名识别研究[J].中文信息学报,2010;蒋文明,面向中文文本的空间方位关系抽取方法研究[D].南京师范大学,2010;申琪君,中文文本空间关系标注方法研究[D].南京师范大学,2010;张雪英等,基于规则的中文地址要素解析方法[J].地球信息科学学报,2010;李海光,基于位置和语义特征的中文命名实体关系抽取研究[D].合肥工业大学,2011;杜萍等,中文地名识别与歧义消除——以中国县级以上行政区划地名为例[J].遥感技术与应用,2011.)位置数据库存在规模受限、更新困难的问题,基于位置数据库的地理位置信息查询(尤其是模糊位置查询)会出现位置名称难以识别或者覆盖范围缺失的情况,不足以满足用户需求。互联网中蕴含了丰富的地理知识,能够提供大量感兴趣位置的描述信息用于估算“未知”位置覆盖范围。而如何从互联网中搜索位置相关的信息,并从中获取“未知”位置的近似地理范围,是本发明的主要工作。

发明内容
本发明主要是解决现有技术所存在的技术问题;提供了一种能够充分利用互联网中数量丰富、动态变化的地理知识资源,实现对目标位置的近似范围估算。本发明的上述技术问题主要是通过下述技术方案得以解决的一种基于互联网主动迭代探测的未知位置估算方法,其特征在于,包括以下步骤步骤1,检查用户输入位置查询词;若位置无法从空间数据库获取地理覆盖,则主动开始互联网迭代探测,即以目标位置为主题利用网络搜索引擎从互联网爬取目标位置相关信息;步骤2,以位置查询词为主题进行初始探测,利用网络引擎从互联网中获取包含目标位置描述的网页集合;步骤3,针对步骤2得到的目标位置描述的网络文档进行地理位置解析,即从网络文档中提取自然语言位置描述,所述自然语言位置描述包括参考位置和空间关系;步骤4,采用步骤3得到的自然语言位置描述进行位置描述分类;如果位置描述的参考位置能够从位置数据库获取地理覆盖,位置描述存入精确描述集合P,否则存入模糊描述集合A ;步骤5,评估当前搜索可信率Cs ;若(;小于搜索可信阈值Cmin,以模糊描述集合A中的参考位置为主题进行新一轮互联网文本搜索;若Cs大于或者等于搜索可信阈值Cmin,则跳至步骤7 ;步骤6,重复步骤I至步骤5,直至每轮搜索结果可信率满足阈值或者达到搜索次数限制为止;步骤7,计算所有位置描述的近似地理范围及其可信度;步骤8,集成和提炼多个位置描述地理覆盖,获取目标位置的地理范围;在上述的一种基于互联网主动迭代探测的未知位置估算方法所述步骤3中,自然语言位置描述识别主要包括位置名称识别和空间关系的识别,采用基于语义的多尺度提取方法抽取自然语言位置描述,具体包括以下子步骤:步骤3.1,建立位置描述的语料库,语料库中存储表达位置名称和空间关系的特征词汇以及位置描述的句法模式;这里,建立语料库可以通过人工归纳和机器学习的方式建立。步骤3.2,在语料库的支持下,对网络文本进行模式匹配,获取位置描述;步骤3.3,基于地理的和非地理的语义消除地名歧义。在上述的一种基于互联网主动迭代探测的未知位置估算方法所述的步骤4中,利用参考位置和空间关系估算目标位置的前提是参考位置能够从位置数据库中获取精确的地理范围,设定单个位置描述按照式一进行表达,RO为参考位置名称,SR为位置空间关系,T为位置描述的发生时间,C为位置描述具有的可信度,S为参考对象RO的搜索参考;抽取结果中前K个位置描述Loci,并依据前提条件进行分类,当Loc1.RO满足前提条件时,Loci存入精确描述集合P,否则存入模糊描述集合A ;Loc = {R0,SR,T,C,S}式一在上述的一种基于互联网主动迭代探测的未知位置估算方法所述的步骤5,评估当前搜索可信率Cs的具体方法是:定义搜索可信率Cs作为评价指标,搜索可信率是P中所有位置描述的可信度之和与位置描述总数之比,如式二所示,m是P中位置描述个数,K是位置描述总数,Loc1.C是某个位置描述的可信度。
m—lc _石!復丄式二`
5 — ^K^位置描述的可信度按照式三进行计算,其中ε是衰减参数,η是搜索次数,设定位置描述可信度在首次搜索时为1,并随着搜索次数的增加而衰减;Loc1.C=I* ( ε )η 式三当Cs满足最低可信阈值Cmin时,直接输出精确描述集合P进行目标位置估算;当Cs不满足条件时,采用基于互联网多次迭代搜索的方法来保证搜索可信率,即取A中的模糊参考位置进行新一轮互联网搜索,通过网络资源先估算参考位置地理范围,进而利用参考位置估算目标位置。在上述的一种基于互联网主动迭代探测的未知位置估算方法所述的步骤6即为模糊参考位置迭代搜索;依据步骤4和步骤5的处理,设定搜索结果采用式四表达,η是搜索次数,m是当次搜索的位置序号,P是精确描述集合,A是模糊描述集合,Cs是搜索可信率。WS [n] [m] = {P, A, Cj 式四所述的迭代搜索过程包括以下子步骤:步骤6.1,将目标位置搜索结果的模糊位置描述WS [O] [O].A存入搜索集合Q,设n=0,m=0 ;步骤6.2,取Q中模糊描述集合WS[η] [!11]^,判断11+1是否达到搜索次数限制,如果是则退出搜索;步骤6.3,依次取WS[n] [m].A中位置描述Loci进行第n+1次搜索,获取搜索结果WS[n+l] [i],并关联到位置描述的参考对象RO搜索引用,即Loc1.S = WS [n+1] [i];步骤6.4,从Q中去掉完成搜索的模糊描述集合WS[n] [m].Α,检查
WS[n+1] [i].Cs是否满足阈值Cmin,若不满足则将WS[n+1] [i].A放入搜索集合Q中;步骤6.5,检查Q中是否存在模糊描述集合,如果有则重复步骤6.2至步骤6.4进行迭代搜索。在上述的一种基于互联网主动迭代探测的未知位置估算方法所述的步骤7,由于第k搜索结果的模糊位置描述需要参考第k+Ι次搜索结果,采用逆序计算的方式,即从最后一次搜索开始进行地理范围计算,具体包括以下子步骤:
步骤7.1,定义搜索结果WS中搜索次数为n,第η次搜索位置个数为m,m=WS [n-1].size ;定义地理范围集合FC存储每次搜索结果的地理范围;步骤7.2,取第η次搜索第m个位置的搜索结果WS [n_l] [m_l];步骤7.3,依次取WS[n_l]P中的位置Locy,基于位置数据库查询参考位置坐标,利用Point-Radius算法计算地理覆盖FP (y)及其可信度CP (y);步骤7.4,依次取WS [n-1] [m_l].A中的位置Locx,利用Locx.S在地理范围集合FC中查询参考位置坐标,若成功获取坐标,则利用Point-Radius算法计算地理覆盖FA (y)及其可信度CA (y);步骤7.5,融合P和A中所有位置的地理范围,获取当次搜索结果的地理范围FC(WS[n-1][m-1]);步骤7.6,判断m-Ι是否大于O ;若大于0,则进行下一个搜索结果的位置计算,令 跳至步骤b);若小于或等于O,则进行下一步;步骤7.7,判断n-Ι是否大于O ;若大于0,则进行前一次搜索结果的位置计算,令n=n-l, m=WS[n-1].size,跳至步骤b);若小于或等于0,则进行下一步;步骤7.8,输出 FC (WS [O] [O])。因此,本发明具有如下优点:能够充分利用互联网中数量丰富、动态变化的地理知识资源,实现对目标位置的近似范围估算。由于互联网中位置信息与非位置信息关联复杂,并且信息表达形式多样化,本发明针对互联网中的自然语言文本信息,采用基于语义的多尺度提取方法从网页文本中抽取位置描述,并利用Point-Radius算法计算目标位置的近似地理范围。。


图1是互联网主动搜索方法的流程图。图2基于互联网搜索结果的位置计算的流程图。
具体实施例方式下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。实施例:1、理论基础。1.1、地理信息检索(Geographic Information Retrieval, GIR)。地理信息检索是根据地理查询范围的限制,返回与地理信息查询相关的文档。基本思路是利用网络爬虫从互联网上搜索网页集合,通过命名实体识别与分类以及语法分析识别网页中的地名,从而确定查询词和文档的地理范围,最后计算文档与查询词之间的关联度(包括文本关联和空间关联)返回和排序检索结果。目前大部分地理信息检索主要是采用关键词匹配算法,检索词和网络文档中的地名都需要具有明确地理覆盖范围进行关联技术,这种方式难以适应模糊地名(例如长江中下游)的情况,因而无法直接用于基于网络搜索的未知位置估算。本发明参考地理信息检索的思路,提出了一种多尺度的迭代搜索算法(如图1),基于互联网获取未知位置相关的网络文档,并提取包含未知位置的位置描述,进而利用位置描述中的参考位置和空间关系计算出未知位置的近似地理范围。主要流程是通过元搜索从互联网上获取网页集合后,基于语义提取网页中的包含查询词的位置描述,如果位置描述不满足可信率进行查询词位置估算,则对识别的模糊位置进行新一轮的互联网检索,这个过程是一个迭代的过程,只要可信率条件不满足或者没有达到搜索限制,就不断进行网络搜索获取能够估算模糊位置地理范围的参考信息。1. 2、位置描述地理配准(Georeferencing Locality Descriptions, GLD)。位置描述地理配准是将位置从文本描述转换成某个坐标系统下的数值描述。理想的位置描述地理配准过程是将文本描述转成数字描述能够并映射到地图上,并且表达位置的空间范围以及位置分布的不确定度,目前比较流行的算法是Point-Radius算法和Probability算法。Point-Radius方法利用一个点以及最大误差来描述位置及其不确定度,主要考虑的不确定度来源包括参考位置(参考位置的空间范围、大地基准、坐标精度、地图比例尺)和空间关系(距离关系不确定度以及方向关系的不确定度),所有不确定度度量投影到一个维度作为目标位置的最大误差,以点和最大误差作为半径构成的圆形区域表达目标位置。Probability方法采用不确定度概率密度表面来表达目标位置及其不确定度,主要考虑不确定度来源包括目标对象的空间分布、空间关系的不精确和模糊性、参考对象的不完整性、以及位置描述本身的不确定度。Point-Radius方法属于量化方式的位置计算,能够获取目标位置所有可能存在点的地理覆盖,适用于半定量的文本位置描述Probability方法无法定量计算目标位置的地理覆盖,但是能够给出目标位置的概率分布,适用于定性的文本位置描述。2、实现过程。(I)、检查用户输入目标位置查询词;在位置数据库中搜索查询词,如果位置不存在或者位置地理覆盖缺失,则主动进行基于网络搜索模式的查询,即以目标位置为主题利用网络搜索引擎从互联网爬取目标位置相关信息;(2)、识别和提取网络文档中的自然语言位置描述(包括参考位置和空间关系);自然语言位置描述识别主要包括位置名称识别和空间关系的识别,本发明采用基于语义的多尺度提取方法抽取自然语言位置描述。首先,通过人工归纳和机器学习的方式建立位置描述的语料库,语料库中存储表达位置名称和空间关系的特征词汇以及位置描述的句法模式;然后,在语料库的支持下,对网络文本进行模式匹配,获取位置描述;最后,基于地理的和非地理的语义消除地名歧义;(3)、位置描述分类;利用参考位置和空间关系估算目标位置的前提是参考位置能够从位置数据库中获取精确的地理范围,设定单个位置描述按照公式(I)进行表达,RO为参考位置名称,SR为位置空间关系,T为位置描述的发生时间,C为位置描述具有的可信度,S为参考对象RO的搜索参考。抽取结果中前K个位置描述Loci,并依据前提条件进行分类,当Loc1.RO满足前提条件时,Loci存入精确描述集合P,否则存入模糊描述集合A ;Loc = {R0,SR,T,C,S} (I)(4)、计算搜索可信率Cs ;搜索结果中位置描述的可信度必须达到一定水平才能用于估算目标位置,本发明提出搜索可信率Cs作为评价指标,搜索可信率是P中所有位置描述的可信度之和与位置描述总数之比,如公式(2)所示,m是P中位置描述个数,K是位置描述总数,Loc1.C是某个位置描述的可信度。
权利要求
1.一种基于互联网主动迭代探测的未知位置估算方法,其特征在于,包括以下步骤: 步骤1,检查用户输入位置查询词;若位置无法从空间数据库获取地理覆盖,则主动开始互联网迭代探测,即以目标位置为主题利用网络搜索引擎从互联网爬取目标位置相关信息; 步骤2,以位置查询词为主题进行初始探测,利用网络引擎从互联网中获取包含目标位置描述的网页集合; 步骤3,针对步骤2得到的目标位置描述的网络文档进行地理位置解析,即从网络文档中提取自然语言位置描述,所述自然语言位置描述包括参考位置和空间关系; 步骤4,采用步骤3得到的自然语言位置描述进行位置描述分类;如果位置描述的参考位置能够从位置数据库获取地理覆盖,位置描述存入精确描述集合P,否则存入模糊描述集合A; 步骤5,评估当前搜索可信率Cs ;若Cs小于搜索可信阈值Cmin,以模糊描述集合A中的参考位置为主题进行新一轮互联网文本搜索,若Cs大于或者等于搜索可信阈值Cmin,则跳至步骤7 ; 步骤6,重复步骤I至步骤5,直至每轮搜索结果可信率满足阈值或者达到搜索次数限制为止; 步骤7,计算所有位置描述的近似地理范围及其可信度; 步骤8,集成和提炼多个位置描述地理覆盖,获取目标位置的地理范围。
2.根据权利要求1所述的一种基于互联网主动迭代探测的未知位置估算方法,其特征在于,所述步骤3中,自然语言位置描述识别主要包括位置名称识别和空间关系的识别,采用基于语义的多尺度提取方法抽取自然语言位置描述,具体包括以下子步骤: 步骤3.1,建立位置描述的语料库,语料库中存储表达位置名称和空间关系的特征词汇以及位置描述的句法模式; 步骤3.2,在语料库的支持下,对网络文本进行模式匹配,获取位置描述; 步骤3.3,基于地理的和非地理的语义消除地名歧义。
3.根据权利要求1所述的一种基于互联网主动迭代探测的未知位置估算方法,其特征在于,所述的步骤4中,利用参考位置和空间关系估算目标位置的前提是参考位置能够从位置数据库中获取精确的地理范围,设定单个位置描述按照式一进行表达,RO为参考位置名称,SR为位置空间关系,T为位置描述的发生时间,C为位置描述具有的可信度,S为参考对象RO的搜索参考;抽取结果中前K个位置描述Loci,并依据前提条件进行分类,当Loc1.RO满足前提条件时,Loci存入精确描述集合P,否则存入模糊描述集合A ; Loc= {R0, SR, T, C, S}式一。
4.根据权利要求1所述的一种基于互联网主动迭代探测的未知位置估算方法,其特征在于,所述的步骤5,评估当前搜索可信率Cs的具体方法是:定义搜索可信率Cs作为评价指标,搜索可信率是P中所有位置描述的可信度之和与位置描述总数之比,如式二所示,m是P中位置描述个数,K是位置描述总数,Loc1.C是某个位置描述的可信度: Σi-0m-1Loci-CCx=________ 式二 K位置描述的可信度按照式三进行计算,其中ε是衰减参数,η是搜索次数,设定位置描述可信度在首次搜索时为1,并随着搜索次数的增加而衰减; Loc1.C=I*( ε )η 式三 当Cs满足最低可信阈值Cmin时,直接输出精确描述集合P进行目标位置估算;当Cs不满足条件时,采用基于互联网多次迭代搜索的方法来保证搜索可信率,即取A中的模糊参考位置进行新一轮互联网搜索,通过网络资源先估算参考位置地理范围,进而利用参考位置估算目标位置。
5.根据权利要求1所述的一种基于互联网主动迭代探测的未知位置估算方法,其特征在于,所述的步骤6即为模糊参考位置迭代搜索;依据步骤4和步骤5的处理,设定搜索结果采用式四表达,η是搜索次数,m是当次搜索的位置序号,P是精确描述集合,A是模糊描述集合,Cs是搜索可信率: WS [n] [m] = {P, A, Cj式四 所述的迭代搜索过程包括以下子步骤: 步骤6.1,将目标位置搜索结果的模糊位置描述WS [O] [O].A存入搜索集合Q,设n=0,m=0 ; 步骤6.2,取Q中模糊描述集合WS [n] [m].A,判断n+1是否达到搜索次数限制,如果是则退出搜索; 步骤6.3,依次取WS[n] [m].A中位置描述Loci进行第n+1次搜索,获取搜索结果WS [n+1] [i],并关联到位置描述的参考对象RO搜索引用,即Loc1.S = WS [n+1] [i]; 步骤6.4,从Q中去掉完成搜索的模糊描述集合WS[n] [m].A,检查WS [n+1] [i].Cs是否满足阈值Cmin,若不满足则将WS [n+1] [i].A放入搜索集合Q中;步骤6.5,检查Q中是否存在模糊描述集合,如果有则重复步骤6.2至步骤6.4进行迭代搜索。
6.根据权利要求1所述的一种基于互联网主动迭代探测的未知位置估算方法,其特征在于,所述的步骤7,由于第k搜索结果的模糊位置描述需要参考第k+Ι次搜索结果,采用逆序计算的方式,即从最后一次搜索开始进行地理范围计算,具体包括以下子步骤: 步骤7.1,定义搜索结果WS中搜索次数为n,第η次搜索位置个数为m,m = WS [n_l].size ;定义地理范围集合FC存储每次搜索结果的地理范围; 步骤7.2,取第η次搜索第m个位置的搜索结果WS[n_l] [m-1]; 步骤7.3,依次取WS[n-l] [m-1], P中的位置Locy,基于位置数据库查询参考位置坐标,利用Point-Radius算法计算地理覆盖FP (y)及其可信度CP (y); 步骤7.4,依次取WS[n-l] [m-1].A中的位置Locx,利用Locx.S在地理范围集合FC中查询参考位置坐标,若成功获取坐标,则利用Point-Radius算法计算地理覆盖FA (y)及其可信度CA (y); 步骤7.5,融合P和A中所有位置的地理范围,获取当次搜索结果的地理范围FC(WS[n-l] [m-1]); 步骤7.6,判断m-1是否大于O ;若大于0,则进行下一个搜索结果的位置计算,令 跳至步骤b);若小于或等于O,则进行下一步; 步骤7.7,判断n-Ι是否大于O ;若大于0,则进行前一次搜索结果的位置计算,令n=n-l, m=WS[n-l].size,跳至步骤b);若小于或等于O,则进行下一步; 步骤 7.8,输出 FC (WS [O] [O])。
全文摘要
本发明涉及一种基于互联网主动迭代探测的未知位置估算方法。包括以下步骤1)检查用户输入位置,若数据库查询失败,则利用网络引擎获取位置相关的网页集合;2)提取网页中的位置描述并进行分类;3)计算搜索结果的可信率Cs,若Cs满足阈值Cmin,跳至步骤5;4)对搜索结果中的模糊位置重复步骤1至步骤3,直至可信率满足阈值或者达到次数限制;5)计算位置描述的地理范围,融合得到目标位置的近似地理范围;本发明充分利用互联网中数量丰富、动态变化的地理知识资源,估算未知位置的近似范围。针对互联网中形式多样的文本位置描述,采用基于语义的多尺度位置提取方法,并利用Point-Radius算法估算位置的近似地理范围。
文档编号G06F17/30GK103077201SQ201210579579
公开日2013年5月1日 申请日期2012年12月27日 优先权日2012年12月27日
发明者呙维, 黄亮, 朱欣焰, 陈旭 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1