一种网络地图服务中未登录地名的定位方法

文档序号:6610208阅读:170来源:国知局

专利名称::一种网络地图服务中未登录地名的定位方法
技术领域
:本发明涉及网络信息挖掘和地图检索服务领域,尤其是网络地图服务中未登录地名关联定位技术。
背景技术
:2004年底,Google推出网络地图服务,在GoogleMaps让网络地图服务真正进入广大网民的生活中的同时,也带动了国内网络地图服务的发展步伐。网络地图服务产业呈现出爆炸式的发展,各式各样的地图服务网站如雨后春笋般涌现出来。地图服务最吸引人也是最重要的功能就是地名搜索定位功能,即用户输入目的地名的关键词,然后由地图服务网站在地图上标识出目的地的位置并显示相关信息。但是现有的网络地图服务中地名搜索服务还不能完全满足人们的需求,主要体现在如果地图服务的相关空间数据库中没有目的地名的相关信息,则无法对目的地名进行定位。地名搜索定位服务的基本过程都是用户输入感兴趣的地方的地名关键词并提交给地图服务网站,然后就可以从地图服务网站得到一张标有目的地名的地图。目前知名的地图服务网站几乎都是根据地名关键词(字)匹配来进行定位的,关键词匹配的对象就是空间数据库一一一个包含大量地名及其位置信息和其他属性信息的数据库。在地图服务的服务器端,定位的过程主要经历以下几个步骤首先在服务器端的空间数据库中査找与关键词匹配的地名或属性信息中包含关键词的地址,然后在通过该地址的坐标在地图上标识出这个地址并显示给用户。但是通常一个城市就包含着上万甚至几十万的地址信息,想要采集出全部的地址及其坐标是件非常繁琐复杂的工作,并且经常会有新的地址产生或老的地址消失。因此由于空间数据库数据不全、更新不及时等原因,许多用户在使用地图搜索时都会遇到查不到地名的情况。以"钻石大厦"为例,服务器端的查询定位服务会在空间数据库中查找有没有"钻石大厦"这个地址;如果没有,则会査找地址的其他相关描述信息中包含"钻石大厦"的结果,比如某个公司的描述信息中包含"位于钻石大厦A座2层",并且这个公司位于空间数据库中,那么就会将这个公司的位置作为结果返回给用户。如果以上两种地址都没有找到,有的网站会直接提示用户没有找到这个地名,如百度地图会显示"抱歉,没有找到与'钻石大厦'相关的地点"。也有些地图服务网站会对关键词作一些处理后进行再次査询,比如Google地图会将"钻石大厦"进行切分,然后将切分结果"钻石"和"大厦"作为新的关键词再到空间数据库中进行査询,将地名描述中包含"钻石"和"大厦"的结果返回给用户,即使这两个词在地名描述中不是连在一起出现。后者的做法相当于一种分析关键词与空间数据库内容相关性的方法,在无法找到完全匹配的内容的情况下,将"最相近"的地址返回给用户。对于多个地名组合而成的地址信息这样做会有一定的效果,比如用"中关村软件园钻石大厦"査不到的结果,分别用"中关村软件园"和"钻石大厦"就可能会査到相关信息。但是对于非组合式的地名来说,如"钻石大厦",分词后仍然很难査到与关键词相关的结果。这时,通常用户会转而采用其他方式来获得地理实体的位置信息,如使用搜索引擎查找该地理实体的位置。但目前的搜索引擎并没有针对地理位置的搜索采取专门的检索策略,比如在搜索引擎输入一个公司名称并点击搜索,那么搜索引擎会把所有包含该公司名称的网页返回给用户。但是关于这个公司更详细具体的信息比如地址、电话等,则要用户自己打开一个个的网页来判断与查找这些信息,大大降低了地理实体的搜索和定位的效率,增加了用户定位所需的时间。发明目的从上面的分析可以看出,要对网络地图服务的空间数据库中没有的地名——未登录地名进行定位,目前还没有很好的方法。最根本的解决办法当然是扩充并更新空间数据库中的数据。不过目前空间数据更新主要由人工来完成,具有固有的复杂性和滞后性。本发明要解决的问题就是在不对空间数据库中的已有数据进行更新的情况下,只在己有空间数据库的支持下,利用搜索引擎搜索得到包含未登录地名的网页,对搜索得到的网页进行分析和挖掘,得到能够描述未登录地名位置的、并且存在于已有空间数据库中的地址信息,实现未登录地名的定位,从而改善地名搜索定位服务的质量。为了解决目前各地图服务网站对空间数据库中不存在的未登录地名无法处理的情况,本发明提出通过对互联网上包含的大量地址信息进行分析,找出其中既在己有空间数据库中,又能描述未登录地名的地址信息,并通过这些地址信息对空间数据库中没有的未登录地名进行定位的方法。本发明方法包括以下步骤(如图1所示)(1)首先收集所有包含用户输入的未登录地名关键词的网页。网页的获取方式可以从本地已有的网页库中检索出包含关键词的网页,也可以通过搜索引擎检索到包含关键词的网页链接,再下载到本地。然后从网页中提取出包含关键词的上下文信息,上下文为纯文本信息,大小在200字以内为宜(关键词前后各100字)。我们通过人工调查,对一个给定的未登录地名,在包含这个未登录地名的网页文本集合中,能够描述这个未登录地名位置的地址信息(或称空间相关地址)在文本中绝大部分都出现在距该未登录地名ioo个字以内的上下文中,而其他不能描述该未登录地名位置的地址信息(或称空间不相关地址)则大部分出现在距离这个实体名称100个字以外的上下文中。所以上下文范围取100个字时可以在几乎不影响空间相关地址提取效果的情况下,较好地排除空间不相关的地址信息,降低识别出的空间不相关信息带来的不良影响。(2)根据地图服务网站所拥有的空间数据库,构建相应的地名词典。该地名词典中的地名词汇,都来源于空间数据库中的地址信息,相应地,每个地名词汇都会有具体的坐标位置。采用基于地名词典的匹配方法(昝红英,《基于实体属性的中文网页检索研究》,北京大学博士论文,2004),从所有网页的未登录地名关键词上下文中提取出所有可以通过空间数据库直接定位的地址信息(或者说在空间数据库中出现的地址信息)。G)定量计算出这些地址信息与用户输入的未登录地名关键词的空间相关度。空间相关度是指地址与未登录地名关键词的空间相关性,即识别出的地址的地理位置与用户输入未登录地名关键词的地理位置的相邻程度。空间相关度计算主要依据文本中地址与未登录地名关键词之间的文字距离来计算(罗英伟等,《一种文本上下文中实体地址信息的提取方法》,专利申请)。(4)根据对地址信息的空间聚类分析对空间相关度进行修正。因为与未登录地名关键词空间相关的地址在地理位置上具有聚集性,即与同一地点相关的地址,彼此之间也是空间邻近的,而空间不相关的地址之间则没有这种特点。因此根据空间数据库把识别出的地址转换成具体的地理位置,通过地图服务的空间聚类计算(AlanT.MurrayandVladimirEstivill-Cas加,Clusterdiscoverytechniquesforexploratoryspatialdataanalysis,InternationalJournalofGeographicalInformationScience,1998,12(5):431-443.),可以从中找出地址分布密集、初始相关度又高的区域,并认为这个区域内的地址最有可能是空间相关地址,大幅提升它们的相关度。一个简单的空间相关度值的修正方法就是将该区域的每一个地址的空间相关度累加起来,记做ER,该区域的每一个地址修正后的空间相关度值为其原来的空间相关度值加5ZR。(5)根据地址空间相关度的排名,取排名前几个地址作为定位结果返回给用户,并在地图上标识出所有返回结果供用户选择。因为识别出的地址都是空间数据库中的己知地址,因此可以直接在地图上进行定位并标识出来。为实现上述目的,本发明采用如下技术方案。一种网络地图服务中未登录地名的定位方法,其步骤为1)收集所有包含用户输入的未登录地名关键词的网页;2)从网页中提取出包含地名关键词的上下文信息;3)从所有网页的地名关键词上下文中提取出所有地名词典中包含的地址信息;4)计算出上述地址信息与用户输入的未登录地名关键词的空间相关度;5)对空间相关度进行排名,取排名前几个地址作为定位结果在地图上标识返回给用户。所述的方法中网页的收集方式为从本地己有的网页库中检索出包含关键词的网页或通过搜索引擎检索到包含关键词的网页链接,再下载到本地。所述网页的地名关键词上下文为纯文本信息,关键词前后各100字以内。所述的地名词典为根据网络地图服务网站的空间数据库而建立,每个地名词汇都有具体的坐标位置。所述的方法中采用基于地名词典的匹配方法提取出所有地名词典中包含的地址信息。所述的方法中从网页文本中所提取的所有地址信息根据坐标位置能够在网络地图服务中进行定位。所述的方法中采用空间聚类计算对空间相关度进行修正。发明的优点与积极效果与现有网络地图服务中的地名搜索定位服务相比,本发明提出的定位方法可以很好的处理网络地图服务中空间数据库内没有的未登录地名的定位问题,能够很好地给出未登录地名的真实地址或相邻地址。为了测试本发明方法的效果,我们以北京市为例,采用基于地名词典匹配的地址识别方法,对174个空间数据库中没有的地名和机构名称进行定位,并将部分结果列在表l中。可以看出查"众成信达贸易有限公司"时,我们查出的最相关的地址是"朝阳区松榆北路7号院",并且它的空间相关度经过修正后远远高于其他地址。而对"京圃园生物工程有限公司"的识别结果中,虽然前两名地址的相关度相差不大,但是因为第一名"海淀区中国农业科学院"和第三名"海淀区中关村南大街12号"表示的是同一个地址,而用户会倾向于相信聚集性比较强的地址,所以仍然可以达到准确定位的目的。査"旧宫志新伟业家具厂",虽然第一个结果的地理范围比较大,但是第二个结果可以辅助用户进行精确的定位。而査"话匣子咖啡厅"也是前两个结果不但可信度高,而且空间聚集性强,可以起到正确定位的作用。表1对空间数据库中没有的地名进行定位的部分测试结果<table>tableseeoriginaldocumentpage7</column></row><table>图1示意了一个针对不存在于空间数据库中的未登录地名的定位流程图。图2未登录地名的地图定位效果具体实施例方式下面通过一个具体的例子来说明如何实施本专利所描述的方法来对一个空间数据库中没有的未登录地名进行定位。假设用户査询"朋克美容美发"这个地点,首先通过网页收集模块(图1中的第1个模块)获取到所有包含"朋克美容美发"的网页,并保存到图1中的第(2)个模块中。由网页预处理及上下文截取模块(图1中的第3个模块)将网页中的标签信息去掉后,截取出网页中所有"朋克美容美发"的前后100个字的上下文信息并交给地址信息提取模块处理。地址信息提取模块采用基于地名词典的匹配方法从上下文中提取出所有空间数据库中已有的地址信息,比如"清华东门"、"海淀区五道口华清嘉园"、"海淀区北三环7西路48号"、"北京海淀五道口"等等,然后由地址的相关度计算模块(图1中的第5个模块)根据这些地址距"朋克美容美发"的距离计算其空间相关度。比如对于"朋克美容美发海淀区五道口华清嘉园8号楼北一层,Mttll南300米"这段上下文来说,标下划线的部分是识别出的地址,"海淀区五道口华清嘉园"因为距离关键词"朋克美容美发"比较近,所以相关度就高一些。而"清华东门"因为距离比较远,则相关度会低一些。有些空间不相关的地址因为出现次数多,或距离关键词较近,因而会获得较高的空间相关度。但是经过基于空间聚集性的地址相关度修正模块(图1中的第6个模块)进行空间聚集性分析后,我们可以发现"清华东门"、"海淀区五道口华清嘉园"和"北京海淀五道口"这几个地址距离很近,具有明显的空间聚集性(通过空间聚类计算可以得到彼此之间的距离只有几百米),而"海淀区北三环西路48号"则距这几个地址几公里,我们就会认为彼此相邻的这些地址更可能是地名关键词的空间相关地址从而提升它们的空间相关度(具体提升方法是每个地址的空间相关度值都加上这些空间聚集地址的相关度的累加值)。最后由图1中的第7个模块结果展示接口将排名最靠前的几个地址以及它们的空间相关度以文字和地图的方式展现给用户,帮助用户决定选择哪个地址作为目标地址(如图2所示)。权利要求1.一种网络地图服务中未登录地名的定位方法,其步骤为1)收集所有包含用户输入的未登录地名关键词的网页;2)从网页中提取出包含地名关键词的上下文信息;3)从所有网页的地名关键词上下文中提取出所有地名词典中包含的地址信息;4)计算出上述地址信息与用户输入的未登录地名关键词的空间相关度;5)对空间相关度进行排名,取排名前几个地址作为定位结果在地图上标识返回给用户。2.如权利要求1所述的定位方法,其特征在于网页的收集方式为从本地已有的网页库中检索出包含关键词的网页或通过搜索引擎检索到包含关键词的网页链接,再下载到本地。3.如权利要求1所述的定位方法,其特征在于所述网页的地名关键词上下文为纯文本信息,关键词前后各100字以内。4.如权利要求1所述的定位方法,其特征在于所述的地名词典为根据网络地图服务网站的空间数据库而建立,每个地名词汇都有具体的坐标位置。5.如权利要求1所述的定位方法,其特征在于采用基于地名词典的匹配方法提取出所有地名词典中包含的地址信息。6.如权利要求1或5所述的定位方法,其特征在于从网页文本中所提取的所有地址信息根据坐标位置能够在网络地图服务中进行定位。7.如权利要求1所述的定位方法,其特征在于采用空间聚类计算对空间相关度进行修正。全文摘要本发明提供了一种网络地图服务中未登录地名的定位方法,其首先收集所有包含用户输入的未登录地名关键词的网页,从中提取出空间数据库中登录的地址信息,根据地名关键词与登录的地址信息之间的距离计算得到空间相关度,并根据空间聚类计算对空间相关度进行修正,取空间相关度排名在前的几个地址作为定位结果在地图上标识返回给用户。本发明的方法可以在不扩展、更新地址数据的情况下,迅速有效的提供未登录地名的地址信息,并根据文字的地址信息在地图上进行定位,可以在一定程度上提高地图搜索定位服务的质量。文档编号G06F17/30GK101110080SQ20071012054公开日2008年1月23日申请日期2007年8月21日优先权日2007年8月21日发明者周晓鲁,汪小林,罗英伟,许卓群申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1