一种中文地理信息查询方法及系统与流程

文档序号:16881228发布日期:2019-02-15 22:10阅读:200来源:国知局
一种中文地理信息查询方法及系统与流程

本发明涉及网络文本自然语言处理技术领域,尤其涉及一种中文地理信息查询方法及系统。



背景技术:

当今,互联网给我们带来了很多生活方式或生产方式上的便利与快捷。庞大的网络信息资源,使人们通过浏览器就能便捷的获取到生活或生产过程中所需要的信息。在中国互联网的实际应用中,当用户针对中文地址进行搜索时,由于搜索引擎搜索返回的网页量十分巨大,且目前搜索引擎无法过滤掉网页中涵盖的无效信息,因此用户进行地理信息搜索时,需要人为的对网页内容进行判断查找,浪费用户的时间与精力,降低了用户的工作效率。如何尽快显示出网页中涵盖的有效的地理信息数据,以为用户提供更加快捷的服务成为一项急需解决的问题。



技术实现要素:

本发明的目的是提供一种中文地理信息查询方法及系统,以解决现有技术中从中文网页中提取地理信息的方法效率低下的问题。

一种中文地理信息查询方法,包括:

获取用户输入的关键词;

根据所述用户输入的关键词生成包含所述关键词的互联网页面;

将所述互联网页面转换为超文本标记语言格式文档;

从所述超文本标记语言格式文档中提取特征词后的字段;所述特征词包括“地址”、“地址:”及“|地址|”;

判断所述特征词后的字段是否为描述地理信息的字段;

若是,则使用百度地图对所述特征词后的字段进行查询,得到所述特征词后的字段所对应的地理信息;所述地理信息包括地理名称、地理位置和经纬度坐标;

将所述地理信息存入地理信息数据库,得到地理信息列表。

可选的,所述将所述互联网页面转换为超文本标记语言格式文档,具体包括:通过使用计算机程序设计语言python中的urllib库及request.urlopen.read()函数将所述互联网页面转换为超文本标记语言格式文档。

可选的,所述判断所述特征词后的字段是否为描述地理信息的字段,具体包括:判断所述特征词后的字段是否至少包括第一类关键字段、第二类关键字段或第三关类键字段中的任意两类关键字段;所述第一类关键字段包括“省”和“市”共两种关键字段,所述第二类关键字段包括“路”、“街”、“中心”、“广场”、“公园”和“地铁站”共六种关键字段,所述第三类关键字段包括“东”、“西”、“南”、“北”、“交汇”、“号”、“楼”和“栋”共八种关键字段;若是,则将所述特征词后的字段确定为描述地理信息的字段。

可选的,所述将所述地理信息存入地理信息数据库,得到地理信息列表,具体包括:将地理名称存入地理信息数据库中的地理名称列,将地理位置存入地理信息数据库中的地理位置列,将经纬度坐标存入地理信息数据库中的地理标记位置列,得到所述地理信息列表。

一种中文地理信息查询系统,包括:

关键词获取模块,用于获取用户输入的关键词;

包含关键词的互联网页面生成模块,用于根据所述用户输入的关键词生成包含所述关键词的互联网页面;

转换模块,用于将所述互联网页面转换为超文本标记语言格式文档;

特征词后的字段提取模块,用于从所述超文本标记语言格式文档中提取特征词后的字段;所述特征词包括“地址”、“地址:”及“|地址|”;

判断模块,用于判断所述特征词后的字段是否为描述地理信息的字段;

地理信息生成模块,用于当所述特征词后的字段为描述地理信息的字段时,使用百度地图对所述特征词后的字段进行查询,得到所述特征词后的字段所对应的地理信息;所述地理信息包括地理名称、地理位置和经纬度坐标;

地理信息列表生成模块,用于将所述地理信息存入地理信息数据库,得到地理信息列表。

可选的,所述转换模块具体包括转换单元;

所述转换单元用于通过使用计算机程序设计语言python中的urllib库及request.urlopen.read()函数将所述互联网页面转换为超文本标记语言格式文档。

可选的,所述判断模块具体包括判断单元;

所述判断单元用于判断所述特征词后的字段是否至少包括第一类关键字段、第二类关键字段或第三关类键字段中的任意两类关键字段;所述第一类关键字段包括“省”和“市”共两种关键字段,所述第二类关键字段包括“路”、“街”、“中心”、“广场”、“公园”和“地铁站”共六种关键字段,所述第三类关键字段包括“东”、“西”、“南”、“北”、“交汇”、“号”、“楼”和“栋”共八种关键字段;

若是,则将所述特征词后的字段确定为描述地理信息的字段。

可选的,所述地理信息列表生成模块具体包括地理信息列表生成单元;

所述地理信息列表生成单元用于将地理名称存入地理信息数据库中的地理名称列,将地理位置存入地理信息数据库中的地理位置列,将经纬度坐标存入地理信息数据库中的地理标记位置列,得到所述地理信息列表。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明的一种中文地理信息查询方法及系统,根据用户输入的关键词生成包含所述关键词的互联网页面;将所述互联网页面转换为超文本标记语言格式文档;从所述超文本标记语言格式文档中提取特征词后的字段;当所述特征词后的字段为描述地理信息的字段时,使用百度地图对所述特征词后的字段进行查询,得到所述特征词后的字段所对应的地理信息;将所述地理信息存入地理信息数据库,得到地理信息列表。本发明中的方法或系统从包含用户输入的关键词的网页中提取出描述地理信息的字段,通过百度地图对描述地理信息的字段进行查询,得到具有实时性和全面性的地理信息列表,便于用户查阅地理信息数据,提高了用户从中文网页中提取地理信息的方法效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所提供的中文地理信息查询方法的流程图;

图2为本发明所提供的中文地理信息查询系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种中文地理信息查询方法及系统,以解决现有技术中从中文网页中提取地理信息的方法效率低下的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的中文地理信息查询方法的流程图。如图1所示,该方法包括:

步骤s101:获取用户输入的关键词。

步骤s102:根据用户输入的关键词生成包含关键词的互联网页面。

步骤s103:将互联网页面转换为超文本标记语言格式文档(即html文本)。

步骤s104:从超文本标记语言格式文档中提取特征词后的字段;特征词包括“地址”、“地址:”及“|地址|”。

步骤s105:判断特征词后的字段是否为描述地理信息的字段;若是,执行步骤s106;若否,返回步骤s101。

步骤s106:使用百度地图对特征词后的字段进行查询,得到特征词后的字段所对应的地理信息;地理信息包括地理名称、地理位置和经纬度坐标。

步骤s107:将地理信息存入地理信息数据库,得到地理信息列表。

本实施例中的方法从包含用户输入的关键词的网页中提取出描述地理信息的字段,通过百度地图对描述地理信息的字段进行查询,得到具有实时性和全面性的地理信息列表,便于用户查阅地理信息数据,提高了用户从中文网页中提取地理信息的方法效率。

在实际应用中,将互联网页面转换为超文本标记语言格式文档,具体包括:通过使用计算机程序设计语言python中的urllib库及request.urlopen.read()函数将互联网页面转换为超文本标记语言格式文档。

在实际应用中,从超文本标记语言格式文档中提取特征词后的字段;特征词包括“地址”、“地址:”及“|地址|”具体包括:使用编程语言及版本python3.6的findall(特征词)函数,检索到特征词后获取上层外部标签,使用urllib库的内部函数提取上层外部标签内的全部文本,并去除特征词,得到特征词后的字段。在判断特征词后的字段是否为描述地理信息的字段前,可删除得到特征词后的字段中的非中文字符函数python代码,以减少运算量,提高该方法运行效率。

在实际应用中,判断特征词后的字段是否为描述地理信息的字段,具体包括:判断特征词后的字段是否至少包括第一类关键字段、第二类关键字段或第三关类键字段中的任意两类关键字段;第一类关键字段包括“省”和“市”共两种关键字段,第二类关键字段包括“路”、“街”、“中心”、“广场”、“公园”和“地铁站”共六种关键字段,第三类关键字段包括“东”、“西”、“南”、“北”、“交汇”、“号”、“楼”和“栋”共八种关键字段;若是,则将特征词后的字段确定为描述地理信息的字段。

本实施例中采用阶梯式关键字检索方法,首先查看特征词后的字段是否包含第一类关键字段,第一类关键字段为省市信息,再查看特征词后的字段是否包含第二类关键字段,第二类关键字段包括“|路、街、中心、广场、公园、地铁站”等字段,最后查看特征词后的字段是否包含第三类关键字段,第三类关键字段包括“|东、西、南、北、交汇、号、楼、栋”等字段。若特征词后的字段中有包含至少两种关键字段,则判断其为地理位置描述;若特征词后的字段中仅具有一种关键字段或不具关键字段,则判断其为非描述地理信息的字段,从而提高了判断结果的准确性。当判断结果表示其为非描述地理信息的字段时,将特征词后的字段删除,返回步骤s101。

在实际应用中,使用百度地图对特征词后的字段进行查询,得到特征词后的字段所对应的地理信息,具体包括:使用百度地图开放平台(http://lbsyun.baidu.com/),申请开发者ak密钥。执行(http://api.map.baidu.com/geocoder/v2/?address=特征词后的字段&output=json&ak=开发者ak密匙&callback=showlocation)网页的get操作可获得特征词后的字段对应的经度坐标和纬度坐标。再执行(http://api.map.baidu.com/geocoder/v2/?callback=renderreverse&location=经度,纬度&output=json&pois=1&ak=开发者ak密匙)网页的get请求可获得地理名称、兴趣点(poi)类别、poi电话、邮编、地理位置、商圈信息等数据。本实施例中的方法可以为用户节约地理信息在网络上搜索过程,减少查看不必要的信息的操作成本,同时为用户提供健全的查看内容;在市场前景方面可在绘制私人电子地图时,提供实时的、有针对性的地图服务;且由于本实施例中的方法可采集全互联网信息,因此,得到的地理信息列表中的数据的覆盖率和全面性较好。

在实际应用中,将地理信息存入地理信息数据库,得到地理信息列表,具体包括:将地理名称存入地理信息数据库中的地理名称列(“place_name”列),将地理位置存入地理信息数据库中的地理位置列(“place_address”列),将经纬度坐标存入地理信息数据库中的地理标记位置列(“placecoordinate”列),将兴趣点(poi)类别存入地理信息数据库中的兴趣点(poi)类别列(“place_type”列),将poi电话存入地理信息数据库中的poi电话列(“place_tel”列),将邮编存入地理信息数据库中的邮编列(“place_postcode”列),将商圈信息存入地理信息数据库中的商圈信息列(“commercial_district”列)得到地理信息列表。

图2为本发明所提供的中文地理信息查询系统的结构示意图。如图2所示,该系统包括:

关键词获取模块1,用于获取用户输入的关键词。

包含关键词的互联网页面生成模块2,用于根据用户输入的关键词生成包含关键词的互联网页面。

转换模块3,用于将互联网页面转换为超文本标记语言格式文档。

特征词后的字段提取模块4,用于从超文本标记语言格式文档中提取特征词后的字段;特征词包括“地址”、“地址:”及“|地址|”。

判断模块5,用于判断特征词后的字段是否为描述地理信息的字段。

地理信息生成模块6,用于当特征词后的字段为描述地理信息的字段时,使用百度地图对特征词后的字段进行查询,得到特征词后的字段所对应的地理信息;地理信息包括地理名称、地理位置和经纬度坐标。

地理信息列表生成模块7,用于将地理信息存入地理信息数据库,得到地理信息列表。

本实施例中的系统,通过特征词后的字段提取模块从包含用户输入的关键词的网页中提取出描述地理信息的字段,通过地理信息生成模块和地理信息列表生成模块使用百度地图对描述地理信息的字段进行查询,得到具有实时性和全面性的地理信息列表,便于用户查阅地理信息数据,提高了用户从中文网页中提取地理信息的方法效率。

在实际应用中,转换模块具体包括转换单元;转换单元用于通过使用计算机程序设计语言python中的urllib库及request.urlopen.read()函数将互联网页面转换为超文本标记语言格式文档。

判断模块具体包括判断单元;判断单元用于判断特征词后的字段是否至少包括第一类关键字段、第二类关键字段或第三关类键字段中的任意两类关键字段;第一类关键字段包括“省”和“市”共两种关键字段,第二类关键字段包括“路”、“街”、“中心”、“广场”、“公园”和“地铁站”共六种关键字段,第三类关键字段包括“东”、“西”、“南”、“北”、“交汇”、“号”、“楼”和“栋”共八种关键字段;若是,则判断特征词后的字段为描述地理信息的字段。

地理信息列表生成模块具体包括地理信息列表生成单元;地理信息列表生成单元用于将地理名称存入地理信息数据库中的地理名称列,将地理位置存入地理信息数据库中的地理位置列,将经纬度坐标存入地理信息数据库中的地理标记位置列,得到地理信息列表。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1