兴趣点流行度获取方法和装置的制作方法

文档序号:6340969阅读:188来源:国知局
专利名称:兴趣点流行度获取方法和装置的制作方法
技术领域
本发明涉及导航领域,特别是涉及一种兴趣点流行度获取方法和装置。
技术背景
随着地理信息系统的发展和完善,电子地图的设计开发技术也日趋成熟。电子地图中,有一类数据被称为兴趣点(Point of Interest,Ρ0Ι),是指人们感兴趣的数据,如餐馆、公园、商场等建筑物信息,或是一些街道信息等等。通常,POI数据主要包括名称、类别、 坐标(如经纬度)、地址、电话、邮编等等信息。POI数据是电子地图中最重要的元素之一, 也是人们使用电子地图时最为关注的信息。
电子地图通常包含很多的POI数据,这些POI数据涵盖了该地图范围内的绝大部分地理信息。但是,电子地图中各POI的流行度有所不同,POI流行度是用于评估不同POI 数据重要程度的指标,在汽车导航、生活搜索等领域具有广泛的应用。
目前,还没有比较成熟的POI流行度获取方法,传统上,POI流行度主要是通过计算POI属性信息的丰富程度获取得到,也就是说,通过计算POI数据所包含的名称、类别、坐标、地址、电话、邮编等信息的丰富程度,进而评估获得POI流行度。
在对现有技术的研究和实践过程中,发明人发现现有技术存在以下问题现有 POI流行度的获取方法仅考虑了 POI数据属性信息的丰富程度,而POI属性信息的丰富程度并不能非常客观准确的反映出其被关注的重要程度。因此,迫切需要一种获取POI流行度的技术方案,该方案获取的POI流行度能够准确客观地反映POI被人们关注的重要程度,以满足地理信息系统的高速发展的需求。发明内容
本发明实施例提供一种兴趣点流行度获取方法和装置,使获得的POI流行度能够更加准确客观的反映被人们关注的重要程度。
为实现上述目的,本发明实施例提供了如下方案
一种兴趣点流行度获取方法,包括
对兴趣点进行网络搜索;
采集该兴趣点在搜索结果中出现的频度;
利用所述频度计算该兴趣点流行度。
一种兴趣点流行度获取装置,包括
网络搜索模块,用于对兴趣点进行网络搜索;
频度采集模块,用于采集该兴趣点在搜索结果中出现的频度;
流行度计算模块,用于利用所述频度采集模块采集的频度计算该兴趣点流行度。
根据本发明提供的具体实施例,公开了以下技术效果
本发明实施例中,结合互联网搜索引擎技术采集POI数据在网络上出现的频度, 进而根据该频度计算POI数据的网络流行度,由于POI数据在网络出现的频度,基本反映了CN 102541936 A人们对该POI数据的关注度,因此,根据频度计算POI数据的网络流行度,能够客观的反映其在互联网上实际出现的频度,也就是说,能够客观的反映该POI数据在互联网上被人们实际关注的多少。可见,本发明实施例提供的POI流行度的获取方案,能够更加准确客观的反映POI数据被人们关注的重要程度。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的兴趣点流行度获取方法流程图2为本发明实施例中利用频度计算兴趣点流行度的具体实现方式的方法流程图3为本发明实施例的一个具体实例的方法流程图4为本发明实施例还提供的兴趣点流行度获取装置结构框图5为本发明实施例中网络搜索模块结构框图6为本发明实施例中查询串策略获取子模块结构框图7为本发明实施例中分词等级判断单元结构框图。
具体实施方式
为使本发明实施例的目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
参见图1,本发明实施例提供了一种兴趣点流行度获取方法,主要包括如下步骤
SlOl 对兴趣点进行网络搜索。
S102 并采集该兴趣点在搜索结果中出现的频度。
一条POI数据在互联网上出现的频度越大,说明该POI点在现实生活中被人们关注的程度越高,本发明实施例利用网络搜索引擎技术,在互联网上对POI数据进行搜索,并采集该POI在网络搜索结果中出现的频度,来计算其流行度,从而可以客观准确的反映该 POI数据在互联网上被人们实际关注的多少。
本领域技术人员可以理解,本发明实施例中该兴趣点在搜索结果中出现的频度, 在实际应用中,可以具体是搜索到包含该POI的网页个数,比如,搜索兴趣点“高德软件”, 共搜索到10万个包含该POI的网页,则此时兴趣点“高德软件”在搜索结果中出现的频度为 10万;还可以具体是该POI在搜索到的网页中出现的次数,比如,搜索兴趣点“高德软件”, 共搜索到10万个网页,在这10万个网页中“高德软件”共出现了 100万次,则兴趣点“高德软件”在搜索结果中出现的频度为100万次。
需要说明的是,利用上述两种具体实现方式采集到的频度,均能较为客观的体现出不同POI数据在互联网上出现的频度的多少,均可以用于计算该兴趣点的流行度,实现更加准确客观的反映该POI数据被人们实际关注的重要程度的发明目的。在实际应用中, 对于上述第二种具体实现方式需要将所有搜索到的页面下载,再分析其中包含的POI数目,得到该POI的频度。对于上述第一种具体实现方式而言,可以直接用搜索到的网页数作为频度计算流行度,即只需要分析一个搜索结果页面即可,相对而言实现起来较为简单, 且也能在一定程度上较为客观准确的体现出不同兴趣点在网络中出现的频度多少,故优选的,本发明实施例中,所述采集该兴趣点在搜索结果中出现的频度具体为从网络查询结果页面中抽取该兴趣点相关网页的个数。
S103 利用上述频度计算该兴趣点流行度。
需要说明的是,利用频度计算该兴趣点流行度的方法可以有很多种,也就是说,本发明实施例中,只要将该POI在网络上出现的频度作为POI流行度计算的一个参考因素, 即可实现本发明实施例的目的,即能够提供一种更加准确客观反映被人们关注重要程度的 POI流行度的获取方法,在具体实现中,本领域技术人员可以根据自己的需要具体设计如何将POI在网络上出现的频度作为评价流行度高低的一个参考因素,比如对频度进行可靠性修正、归一化处理等等,本发明实施例对此并不限制。
可见,结合互联网搜索引擎技术采集POI数据在网络上出现的频度,进而根据该频度计算POI数据的网络流行度,由于POI数据在网络出现的频度,基本反映了人们对该 POI数据的关注度,因此,根据频度计算POI数据的网络流行度,能够客观的反映其在互联网上实际出现的频度,也就是说,能够客观的反应该POI数据在互联网上被人们实际关注的多少。可见,本发明实施例提供了一种更加合理的POI流行度的获取方案,能够更加准确客观的反映POI数据被人们关注的重要程度。
需要说明的是,采集POI数据在网络上出现频度时,存在如何保证互联网搜索引擎的查询结果与需要查询的POI数据真实相关的问题,具体而言,由于搜索引擎具备中文分词、模糊查询等特点,仅仅简单选取POI的某个或某几个关键词进行网络搜索,比如仅仅简单的选取名称、地址等相关的某个或某几个关键词进行网络搜索,往往会出现网络搜索结果排序靠后的网页与该POI数据的相关性甚小或者无关,而如果采集了这部分网页中 POI出现的频度,会影响POI流行度的计算准确度。本发明实施例为了进一步提高POI流行度计算的准确度,通过制定一定的网络查询策略,以合理调整用于网络搜索的查询串,尽可能的达到使网络查询结果与POI的表述相统一,尽可能减小搜索结果中与该POI数据相关性甚小或无关的网页出现。
具体的,本发明实施例中,所述对兴趣点进行网络搜索包括
获取兴趣点的查询串策略;
依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到兴趣点查询串;
根据所述兴趣点查询串进行网络搜索。
其中,所述获取兴趣点的查询串策略的步骤可以具体包括
判断所述兴趣点名称的分词等级;
依据所述兴趣点的类别和所述分词等级查询策略配置表,得到所述兴趣点的查询串策略。
其中,所述策略配置表中建立有兴趣点所属类别、名称分词等级和查询串策略的对应关系,其中所述查询串策略为按预设规则对兴趣点的名称、类别和/或地址进行组合得到的。
优选的,本发明实施例中,查询串策略是按预设规则对兴趣点的名称、类别和/或地址进行组合得到的。表1示出查询串策略的一种具体实现方式
权利要求
1 一种兴趣点流行度获取方法,其特征在于,包括 对兴趣点进行网络搜索;采集该兴趣点在搜索结果中出现的频度; 利用所述频度计算该兴趣点流行度。
2.根据权利要求1所述的方法,其特征在于,所述对兴趣点进行网络搜索包括 获取兴趣点的查询串策略;依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到兴趣点查询串; 根据所述兴趣点查询串进行网络搜索。
3.根据权利要求2所述的方法,其特征在于,获取兴趣点的查询串策略具体包括 判断所述兴趣点名称的分词等级;依据所述兴趣点的类别和所述分词等级查询策略配置表,得到所述兴趣点的查询串策略。
4.根据权利要求3所述的方法,其特征在于,所述判断所述兴趣点名称的分词等级包括对所述兴趣点名称进行基本词分词处理;判断经分词处理后的兴趣点名称包括的基本词数量,当基本词数量为1时确定分词等级为短词,当基本词数量为2时确定分词等级为中长词,当基本词数量为3个以上时确定分词等级为长词。
5.根据权利要求3所述的方法,其特征在于,所述查询串策略包括主查询串策略和辅查询串策略,所述依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到兴趣点查询串包括依据所述主查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的主查询串;依据所述辅查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的辅查询串。
6.根据权利要求5所述的方法,其特征在于,所述利用所述频度计算该兴趣点流行度包括将根据所述主查询串进行网络搜索采集的主搜索频度和根据所述辅查询串进行网络搜索采集的辅搜索频度进行合并处理,得到所述兴趣点的流行度。
7.根据权利要求6所述的方法,其特征在于,所述合并处理之前还包括根据预置的网络搜索频度范围对所述主搜索频度和辅搜索频度分别进行修正处理; 所述合并处理之后还包括 将合并处理结果进行归一化处理。
8.根据权利要求6所述的方法,其特征在于,所述辅搜索频度为空时,所述合并处理包括将所述主搜索频度作为合并处理结果; 所述辅搜索频度为非空时,所述合并处理包括判断所述主搜索频度和辅搜索频度之间的数量级是否相近或相同,是则对所述主搜索频度和辅搜索频度进行加权平均处理,否则直接将数量级小的频度作为合并处理结果。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述采集该兴趣点在搜索结果中出现的频度具体为从网络查询结果页面中抽取该兴趣点相关网页的个数。
10.一种兴趣点流行度获取装置,其特征在于,包括 网络搜索模块,用于对兴趣点进行网络搜索;频度采集模块,用于采集该兴趣点在搜索结果中出现的频度;流行度计算模块,用于利用所述频度采集模块采集的频度计算该兴趣点流行度。
11.根据权利要求10所述的装置,其特征在于,所述网络搜索模块包括 查询串策略获取子模块,用于获取兴趣点的查询串策略;查询串确定子模块,用于依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点查询串;网络搜索子模块,用于根据所述兴趣点查询串进行网络搜索。
12.根据权利要求11所述的装置,其特征在于,所述查询串策略获取子模块包括 分词等级判断单元,用于判断所述兴趣点名称的分词等级;查询串策略获取单元,用于依据所述兴趣点的类别和所述分词等级查询策略配置表, 得到所述兴趣点的查询串策略。
13.根据权利要求12所述的装置,其特征在于,所述分词等级判断单元包括 分词处理子单元,用于对所述兴趣点名称进行基本词分词处理;等级确定子单元,用于判断经分词处理后的兴趣点名称包括的基本词数量,当基本词数量为1时确定分词等级为短词,当基本词数量为2时确定分词等级为中长词,当基本词数量为3个以上时确定分词等级为长词。
14.根据权利要求12所述的装置,其特征在于,所述查询串策略包括主查询串策略和辅查询串策略,所述查询串确定子模块包括主查询串获取子单元,用于依据所述主查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的主查询串;辅查询串获取子单元,用于依据所述辅查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的辅查询串。
15.根据权利要求14所述的装置,其特征在于,所述流行度计算模块包括合并处理子模块,用于将根据所述主查询串进行网络搜索采集的主搜索频度和根据所述辅查询串进行网络搜索采集的辅搜索频度进行合并处理,得到所述兴趣点的流行度。
16.根据权利要求15所述的装置,其特征在于,所述流行度计算模块还包括 修正处理子模块,用于根据预置的网络搜索频度范围对所述主搜索频度和辅搜索频度分别进行修正处理,将修正处理后的主搜索频度和辅搜索频度发送至所述合并处理子模块;归一化处理子模块,用于将所述合并处理子模块的合并处理结果进行归一化处理。
17.根据权利要求15所述的装置,其特征在于,所述辅搜索频度为空时,所述合并处理子模块具体用于将所述主搜索频度作为合并处理结果;所述辅搜索频度为非空时,所述合并处理子模块具体用于判断所述主搜索频度和辅搜索频度之间的数量级是否相近或相同,是则对所述主搜索频度和辅搜索频度进行加权平均处理,否则直接将数量级小的频度作为合并处理结果。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述频度采集模块,具体用于从网络查询结果页面中抽取该兴趣点相关网页的个数。
全文摘要
本发明实施例公开一种兴趣点流行度获取方法和装置,涉及导航领域。所述方法包括对兴趣点进行网络搜索;采集该兴趣点在搜索结果中出现的频度;利用所述频度计算该兴趣点流行度。所述装置包括网络搜索模块,频度采集模块和流行度计算模块。本发明实施例结合互联网搜索引擎技术采集POI数据在网络上出现的频度,进而根据该频度计算POI数据的网络流行度,使得POI流行度能够客观的反映其在互联网上实际出现的频度,更加准确客观的反映POI数据被人们关注的重要程度。
文档编号G06F17/30GK102541936SQ20101061823
公开日2012年7月4日 申请日期2010年12月31日 优先权日2010年12月31日
发明者姜吉发, 黄鹤 申请人:高德软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1