兴趣点poi信息排序的方法和系统的制作方法

文档序号:9787537阅读:622来源:国知局
兴趣点poi信息排序的方法和系统的制作方法
【技术领域】
[0001]本发明涉及通信领域,更具体地涉及用于兴趣点POI信息排序的方法和系统。
【背景技术】
[0002]地理信息系统中,POI是“Point of Interest”的缩写,中文翻译为“兴趣点”。每个POI通常包含四方面信息:名称、类别、经度玮度、附近的酒店饭店商铺等,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经玮度,然后再标记下来。正因为POI的采集是一个非常费时费事的工作,对一个地理信息系统来说,POI的数量在一定程度代表着整个系统的价值,地理信息系统很难根据数量很少的POI数据来提供高水平的服务。
[0003]互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。但是互联网上充斥着大量虚假的POI数据,比如博客网页内容中包含“原文地址:http://X X X.X X X.X X X / X X X ”,虽然包含“地址”字样,但该地址是网络地址或者说是U R L(UniformResoureLocator,统一资源定位器),并不是POI数据中的地理地址信息,或可能存在POI数据中地址信息不准确的情况,从而导致收集到的POI数据中不准确POI数据的比例较高。因此,地图搜索中,在用户搜索的query有多个相关的结果时需要对这些POI做排序处理,相关性越强,质量越高的POI排序应该越靠前。所以在相关性一致的情况下,需要对POI按质量排序。
[0004]目前所采用的排序方法主要是根据用户的反馈来排序,用户点击的次数越多质量应该越好,越受用户喜爱,排序应该越靠前。然而,这种方法需要有大量的用户数据才可以做反馈,而积累用户以及用户的点击行为是一个漫长的过程。在初始阶段一般很少有用户在使用并进行反馈,在这样的情况下,或者因用户数据太少而无法使用用户数据反馈进行排序,或者所获得的排序结果并不可靠。
[0005]因此,本领域中存在如何自用户反馈数据不足的情况下对兴趣点POI信息进行排序的方法和系统的需要。

【发明内容】

[0006]鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的对兴趣点POI信息进行排序的方法和系统。
[0007]依据本发明的一个方面,提供了1、一种兴趣点POI信息排序方法,包括:获取POI地址信息;根据所述地址信息检索包括所述POI的网页;获取所述网页中的地址文本,并确定所述地址文本的质量;和根据所述地址文本的质量对所述网页进行排序。
[0008]可选地,根据本发明的上述实施例的兴趣点POI信息排序的方法中,根据所述地址信息检索包括所述POI的网页包括:检索包含与所述POI的地址信息中的一项或多项相同的数据的网页,并在所述网页中查找是否包含所述POI的名称,当所述网页包含所述POI的名称时,认定所述网页包含所述POI。
[0009]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法中,所述POI地址信息包括:地址名称、经度和/或维度。
[0010]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法还包括将所述排序的结果用于地图搜索或网页搜索的结果显示。
[0011]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法中,所述地址文本的质量通过PageRank、Hi 11 top、HI TS算法或其组合来计算。
[0012]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法中,获取所述网页中的地址文本包括:提取所述网页的文本内容;和在所述文本内容中寻找引导地址信息的关键词,并在所述文本内容中包含所述关键词时,提取所述关键词之后的文本片段;或者在所述文本内容中直接爬取地址信息。
[0013]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法中,提取所述关键词之后的文本片段包括:提取所述关键词之后特定的片段长度或特定的分隔符之前的文本片段。
[0014]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法中,获取所述网页中的地址文本还包括:解析所述地址文本相应的经玮度数据。
[0015]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法中,所述方法还包括在根据所述地址文本的质量对所述网页进行排序之前将具有相同域名的网页进行整合。
[0016]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的方法可以用于批量处理POI信息。
[0017]依据本发明的另一个方面,提供了一种用于兴趣点POI信息排序的系统,所述系统包括:POI地址信息获取模块,用于获取POI地址信息;网页检索模块,用于根据所述地址信息检索包括所述POI的网页;地址文本处理模块,用于获取所述网页中的地址文本,并确定所述地址文本的质量;和排序模块,用于根据所述地址文本的质量对所述网页进行排序。
[0018]可选地,根据本发明的上述实施例的兴趣点POI信息排序的系统中,所述网页检索模块包括:采用所述实际打点与所述预测打点之间的差距和用户移动速度的比值作为实际新打点方式的频率。
[0019]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的系统中,所述POI地址信息包括:地址名称、经度和/或维度。
[0020]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的系统中,所述系统用于地图搜索或网页搜索。
[0021]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的系统中,所述地址文本处理模块包括地址文本质量计算模块,用于通过PageRank、Hilltop、HITS算法或其组合来计算所述地址文本的质量。
[0022]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的系统中,所述地址文本处理模块包括:网页文本获取模块,用于提取所述网页的文本内容;和地址文本获取模块,用于在所述文本内容中寻找引导地址信息的关键词,并在所述文本内容中包含所述关键词时,提取所述关键词之后的文本片段;或者在所述文本内容中直接爬取地址信息。
[0023]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的系统中,提取所述关键词之后的文本片段包括:提取所述关键词之后特定的片段长度或特定的分隔符之前的文本片段。
[0024]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的系统中,所述地址文本获取模块还包括地址文本解析模块,用于解析所述地址文本相应的经玮度数据。
[0025]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的所述系统还包括网页整合模块,用于在根据所述地址文本的质量对所述网页进行排序之前将具有相同域名的网页进行整合。
[0026]可选地,根据本发明的上述任一实施例的兴趣点POI信息排序的系统用于批量处理POI信息。
【附图说明】
[0027]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0028]图1是根据本发明的实施例的兴趣点POI信息排序方法100的流程图;
[0029]图2是根据本发明的实施例的兴趣点POI信息排序系统200的框图。
【具体实施方式】
[0030]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1