选择兴趣点poi数据的方法及装置的制造方法

文档序号:9396891阅读:542来源:国知局
选择兴趣点poi数据的方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,具体而言,本发明涉及选择兴趣点POI数据的方法及装置。
【背景技术】
[0002]在地理信息系统中,一个POI (Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据包括地址信息和POI名称。
[0003]传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取每个POI的经玮度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,地理信息系统很难根据数量很少的POI数据来提供高水平的服务。
[0004]互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。但是从互联网上中提取到准确率较高POI数据有一定难度,例如,可能从互联网中获取到多个POI数据中,其具有相同的名称信息但不同的地址信息,现有技术难以甄别出哪个POI数据中的名称信息对应的地址信息是准确的,从而对收集到准确的POI数据造成障碍。

【发明内容】

[0005]本发明针对现有技术的缺点,提出一种用于选择兴趣点POI数据的方法和装置,用以解决现有技术存在的难以甄别具有相同名称信息的多个POI数据的准确性的问题。
[0006]本发明根据一个方面,提供了一种选择兴趣点POI数据的方法,包括:
[0007]获取包括具有相同的名称信息的不同POI数据的多个网页页面;
[0008]提取所述多个网页页面的用户关注度信息;
[0009]根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度;
[0010]基于用户关注度对所述多个网页页面中包括的具有相同名称信息的多个POI数据进彳丁排序;
[0011]基于所述POI数据的排序选择一个或多个所述POI数据,作为对应该相同的名称信息的可信POI数据。
[0012]优选地,提取所述多个网页页面中的用户关注度信息的步骤,进一步包括:
[0013]根据各网页页面在第一时长内的用户访问次数和/或平均每次浏览时长,获取各网页页面的用户关注度信息。
[0014]当网页页面中仅包括一个POI数据时,可选地,根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度的步骤,进一步包括:
[0015]将网页页面的用户关注度信息作为该网页页面中包括的一个POI数据的用户关注度。
[0016]当网页页面中包括多个POI数据时,可选地,根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度的步骤,进一步包括:
[0017]按照预定频率抓取第二时长内各网页页面中的页面内容;
[0018]提取每次抓取到的页面内容中的POI数据;
[0019]判断所述第二时长内各网页页面的页面内容中POI数据是否发生变更;
[0020]基于判断结果选择相应的关注度分配规则;
[0021]基于所述相应的关注度分配规则,根据各网页页面的用户关注度,并结合各网页页面中包括的POI数据的个数,确定各网页页面中包括的多个POI数据的用户关注度。
[0022]其中,基于判断结果选择相应的关注度分配规则,包括以下情形:
[0023]当POI数据未发生变更时,选择将网页页面的用户关注度信息作为该网页页面中包括的各POI数据的用户关注度的关注度分配规则;或
[0024]当POI数据发生变更时,选择将网页页面的用户关注度信息平均分配至该网页页面中包括的各POI数据的用户关注度的关注度分配规则。
[0025]优选地,基于用户关注度对所述多个网页页面中包括的具有相同名称信息的多个POI数据进行排序的步骤,进一步包括:
[0026]提取多个POI数据中用户关注度大于关注度阈值的至少两个POI数据;
[0027]基于用户关注度对所述至少两个POI数据进行排序。
[0028]本发明根据另一个方面,还提供了一种选择兴趣点POI数据的装置,包括:
[0029]获取模块,用于获取包括具有相同的名称信息的不同POI数据的多个网页页面;
[0030]提取模块,用于提取所述多个网页页面的用户关注度信息;
[0031]确定模块,用于根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度;
[0032]排序模块,用于基于用户关注度对所述多个网页页面中包括的具有相同名称信息的多个POI数据进行排序;
[0033]选择模块,用于基于所述POI数据的排序选择一个或多个所述POI数据,作为对应该相同的名称信息的可信POI数据。
[0034]优选地,所述提取模块具体用于根据各网页页面在第一时长内的用户访问次数和/或平均每次浏览时长,获取各网页页面的用户关注度信息。
[0035]当网页页面中仅包括一个POI数据时,可选地,所述确定模块具体用于将网页页面的用户关注度信息作为该网页页面中包括的一个POI数据的用户关注度。
[0036]当网页页面中包括多个POI数据时,可选地,所述确定模块具体包括:
[0037]抓取单元,用于按照预定频率抓取第二时长内各网页页面中的页面内容;
[0038]提取单元,用于提取每次抓取到的页面内容中的POI数据;
[0039]判断单元,用于判断所述第二时长内各网页页面的页面内容中POI数据是否发生变更;
[0040]选择单元,用于基于判断结果选择相应的关注度分配规则;
[0041]确定单元,用于基于所述相应的关注度分配规则,根据各网页页面的用户关注度,并结合各网页页面中包括的POI数据的个数,确定各网页页面中包括的多个POI数据的用户关注度。
[0042]其中,基于判断结果选择相应的关注度分配规则,包括以下情形:
[0043]当POI数据未发生变更时,选择将网页页面的用户关注度信息作为该网页页面中包括的各POI数据的用户关注度的关注度分配规则;或
[0044]当POI数据发生变更时,选择将网页页面的用户关注度信息平均分配至该网页页面中包括的各POI数据的用户关注度的关注度分配规则。
[0045]优选地,所述排序装置具体用于提取多个POI数据中用户关注度大于关注度阈值的至少两个POI数据;基于用户关注度对所述至少两个POI数据进行排序。
[0046]本发明的技术方案中,对包括具有相同的名称信息的不同POI数据的多个网页页面,根据多个网页页面的用户关注度信息来确定其中包括的POI数据所对应的用户关注度,再基于用户关注度对POI数据进行排序,进而根据排序结果从中选择对应该相同的名称信息的可信POI数据;由于用户关注度越高的POI数据,其包含信息的准确率越高,同时,网页页面的用户关注度可直接反应网页页面包括的各项信息的可信度和价值度,对于网页页面中包括的POI数据,网页页面的用户关注度也可以在很大程度上反应POI数据的用户关注度;因此,根据用户关注度可从具有相同的名称信息的不同POI数据中选择出可信度较高的POI数据,解决了现有技术难以甄别出哪个POI数据中的名称信息对应的地址信息是准确的问题,提高了对收集POI数据的准确率。
[0047]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0048]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0049]图1为本发明一个实施例中选择兴趣点POI数据的方法的流程示意图;
[0050]图2为本发明一个优选实施例中选择兴趣点POI数据的方法的流程示意图;
[0051]图3为本发明另一实施例中选择兴趣点POI数据的装置的内部结构的框架示意图;
[0052]图4为本发明另一优选实施例中选择兴趣点POI数据的装置的内部结构的框架示意图。
【具体实施方式】
[0053]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0054]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1