选择兴趣点poi数据的方法及装置的制造方法_2

文档序号:9396891阅读:来源:国知局
它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0055]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0056]图1为本发明一个实施例中选择兴趣点POI数据的方法的流程示意图。
[0057]步骤SllO:获取包括具有相同的名称信息的不同POI数据的多个网页页面;步骤S120:提取多个网页页面中的用户关注度信息;步骤S130:根据各网页页面的用户关注度信息,确定该网页页面中包括的一个或多个POI数据所对应的用户关注度;步骤S140:基于用户关注度对多个网页页面中包括的具有相同名称信息的多个POI数据进行排序;步骤S150:基于POI数据的排序选择一个或多个所述POI数据,作为对应该相同的名称信息的可信POI数据。
[0058]本发明的技术方案中,对包括具有相同的名称信息的不同POI数据的多个网页页面,根据多个网页页面的用户关注度信息来确定其中包括的POI数据所对应的用户关注度,再基于用户关注度对POI数据进行排序,进而根据排序结果从中选择对应该相同的名称信息的可信POI数据;由于用户关注度越高的POI数据,其包含信息的准确率越高,同时,网页页面的用户关注度可直接反应网页页面包括的各项信息的可信度和价值度,对于网页页面中包括的POI数据,网页页面的用户关注度也可以在很大程度上反应POI数据的用户关注度;因此,根据用户关注度可从具有相同的名称信息的不同POI数据中选择出可信度较高的POI数据,解决了现有技术难以甄别出哪个POI数据中的名称信息对应的地址信息是准确的问题,提高了对收集POI数据的准确率。
[0059]步骤SllO:获取包括具有相同的名称信息的不同POI数据的多个网页页面。
[0060]具体地,获取包括POI数据的网页页面;基于一个名称信息,在各个网页页面包括的POI数据中进行匹配,确定包括该名称信息的网页页面;对于包括该名称信息的网页页面,判断其各自包括的POI数据中的地址信息是否相同,并提取具有不同地址信息的多个网页页面。
[0061]其中,获取包括POI数据的网页页面的步骤具体包括:
[0062]从互联网中获取多个POI数据;爬取包括地址信息的多个网页页面;将多个POI数据中的地址信息及多个网页页面包含的地址信息分别归一化为经玮度信息;基于同一经玮度信息,在多个POI数据的经玮度信息与多个网页页面中经玮度信息中进行匹配;对于具有相同经玮度信息的POI数据及网页页面,根据该POI数据对应的POI名称在该网页页面中进行查找,确定该网页页面中是否包括该POI数据的POI名称;当该网页页面中包括该POI数据的POI名称时,确定该网页页面包括该兴趣点POI数据。
[0063]步骤S120:提取多个网页页面中的用户关注度信息。
[0064]具体地,提取所述多个网页页面的用户关注度信息的步骤具体包括:
[0065]根据各网页页面在第一时长内的用户访问次数和/或平均每次浏览时长,获取各网页页面的用户关注度信息。
[0066]其中,用户访问次数可为用户对指向网页页面的链接的点击次数。
[0067]例如,根据各网页页面的页面标识在用户历史访问记录中查询,确定在第一时长内,如近30日内,各网页页面对应链接的用户点击次数和/或该网页页面的平均每次浏览时长,随后基于关注度计算公式,通过对用户点击次数和/或平均每次浏览时长赋予相应的权重进行加权计算,来确定各网页页面的用户关注度信息;其中,用户历史访问记录中包括网页页面对应链接的用户点击和/或用户对网页页面的浏览记录。
[0068]步骤S130:根据各网页页面的用户关注度信息,确定该网页页面中包括的一个或多个POI数据所对应的用户关注度。
[0069]可选地,当网页页面中仅包括一个POI数据时,根据各网页页面的用户关注度信息,确定该网页页面中包括的一个或多个POI数据所对应的用户关注度的方式具体为:将该网页页面的用户关注度信息作为该网页页面中包括的一个POI数据的用户关注度。
[0070]可选地,如图2所示,当网页页面中包括多个POI数据时,根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度的步骤,进一步包括步骤S231(图中未示出)、步骤S232(图中未示出)、步骤S233(图中未示出)、步骤S234(图中未示出)和步骤S235(图中未示出)。
[0071]步骤S231:按照预定频率抓取第二时长内各网页页面中的页面内容;步骤S232:提取每次抓取到的页面内容中的POI数据;步骤S233:判断第二时长内各网页页面的页面内容中POI数据是否发生变更;步骤S234:基于判断结果选择相应的关注度分配规则;步骤S235:基于相应的关注度分配规则,根据各网页页面的用户关注度,并结合各网页页面中包括的POI数据的个数,确定各网页页面中包括的多个POI数据的用户关注度。
[0072]步骤S231:按照预定频率抓取第二时长内各网页页面中的页面内容。
[0073]具体地,对于包括多个POI数据的网页页面,可利用网络爬虫类的程序,从互联网中按照预定频率抓取在第二时长内该网页页面的页面内容,如以I次/日的频率,抓取180日内该网页页面的页面内容。
[0074]步骤S232:提取每次抓取到的页面内容中的POI数据。
[0075]例如,对于首次抓取到的页面内容,从中提取文本内容,并在文本内容中查找“地址”、“位于”或“坐落于”等可能包括地址信息的地址关键词;提取地址关键词附近的文本片段;根据设定的分隔符以及片段长度对文本片段进行分割,比如文本片段距离地址关键词的文本长度大于设定的阈值、和/或文本片段出现设定的分隔符(比如空格、逗号、句号等),则对文本片段进行分割;将分割结果中,分割处(例如分隔符处)与地址关键词之间的文本片段,作为该网页页面中与地址关键词相关联的文本信息;随后,对于各个文本信息,从各个文本信息中提取出地址信息,并基于各个地址信息,分别提取距离其各自最近的名称作为POI名称,即提取到各个POI数据。对于之后抓取到的页面内容,可基于首次已确定的POI数据所在的页面位置处直接提取。
[0076]步骤S233:判断第二时长内各网页页面的页面内容中POI数据是否发生变更。
[0077]具体地,以I次/日的频率抓取到180日内网页页面的页面内容,即180张该网页页面的页面内容,比较从180张网页页面的页面内容中提到的各个POI数据是否相同,若相同则确定POI数据发生未变更。例如,一个网页页面中包括三个POI数据,用P1、P2和P3表示;P1的POI名称为大董烤鸭店(团结湖店),P2的POI名称为大董烤鸭店(东四十条店),P3的POI名称为大董烤鸭店(玉渊潭店);以I次/日的频率抓取到180日内该网页页面的180张页面内容,提取该180张页面内容中P1、P2和P3分别对应的POI名称和地址信息,即比较180个Pl的POI名称和地址信息、180个P2的POI名称和地址信息以及180个P3的POI名称和地址信息分别是否相同。
[0078]步骤S234:基于判断结果选择相应的关注度分配规则。
[0079]其中,关注度分配规则包括:当POI数据未发生变更时,选择将网页页面的用户关注度信息作为该网页页面中包括的各POI数据的用户关注度的关注度分配规则;当POI数据发生变更时,选择将网页页面的用户关注度信息平均分配至该网页页面中包括的各POI数据的用户关注度的关注度分配规则。
[0080]步骤S235:基于相应的关注度分配规则,根据各网页页面的用户关注度,并结合各网页页面中包括的POI数据的个数,确定各网页页面中包括的多个POI数据的用户关注度。
[0081]当POI数据发生未变更时,将网页页面的用户关注度作为该网页页面中包括的各POI数据的用户关注度。
[0082]当POI数据发生变更时,根据网页页面的用户关注度,并结合网页页面中包括的POI数据的个数,将网页页面的用户关注度平均分配至该网页页面中的各POI数据。
[0083]具体地,当网页页面中任一 POI数据发生变更时,根据网页页面的用户关注度,并结合网页页面中包括的POI数据的个数,通过计算n/m可确定各个POI数据的用户关注度;其中,网页页面的用户关注度为n,网页页面中包含的POI数据的个数为m。
[0084]参照图1,步骤S140:基于用户关注度对多个网页页面中包括的具有相同名称信息的多个POI数据进行排序。
[0085]具体地,将多个网页页面中包括的具有相同名称信息的多个POI数据
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1