确定官网首页中的地址信息的方法及装置的制造方法_4

文档序号:9350008阅读:来源:国知局
相关切分词为“朝阳区”、“朝阳门外大街”、“10号”、“昆泰大厦”、“裙楼”和“7层”分别在地址数据库中进行匹配查询,确定各个地址相关切分词在地址数据库中匹配成功,则确定地址相关文本片段“朝阳区朝阳门外大街10号昆泰大厦裙楼7层”为地址信息。
[0109]本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、⑶-ROM、和磁光盘)、ROM (Read-Only Memory,只读存储器)、RAM (Random Access Memory,随即存储器)、EPROM (Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricalIy ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
[0110]本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0111]本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0112]以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【主权项】
1.一种确定官网首页中的地址信息的方法,其特征在于,包括: 获取一个或多个的官网首页; 对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段; 对所述地址相关文本片段进行处理以抽出多个地址相关切分词; 将所述多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定所述地址相关文本片段为地址信息。2.根据权利要求1所述的确定官网首页中的地址信息的方法,其中,获取一个或多个的官网首页的步骤,具体包括: 查找多个首页URL ; 对各个首页URL所在主域下包括的首页URL进行聚类,确定该主域下包含的多个首页URL的数量; 若该主域下包含的多个首页URL的数量小于预定数量阈值,获取所述多个首页URL各自对应的网页的用户关注度; 基于用户关注度对所述多个首页URL各自对应的网页进行排序,确定用户关注度最高的网页为官网首页。3.根据权利要求2所述的确定官网首页中的地址信息的方法,其中,获取所述多个首页URL各自对应的网页的用户关注度的步骤,包括: 根据所述多个首页URL各自对应的网页在预定时长内的用户点击次数和/或平均每次浏览时长,获取相应的用户关注度。4.根据权利要求1-3中任一项所述的确定官网首页中的地址信息的方法,其中,对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段的步骤,具体包括: 基于地址关键词规则在所述官网首页的页面内容中进行文本匹配; 当匹配成功时,根据提取规则提取所述页面内容中的一个或多个地址相关文本片段。5.根据权利要求1-3任一项所述的确定官网首页中的地址信息的方法,其中,对所述地址相关文本片段进行处理以抽出多个地址相关切分词的步骤,具体包括: 获取对所述地址相关文本片段切词后得到的多个原始切分词; 对所述多个原始切分词进行过滤处理以抽出多个地址相关切分词。6.一种确定官网首页中的地址信息的装置,其特征在于,包括: 首页获取模块,用于获取一个或多个的官网首页; 提取模块,用于对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段; 抽取模块,用于对所述地址相关文本片段进行处理以抽出多个地址相关切分词; 确定模块,用于将所述多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定所述地址相关文本片段为地址信息。7.根据权利要求6所述的确定官网首页中的地址信息的装置,其中,所述首页获取模块具体包括: 查找单元,用于查找多个首页URL ; 聚类单元,用于对各个首页URL所在主域下包括的首页URL进行聚类,确定该主域下包含的多个首页URL的数量; 关注度获取单元,用于若该主域下包含的多个首页URL的数量小于预定数量阈值,获取所述多个首页URL各自对应的网页的用户关注度; 排序单元,用于基于用户关注度对所述多个首页URL各自对应的网页进行排序,确定用户关注度最高的网页为官网首页。8.根据权利要求7所述的确定官网首页中的地址信息的装置,其中,所述关注度获取单元用于根据所述多个首页URL各自对应的网页在预定时长内的用户点击次数和/或平均每次浏览时长,获取相应的用户关注度。9.根据权利要求6-8中任一项所述的确定官网首页中的地址信息的装置,其中,所述提取模块具体包括: 匹配单元,用于基于地址关键词规则在所述官网首页的页面内容中进行文本匹配; 片段提取单元,用于当匹配成功时,根据提取规则提取所述页面内容中的一个或多个地址相关文本片段。10.根据权利要求6-8中任一项所述的确定官网首页中的地址信息的装置,其中,所述抽取模块具体包括: 切分单元,用于获取对所述地址相关文本片段切词后得到的多个原始切分词; 过滤单元,用于对所述多个原始切分词进行过滤处理以抽出多个地址相关切分词。
【专利摘要】本发明提供了一种确定官网首页中的地址信息的方法,包括:获取一个或多个的官网首页;对官网首页的页面内容进行文本分析以提取页面内容中的一个或多个地址相关文本片段;对地址相关文本片段进行处理以抽出多个地址相关切分词;将多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定地址相关文本片段为地址信息。本发明的实施例中,从大量首页中确定官网首页,并基于官网首页的页面内容来确定地址信息,可快速获取官网下具有较高权威性及正确性的地址信息,为基于官网下的地址信息来检测POI数据的方式提供有力保证。
【IPC分类】G06F17/30
【公开号】CN105069076
【申请号】CN201510463025
【发明人】王智广
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2015年11月18日
【申请日】2015年7月31日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1