确定官网首页中的地址信息的方法及装置的制造方法

文档序号:9350008阅读:176来源:国知局
确定官网首页中的地址信息的方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,具体而言,本发明涉及确定官网首页中的地址信息的方法及装置。
【背景技术】
[0002]在地理信息系统中,一个POI (Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据包括地址信息和POI名称。
[0003]传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取每个POI的经玮度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,地理信息系统很难根据数量很少的POI数据来提供高水平的服务。
[0004]互联网上的官网可提供具有权威性的地址信息和名称信息,利用官网提供的具有权威性和正确性的包括地址信息和名称信息的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性可大大提高检测POI数据的准确性。因此,如何从官网首页中确定得到地址信息是首先需要解决的重要问题之一。

【发明内容】

[0005]为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
[0006]本发明根据一个方面,提供了一种确定官网首页中的地址信息的方法,包括:
[0007]获取一个或多个的官网首页;
[0008]对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段;
[0009]对所述地址相关文本片段进行处理以抽出多个地址相关切分词;
[0010]将所述多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定所述地址相关文本片段为地址信息。
[0011]其中,获取一个或多个的官网首页的步骤,具体包括:
[0012]查找多个首页URL;
[0013]对各个首页URL所在主域下包括的首页URL进行聚类,确定该主域下包含的多个首页URL的数量;
[0014]若该主域下包含的多个首页URL的数量小于预定数量阈值,获取所述多个首页URL各自对应的网页的用户关注度;
[0015]基于用户关注度对所述多个首页URL各自对应的网页进行排序,确定用户关注度最高的网页为官网首页。
[0016]其中,获取所述多个首页URL各自对应的网页的用户关注度的步骤,包括:
[0017]根据所述多个首页URL各自对应的网页在预定时长内的用户点击次数和/或平均每次浏览时长,获取相应的用户关注度。
[0018]其中,对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段的步骤,具体包括:
[0019]基于地址关键词规则在所述官网首页的页面内容中进行文本匹配;
[0020]当匹配成功时,根据提取规则提取所述页面内容中的一个或多个地址相关文本片段。
[0021]其中,对所述地址相关文本片段进行处理以抽出多个地址相关切分词的步骤,具体包括:
[0022]获取对所述地址相关文本片段切词后得到的多个原始切分词;
[0023]对所述多个原始切分词进行过滤处理以抽出多个地址相关切分词。
[0024]本发明根据另一个方面,还提供了一种确定官网首页中的地址信息的装置,包括:
[0025]首页获取模块,用于获取一个或多个的官网首页;
[0026]提取模块,用于对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段;
[0027]抽取模块,用于对所述地址相关文本片段进行处理以抽出多个地址相关切分词;
[0028]确定模块,用于将所述多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定所述地址相关文本片段为地址信息。
[0029]其中,所述首页获取模块具体包括:
[0030]查找单元,用于查找多个首页URL ;
[0031 ] 聚类单元,用于对各个首页URL所在主域下包括的首页URL进行聚类,确定该主域下包含的多个首页URL的数量;
[0032]关注度获取单元,用于若该主域下包含的多个首页URL的数量小于预定数量阈值,获取所述多个首页URL各自对应的网页的用户关注度;
[0033]排序单元,用于基于用户关注度对所述多个首页URL各自对应的网页进行排序,确定用户关注度最高的网页为官网首页。
[0034]其中,所述关注度获取单元用于根据所述多个首页URL各自对应的网页在预定时长内的用户点击次数和/或平均每次浏览时长,获取相应的用户关注度。
[0035]其中,所述提取模块具体包括:
[0036]匹配单元,用于基于地址关键词规则在所述官网首页的页面内容中进行文本匹配;
[0037]片段提取单元,用于当匹配成功时,根据提取规则提取所述页面内容中的一个或多个地址相关文本片段。
[0038]其中,所述抽取模块具体包括:
[0039]切分单元,用于获取对所述地址相关文本片段切词后得到的多个原始切分词;
[0040]过滤单元,用于对所述多个原始切分词进行过滤处理以抽出多个地址相关切分
Τ.κ| ο
[0041]本发明中,由于官网可提供具有较高权威性及正确性的包括地址信息和名称信息,基于此来检测从POI数据提供网站中提取出的POI数据的准确性会大大提高,而从官网中提取地址信息是实现上述检测方式的基础;因此,本发明的实施例中,从大量首页中确定官网首页,并基于官网首页的页面内容来确定地址信息,可快速获取官网下具有较高权威性及正确性的地址信息,为基于官网下的地址信息来检测POI数据的方式提供有力保证。
[0042]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0043]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0044]图1为本发明一个实施例中确定官网首页中的地址信息的方法的流程示意图;
[0045]图2为本发明一个优选实施例中确定官网首页中的地址信息的方法的流程示意图;
[0046]图3为本发明另一实施例中确定官网首页中的地址信息的装置的内部结构的框架示意图;
[0047]图4为本发明另一优选实施例中确定官网首页中的地址信息的装置的内部结构的框架示意图。
【具体实施方式】
[0048]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0049]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1