一种官方网站网址的查询词挖掘方法和装置的制造方法

文档序号:9432726阅读:226来源:国知局
一种官方网站网址的查询词挖掘方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据挖掘领域,具体涉及一种官方网站网址的查询词挖掘装置和相应的官方网站网址的查询词挖掘方法。
【背景技术】
[0002]在现实生活中,用户希望访问网站时很少会选择在地址栏直接输入网站的网址,而通常会选择在搜索引擎中输入查询词来进行官方网站网址的查询,再通过点击相应的链接进行网站的访问。而搜索引擎为了解决当用户希望访问官方网站的网址时,能够通过搜索引擎获得准确的官方网站网址的问题,使用了官方网站查询技术。
[0003]现有的官方网站查询技术主要通过人工方式进行官方网站网址数据的提交,以及进行用户点击浏览统计来实现。然而,通过人工方式提交官方网站网址数据不能覆盖全部官方网站的网址数据,并且费时费力;而在存在作弊网站的情况下,通过用户点击浏览统计方式不能保证获得的数据准确性。

【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的官方网站网址的查询词挖掘装置和相应的官方网站网址的查询词挖掘方法。
[0005]依据本发明的一个方面,提供了一种官方网站网址的查询词挖掘方法,包括:对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词;将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。
[0006]可选地,所述对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词包括:对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词;对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词,统计主页的标题中包含的所述一个或多个关键词的出现次数;根据主页的标题中包含的所述一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
[0007]可选地,该方法进一步包括:根据主页的标题中包含的所述一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
[0008]可选地,所述对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词包括:对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
[0009]可选地,该方法进一步包括:接收用户输入的查询关键词;将所述查询关键词与所述数据库中的查询词进行匹配;如果数据库中存在与所述查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
[0010]可选地,该方法进一步包括:如果数据库中存在与所述查询关键词匹配的查询词,进一步判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件;如果达到预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
[0011]依据本发明的另一方面,提供了一种官方网站网址的查询词挖掘装置,包括:查询词确定单元,适于对每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词;查询词入库单元,将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中;存储单元,适于存储所述数据库。
[0012]可选地,所述查询词确定单元,包括:标题分析模块,适于对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词;以及对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词;统计确定模块,适于统计主页的标题中包含的所述一个或多个关键词的出现次数;以及根据主页的标题中包含的所述一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
[0013]可选地,所述统计确定模块,进一步适于根据主页的标题中包含的所述一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
[0014]可选地,所述标题分析模块,进一步适于对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
[0015]可选地,该装置进一步包括:查询处理单元,适于接收用户输入的查询关键词,将所述查询关键词与所述数据库中的查询词进行匹配,如果数据库中存在与所述查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
[0016]可选地,所述查询处理单元,进一步适于在数据库中存在与所述查询关键词匹配的查询词时,判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件,如果达到所述预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
[0017]由上述可知,本发明的技术方案提供了一种官方网站网址的查询词挖掘方法和装置,该方法对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词,将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。该技术方案能够准确地从官方网站中挖掘到该网站的一个或多个关键词,并将得到的关键词与该官方网站的网址进行对应保存,不需要人工进行数据的统计和提交,也解决了用户点击浏览统计方式不能保证获得的数据准确性的问题,具有实施方法简单、挖掘结果准确的有益效果。
[0018]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1示出了根据本发明一个实施例的一种官方网站网址的查询词挖掘方法的流程图;
[0021]图2示出了根据本发明一个实施例的一种官方网站网址的查询词挖掘装置的结构示意图。
【具体实施方式】
[0022]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0023]图1示出了根据本发明一个实施例的一种官方网站网址的查询词挖掘方法的流程图,如图1所示,该方法包括:
[0024]步骤S110,对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词。
[0025]通常一个官方网站的域名下会对应存在多个页面,例如,某新闻网站的域名下还细化为娱乐新闻、教育新闻、社会新闻等多个独立的页面,每个独立的页面中还包含多个具体新闻的页面链接,但这些页面都同处于该官方网站的域名下。该步骤对于每个查询词待挖掘的官方网站,对其各页面的标题均进行统计,可以提高确定该官方网站的一个或多个查询词的准确性。
[0026]步骤S120,将确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。
[0027]可见,图1所示的方法对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1