基于垂直搜索引擎的数字内容查询系统的制作方法

文档序号:13137121阅读:816来源:国知局

本发明涉及搜索引擎技术领域,特别是涉及一种基于垂直搜索引擎的数字内容查询系统。



背景技术:

随着互联网时代的快速推进,人们接触的信息资源呈爆炸性发展的趋势,同时,人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息,帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。为了实现这一目的,目前所采取的技术手段是使用搜索引擎,而现有技术中应用较为广泛的搜索引擎包括sphider、risearchphp、xqengine、jxtasearch等的查询性能均不理想。



技术实现要素:

本发明主要解决的技术问题是提供一种基于垂直搜索引擎的数字内容查询系统,能够大幅提高用户的查询性能。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于垂直搜索引擎的数字内容查询系统,包括主节点服务器和多个从节点服务器,所述主节点服务器包括管理器和查询器,所述从节点服务器包括爬行器和索引器;所述管理器用于分割待爬行的网页的网页链接得到多个网页子链接,并将分割后的网页子链接按照预定策略分配给多个从节点服务器;所述爬行器用于漫游于网络中按照分割的网页子链接抓取网页文本数据,并将所述网页子链接和网页文本数据绑定后保存到网页数据库中:所述索引器用于对所述网页数据库中的网页数据进行分词,并按照所述分词执行全文索引得到索引结果;所述查询器用于解析用户的查询请求得到查询关键词和查询条件,根据所述查询关键词和查询条件生成查询任务,并执行所述查询任务获得查询结果,将所述查询结果返回给用户。

其中,所述索引器还用于在索引结束后根据评分策略对网页进行评分;所述查询器还用于在将查询结果返回给用户时,将查询结果根据网页评分分值由高到低的顺序进行排序。

其中,所述索引器还用于在执行全文索引时对部分倒排文档进行增量索引。

其中,所述管理器还用于将索引结果分散存储在多个从节点服务器上。

其中,所述管理器用于选定存储空间最大的从节点服务器,将索引结果分散存储在所述选定的从节点服务器上。

其中,所述管理器具体用于选定最近最少使用的从节点服务器,将分割后的网页子链接分配给所述选定的从节点服务器。

本发明的有益效果是:区别于现有技术的情况,本发明通过构建主节点服务器和多个从节点服务器,多个从节点服务器的爬行器获取网页文本数据、索引器进行全文索引,主节点服务器的查询器建立查询任务,而网页文本数据分布式存储在多个从节点服务器中,且执行查询任务进行分布式查询,从而能够大幅提高用户的查询性能。

附图说明

图1是本发明实施例的基于垂直搜索引擎的数字内容查询系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参阅图1,是本发明实施例的基于垂直搜索引擎的数字内容查询系统的结构示意图。本发明实施例的数字内容查询系统包括主节点服务器1和多个从节点服务器2,主节点服务器1包括管理器11和查询器12,多个从节点服务器2包括爬行器21和索引器22。

管理器11用于分割待爬行的网页的网页链接得到多个网页子链接,并将分割后的网页子链接按照预定策略分配给多个从节点服务器2。在本实施例中,管理器11具体用于选定最近最少使用的从节点服务器2,将分割后的网页子链接分配给选定的从节点服务器2。由于从节点服务器2按照最近最少使用的策略来选定,因此,可以有效降低磁盘的输入输出次数,满足更多用户的并发访问,从而提高系统的整体性能和应用效率。

爬行器21用于漫游于网络中按照分割的网页子链接抓取网页文本数据,并将网页子链接和网页文本数据绑定后保存到网页数据库中。

索引器22用于对网页数据库中的网页数据进行分词,并按照分词执行全文索引得到索引结果。在本实施例中,索引器22还用于在执行全文索引时对部分倒排文档进行增量索引。索引器22在进行增量索引时过程中会锁定部分倒排文档,当索引完成后解锁对倒排文档的锁定。索引器22还对索引结果进行缓存,当缓存数量超过阈值时,将索引结果保存到倒排索引数据库中。进一步的,管理器11还用于将索引结果分散存储在多个从节点服务器2上。具体而言,管理器11用于选定存储空间最大的从节点服务器2,将索引结果分散存储在选定的从节点服务器2上。

查询器12用于解析用户的查询请求得到查询关键词和查询条件,根据查询关键词和查询条件生成查询任务,并执行查询任务获得查询结果,将查询结果返回给用户:在本实施例中,索引器22还用于在索引结束后根据评分策略对网页进行评分;查询器12还用于在将查询结果返回给用户时,将查询结果根据网页评分分值由高到低的顺序进行排序。其中吗,评分策略可以是关键词出现的词频,词频越高网页评分分值越高。

本发明实施例的数字内容查询系统的主节点服务器1主要用于协调从节点服务器2的分布式处理,而其本身不参与到任务处理中,这样看似浪费了1个节点的计算量,但是也带来了许多其他并行计算模型所没有的优点:整个系统更容易协调运行和扩展。

通过上述方式,本发明的基于垂直搜索引擎的数字内容查询系统通过构建主节点服务器和多个从节点服务器,多个从节点服务器的爬行器获取网页文本数据、索引器进行全文索引,主节点服务器的查询器建立查询任务,而网页文本数据分布式存储在多个从节点服务器中,且执行查询任务进行分布式查询,从而能够大幅提高用户的查询性能。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。



技术特征:

技术总结
本发明公开了一种基于垂直搜索引擎的数字内容查询系统,该系统包括主节点服务器和多个从节点服务器,主节点服务器包括管理器和查询器,从节点服务器包括爬行器和索引器;管理器用于分割待爬行的网页的网页链接得到多个网页子链接,并将网页子链接分配给多个从节点服务器;爬行器用于按照分割的网页子链接抓取网页文本数据,并将网页子链接和网页文本数据绑定后保存到网页数据库中:索引器用于对网页数据库中的网页数据进行分词,并按照分词执行全文索引得到索引结果;查询器用于解析用户的查询请求得到查询关键词和查询条件,根据查询关键词和查询条件生成查询任务,并执行查询任务获得查询结果。本发明能够大幅提高用户的查询性能。

技术研发人员:贺麟;杨霖;李丽琴;肖智宽
受保护的技术使用者:四川汇源吉迅数码科技有限公司
技术研发日:2017.08.14
技术公布日:2017.12.08
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1