基于大数据的垂直搜索引擎系统的制作方法

文档序号:6542145阅读:315来源:国知局
基于大数据的垂直搜索引擎系统的制作方法
【专利摘要】本发明公开了一种基于大数据的垂直搜索引擎系统,包括Lucene(1)、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene(1)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。本发明可以更加快速准确找到用户想要的搜索结果。
【专利说明】基于大数据的垂直搜索引擎系统
【技术领域】
[0001]本发明属于大数据方面的搜索【技术领域】,尤其涉及一种基于大数据的垂直搜索引擎系统。
【背景技术】
[0002]通用搜索引擎的出现很大程度上解决了人们在互联网上查找信息的困难,但随着Web上信息的快速增长,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需求。垂直搜索引擎是一种全新的搜索引擎服务模式,它是通用搜索引擎的细化和延伸。垂直搜索引擎(vertical search engine)也被称为专业搜索引擎,或主题搜索引擎,它专门收录某一方面、某一行业或某一主题内的信息,专为查询某一个学科或某一主题的信息提供检索服务,在解决某些实际查询问题的时候比综合搜索引擎更有效。具体而言,垂直搜索引擎就是把网页库中的某类专门信息进行了整合,定向分字段地抽取出需要的数据,然后进行深度加工 处理,如去重、分类、分词、索引等,最后再以某种特定的形式返回给用户。它能为用户提供针对性更强、精确性更高的信息检索服务。垂直搜索引擎的应用方向很多,如地图搜索、音乐搜索、图片搜索、文献搜索、企业信息搜索、求职信息搜索、……涉及各行各业、各类信息都可被细化成相应的垂直搜索对象。

【发明内容】

[0003]本发明所要解决的技术问题是提供一种可以更加快速准确找到用户想要的搜索结果的基于大数据的垂直搜索引擎系统。
[0004]为解决上述技术问题,本发明提供一种基于大数据的垂直搜索引擎系统,包括Lucene、索引器、检索器、中文分词模块、用户接口模块,其特征在于:所述Lucene与索引器连接,所述索引器与检索器相互连接,所述检索器与中文分词模块连接,所述用户接口模块与中文分词模块连接。
[0005]进一步的,所述Lucene是一个全文检索引擎的架构。
[0006]进一步的,所述索引器负责对原始数据库的文档构造索引,并且存储在索引数据库中。
[0007]进一步的,所述检索器利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。
[0008]进一步的,所述中文分词模块使用全二分最大匹配快速分词算法。
[0009]更进一步的,所述用户接口模块为可视化的查询输入和结果输出界面。
[0010]与现有技术相比,本发明的有益效果为:
本发明可以更加快速准确找到用户想要的搜索结果。
【专利附图】

【附图说明】[0011]图1为本发明结构示意图。
[0012]图中=LuceneU索引器2、检索器3、中文分词模块4、用户接口模块5。
【具体实施方式】
[0013]以下结合附图和【具体实施方式】对本发明做进一步详细说明。
[0014]参见图1所示,一种基于大数据的垂直搜索引擎系统,包括Lucenel、索引器2、检索器3、中文分词模块4、用户接口模块5,所述Lucenel与索引器2连接,所述索引器2与检索器3相互连接,所述检索器3与中文分词模块4连接,所述用户接口模块5与中文分词模块4连接,所述Lucenel是一个全文检索引擎的架构,所述索引器2负责对原始数据库的文档构造索引,并且存储在索引数据库中,所述检索器3利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户,所述中文分词模块4使用全二分最大匹配快速分词算法,所述用户接口模块,5为可视化的查询输入和结果输出界面,所述一个全二分最大匹配快速分词算法,这种分词算法每次的匹配操作都可以记忆,使得不需要任何的重复匹配操作,而且匹配操作都是使用二分法进行的,这样就最大限度地提高了分词的效率。
[0015]综上所示,本发明可以更加快速准确找到用户想要的搜索结果。
[0016]以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
【权利要求】
1.一种基于大数据的垂直搜索引擎系统,包括Lucene (I )、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene (I)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。
2.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述Lucene (I)是一个全文检索引擎的架构。
3.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述索引器(2)负责对原始数据库的文档构造索引,并且存储在索引数据库中。
4.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述检索器(3)利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。
5.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述中文分词模块(4)使用全二分最大匹配快速分词算法。
6.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述用户接口模块(5)为可视化的查询输入和结果输出界面。
【文档编号】G06F17/30GK103927342SQ201410120944
【公开日】2014年7月16日 申请日期:2014年3月28日 优先权日:2014年3月28日
【发明者】官正轮 申请人:苏州中炎工贸有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1