分布式搜索系统的制作方法

文档序号:6447620阅读:134来源:国知局
专利名称:分布式搜索系统的制作方法
技术领域
本实用新型涉及一种搜索装置的结构分布,尤其涉及一种分布式搜索系统。
背景技术
搜索、索引和索引维护程序放在一台服务器上,配置上比较方便但带来的问题是, 搜索并发量大的情况下,无法进行扩展,当索引数据量增大时,索引维护极其消耗服务器性能,会对搜索产生影响。概述Lucene描述及结构i.什么是 LuceneLucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎 (英文与德文两种语言)。Lucene目前是Apache Jakarta家族中的一个顶级开源项目。它的作者是Doug Cutting,他是一位资深全文索引/检索专家。ii. Lucene系统基本结构Lucene提供的服务实际包含两部分一入一出。所谓入是写入,即将你提供的源 (本质是字符串)写入索引或者将其从索引中删除;所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源。下图表示了一入一出,也表示了搜索应用程序和 Lucene之间的关系写入流源字符串首先经过analyzer处理,包括分词,分成一个个单词后将源中需要的信息加入Document的各个Field中,并把需要索引的Field索引起来,把需要存储的Field存储起来并将索引写入存储器,存储器可以是内存或磁盘读出流用户提供搜索关键词,经过analyzer处理。对处理后的关键词搜索索引找出对应的Document。用户根据需要从找到的Document中提取需要的Field。a) Mapreduce Hadoop映射/归约框架是一个主/从(master/slave)架构.它由一个主服务器 (Jobtracker)和若干从服务器(tasktracker)组成。主服务器是用户与系统打交道的关键。用户将自定义的映射/归约操作提交给主服务器。主服务器将操作放入作业队列中并按照先到先服务的原则对队列中的任务进行处理。主服务器用来将映射或者归约操作分配给不同的从服务器。从服务器在主服务器的控制下执行操作,同时,不同的从服务器间在映射和归约阶段也进行着数据传输b) Hadoop DFSHadoop的分布式文件系统(HDFQ被设计用来在集群计算机间存储大型数据文件。这个设计来源于Google文件系统(GR5)。Hadoop分布式文件系统将每一个文件作为一组数据块进行存储,一个文件中除了最后一个数据块的所有数据块都具有相同的大小。作为容错处理,这些数据块被复制成为了很多份。每一个文件的数据块大小和复制的份数是可以被管理员配置的。另外,值得注意的是,HDFS中的文件都是只写一次并且每一个时间点严格的只允许一个线程执行写操作。但是,现有服务器相互之间所构建的搜索系统无法进行有效的扩充,在搜索任务巨大的前提下,会极大的降低执行效率。

实用新型内容本实用新型的目的在于克服现有技术存在的以上问题,提供一种分布式搜索系统。为实现本实用新型的目的分布式搜索系统,包括有索引维护服务器,其中所述的索引维护服务器数据输出端连入分布式文件模块的输入端;所述分布式文件模块的输出端连入从属服务器组件的输入端;所述从属服务器组件的输出端连入远程方法调用模块的输入端;所述远程方法调用模块的输出端连入搜索负载均衡服务器。进一步地,上述的分布式搜索系统,其中,所述的分布式文件模块上设有数据预留接口,所述的数据预留接口上连接有备份服务器;所述备份服务器的输出端连入远程方法调用模块的输入端。更进一步地,上述的分布式搜索系统,其中,所述的从属服务器组件上设有数据源接口。更进一步地,上述的分布式搜索系统,其中,所述的搜索负载均衡服务器上设置有人机交互端口,所述的人机交互端口上设有外接输入设备。再进一步地,上述的分布式搜索系统,其中,所述的从属服务器组件为至少有两组独立运行的服务器组成,每个服务器设有独立电源组件。采用本实用新型技术方案,通过多个服务器的相互合作,能够有效进行扩展。更为重要的是,在索引数据量增大时,索引维护不会出现过多消耗服务器性能的缺陷,确保搜索不受影响。本实用新型的目的、优点和特点,将通过下面优先实施例的非限制性说明进行图示和解释,这些实施例是参照附图仅作为例子给出的。

图1分布式搜索系统的构造示意图。图中各附图标记的含义如下1索引维护服务器 2分布式文件模块3从属服务器4远程方法调用模块5搜索负载均衡服务器6备份服务器
具体实施方式
如图1所示的分布式搜索系统,包括有索引维护服务器1,其特别之处在于本实用新型所采用的索引维护服务器1数据输出端连入分布式文件模块2的输入端。同时,分布式文件模块2的输出端连入从属服务器组件的输入端。与之对应的是,该从属服务器组件的输出端连入远程方法调用模块4的输入端。远程方法调用模块4的输出端连入搜索负载均衡服务器5。结合本实用新型一较佳的实施方式来看,分布式文件模块2上设有数据预留接口,所述的数据预留接口上连接有备份服务器6 ;所述备份服务器6的输出端连入远程方法调用模块4的输入端。并且,考虑到能够在搜索数据中快速调用各种数据源,在从属服务器组件上设有数据源接口。进一步来看,搜索负载均衡服务器5上设置有人机交互端口,所述的人机交互端口上设有外接输入设备。具体来说,这些设备可以是键盘或是PC主机。同时,从属服务器组件为至少有两组独立运行的服务器组成,每个服务器设有独立电源组件。这样可以便于后续的维护以及停电后的顺利运转。再者,考虑到这个搜索的延续性不被破坏,搜索步骤中,当某个从属服务器3无法连接或服务器断电时,搜索负载均衡服务器5会尝试在从属服务器3对应的备份服务器6上搜索。并且,当从属服务器3和对应的备份服务器6都不能搜索时,搜索负载均衡服务器5会屏蔽相应的从属服务器3搜索,返回其他从属服务器3搜索到的数据,避免某个从属服务器3无法连接时影响整体搜索功能。发送报警信息给管理员以及时排查相应从属服务器3的问题。从本实用新型的实施过程来看,当用户查询“北京的酒店”,搜索负载均衡服务器5 根据索引分布式策略判断出北京的索引数据存在一号从属服务器3上,然后从属服务器3 查询后将数据返回给搜索负载均衡服务器5,搜索负载均衡服务器5计算后再返回给用户。通过上述的文字表述并结合附图可以看出,采用本实用新型后,通过多个服务器的相互合作,能够有效进行扩展。更为重要的是,在索引数据量增大时,索引维护不会出现过多消耗服务器性能的缺陷,确保搜索不受影响。当然,以上仅是本实用新型的具体应用范例,对本实用新型的保护范围不构成任何限制。除上述实施例外,本实用新型还可以有其它实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本实用新型所要求保护的范围之内。
权利要求1.分布式搜索系统,包括有索引维护服务器,其特征在于所述的索引维护服务器数据输出端连入分布式文件模块的输入端;所述分布式文件模块的输出端连入从属服务器组件的输入端;所述从属服务器组件的输出端连入远程方法调用模块的输入端;所述远程方法调用模块的输出端连入搜索负载均衡服务器。
2.根据权利要求1所述的分布式搜索系统,其特征在于所述的分布式文件模块上设有数据预留接口,所述的数据预留接口上连接有备份服务器;所述备份服务器的输出端连入远程方法调用模块的输入端。
3.根据权利要求1所述的分布式搜索系统,其特征在于所述的从属服务器组件上设有数据源接口。
4.根据权利要求1所述的分布式搜索系统,其特征在于所述的搜索负载均衡服务器上设置有人机交互端口,所述的人机交互端口上设有外接输入设备。
5.根据权利要求1所述的分布式搜索系统,其特征在于所述的从属服务器组件为至少有两组独立运行的服务器组成,每个服务器设有独立电源组件。
专利摘要本实用新型涉及一种分布式搜索系统,包括有索引维护服务器,其中索引维护服务器数据输出端连入分布式文件模块的输入端。同时,分布式文件模块的输出端连入从属服务器组件的输入端。并且,在从属服务器组件的输出端连入远程方法调用模块的输入端,远程方法调用模块的输出端连入搜索负载均衡服务器。由此,采用本实用新型技术方案,通过多个服务器的相互合作,能够有效进行扩展。更为重要的是,在索引数据量增大时,索引维护不会出现过多消耗服务器性能的缺陷,确保搜索不受影响。
文档编号G06F17/30GK202084034SQ20112015092
公开日2011年12月21日 申请日期2011年5月12日 优先权日2011年5月12日
发明者吴剑, 吴志祥, 庞绍进, 张海龙, 王专, 王晓钟, 郭凤林, 马和平 申请人:苏州同程旅游网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1