一种基于索引分片均衡的大数据云搜索平台及其方法与流程

文档序号:12121460阅读:来源:国知局

技术特征:

1.一种基于索引分片均衡的大数据云搜索平台,其特征在于,包括:

Apache Lucene引擎单元,基于Apache Lucene的搜索引擎架构,包括分析器、索引编写器以及查询引擎模块;分析器获得由各种类型的数据源文件转化的源文本数据,通过分析处理将源文本数据转换为标记;索引编写器用于生成和管理索引,将由分析器转换而成的标记保存在索引的数据结构之中,所生成的索引的文件形式为索引分片,临时缓存索引分片并将所述索引分片提供给节点集群进行存储;所述索引分片包括主索引分片和至少一个副本索引分片;每个索引分片具有自身的索引分片ID;查询引擎模块进一步包括查询解析器和索引搜索器;查询解析器用于将用户输入的关键词、词组、短句等查询条件通过调用分析器转换为查询条件项,索引搜索器基于转换而来的查询条件项,向节点集群发起查询请求;索引搜索器获得节点集群的反馈结果,并根据该反馈结果确定索引分片与查询条件项的匹配程度,产生分数,并按照分数的排序返回搜索结果;

节点集群,包括若干节点,所述节点用于存储由Apache Lucene引擎单元提供的索引分片,并承担索引分片被查询调用的负荷;节点集群接收所述查询请求,根据该查询请求所指向的索引分片,将查询请求分配给存储相应的索引分片的节点,由该节点响应该查询请求而在查询请求所指向的索引分片中完成查询相关的计算,生成反馈结果;

索引分片分析单元,用于为索引分片生成所述内容标识符;

索引分片分配管理单元,包括索引分片分配记录模块、节点能力状态管理模块和分配方案确定模块;其中索引分片分配记录模块,用于为节点集群中的每一个节点生成并存储一个索引分片分配记录表,索引分片分配记录表记录了在本节点上承担的每个索引分片的相关信息,所述相关信息中包括索引分片的索引分片ID、内容标识符、热度等级以及主副标识;

节点能力状态管理模块,用于实时从集群的各节点获得节点处理能力参数,并通过节点能力状态列表对各节点实时的节点处理能力参数进行保存;

分配方案确定模块,获取当前待分配的索引分片的索引分片ID;根据所获取的当前待分配的索引分片的索引分片ID,统计当前分布在各热度等级上的待分配索引分片的数量;确定集群中的可用节点及其节点号;通过查询所述节点能力状态列表当中各个可用节点的节点处理能力参数,决定各可用节点在各热度等级上分别承担的待分配索引分片的承担数量;按照该承担数量将各热度等级上的待分配索引分片分派给可用节点,形成分配方案;分配方案包括可用节点的节点号和每个可用节点被分配的索引分片的索引分片ID;将分配方案传输给Apache Lucene引擎单元和索引分片分配记录模块;

并且,索引分片分配记录模块则根据分配方案,更新每个节点的索引分片分配记录表;

Apache Lucene引擎单元根据所述分配方案,将分配方案中的索引分片ID对应的索引分片传输给相应节点号的可用节点进行存储和承担,或,将涉及分配方案中的索引分片的查询请求重定位到指向分配方案中与该索引方案对应的节点。

2.根据权利要求1所述的大数据云搜索平台,其特征在于,分配方案确定模块在按照所述承担数量将各热度等级上的待分配索引分片分派给可用节点时,还进一步获得待分配的索引分片的内容标识符;根据待分配的索引分片的内容标识符,确定待分配的索引分片之间的内容相关度,从而使被分配在同一可用节点的待分配的索引分片之间的内容相关度最小化而生成所述分配方案。

3.根据权利要求2所述的大数据云搜索平台,其特征在于,所述索引分片分析单元所生成的内容标识符包括数据源文件标识符与关键词标识符;其中,由同一个数据源文件或同一系列的数据源文件所生成的各索引分片具有相同的数据源文件标识符;所述索引分片分析单元分析每个索引分片存储的标记信息,从中提取关键词作为关键词标识符。

4.根据权利要求3所述的大数据云搜索平台,其特征在于,分配方案确定模块确定每两个待分配的索引分片之间的内容相关度,可按下述公式进行确定:

R=a1·S+a2·K

其中R是表示两个待分配的索引分片之间的内容相关度的量化参数;S是根据两个待分配索引分片的数据源文件标识符评估的相关度量化参数;K表示根据两个待分配索引分片的关键词标识符的重合度所评估的相关度量化参数,a1与a2是加权求和系数。

5.根据权利要求4所述的大数据云搜索平台,其特征在于,在初次分配的情况下,索引分片分配记录模块则根据分配方案,更新每个节点的索引分片分配记录表,在该表中为本节点新承担下来的初次分配的每个索引分片建立条目,保存索引分片的索引分片ID、内容标识符、热度等级以及主副标识;在重新分配的情况下,索引分片分配记录模块根据分配方案中的节点号,查询到相应节点的索引分片分配记录表,进而根据分配方案当中的索引分片ID,查询到该索引分片的条目,将该条目的主副标识更新为主索引分片。

6.一种可应用于大数据云搜索平台的索引分片均衡方法,其特征在于,包括以下步骤:

基于Apache Lucene的搜索引擎架构,获得由各种类型的数据源文件转化的源文本数据,通过分析处理将源文本数据转换为标记;生成索引,将由所述标记保存在索引的数据结构之中;所生成的索引的文件形式为索引分片,临时缓存索引分片并将所述索引分片提供给节点集群进行存储;所述索引分片包括主索引分片和至少一个副本索引分片;每个索引分片具有自身的索引分片ID;

利用节点集群中的节点存储其被分配的索引分片,并承担索引分片被查询调用的负荷;

其中,按照如下步骤确定节点集群中各节点被分配的索引分片:

为索引分片生成内容标识符;

为节点集群中的每一个节点生成并存储一个索引分片分配记录表,索引分片分配记录表记录了在本节点上承担的每个索引分片的相关信息,所述相关信息中包括索引分片的索引分片ID、内容标识符、热度等级以及主副标识;

实时从集群的各节点获得节点处理能力参数,并通过节点能力状态列表对各节点实时的节点处理能力参数进行保存;

获取当前待分配的索引分片的索引分片ID;根据所获取的当前待分配的索引分片的索引分片ID,统计当前分布在各热度等级上的待分配索引分片的数量;确定集群中的可用节点及其节点号;通过查询所述节点能力状态列表当中各个可用节点的节点处理能力参数,决定各可用节点在各热度等级上分别承担的待分配索引分片的承担数量;按照该承担数量将各热度等级上的待分配索引分片分派给可用节点,形成分配方案;分配方案包括可用节点的节点号和每个可用节点被分配的索引分片的索引分片ID;

根据分配方案,更新每个节点的索引分片分配记录表;

根据所述分配方案,将分配方案中的索引分片ID对应的索引分片传输给相应节点号的可用节点进行存储和承担,或,将涉及分配方案中的索引分片的查询请求重定位到指向分配方案中与该索引方案对应的节点。

7.根据权利要求6所述的索引分片均衡方法,其特征在于,在按照所述承担数量将各热度等级上的待分配索引分片分派给可用节点时,还进一步获得待分配的索引分片的内容标识符;根据待分配的索引分片的内容标识符,确定待分配的索引分片之间的内容相关度,从而使被分配在同一可用节点的待分配的索引分片之间的内容相关度最小化而生成所述分配方案。

8.根据权利要求7所述的索引分片均衡方法,其特征在于,为索引分片所生成的内容标识符包括数据源文件标识符与关键词标识符;其中,由同一个数据源文件或同一系列的数据源文件所生成的各索引分片具有相同的数据源文件标识符;以及,分析每个索引分片存储的标记信息,从中提取关键词作为关键词标识符。

9.根据权利要求8所述的索引分片均衡方法,其特征在于,确定每两个待分配的索引分片之间的内容相关度,可按下述公式进行确定:

R=a1·S+a2·K

其中R是表示两个待分配的索引分片之间的内容相关度的量化参数;S是根据两个待分配索引分片的数据源文件标识符评估的相关度量化参数;K表示根据两个待分配索引分片的关键词标识符的重合度所评估的相关度量化参数,a1与a2是加权求和系数。

10.根据权利要求9所述的索引分片均衡方法,其特征在于,在初次分配的情况下,根据分配方案,更新每个节点的索引分片分配记录表,在该表中为本节点新承担下来的初次分配的每个索引分片建立条目,保存索引分片的索引分片ID、内容标识符、热度等级以及主副标识;在重新分配的情况下,根据分配方案中的节点号,查询到相应节点的索引分片分配记录表,进而根据分配方案当中的索引分片ID,查询到该索引分片的条目,将该条目的主副标识更新为主索引分片。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1