一种生成索引文档id的方法及装置的制造方法_3

文档序号：9288458阅读：来源：国知局

来的文件；
[0084]该存储模块52，用于存储所述文件的信息，所述文件的信息分布在至少一个服务器中，每个服务器有至少一个分表；
[0085]该获取模块53，用于获取存储的所有分表的数量、各个所述分表的序号和循环处理的次数；
[0086]该第一计算模块54，用于根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数，计算所述文件的索引文档ID。
[0087]在一个实施例中，图6是根据一示例性实施例示出的一种生成索引文档ID的装置框图。如图6所示，该第一计算模块54包括计算子模块61和自增子模块62。
[0088]该计算子模块61，用于根据以下公式计算索引文档ID:
[0089]ID = idxldXidstep+idflag，
[0090]其中，符号ID为所述索引文档ID，符号idxld为循环处理的次数，符号idstep为所有分表的数量，符号idflag为各个分表的序号；
[0091]该自增子模块62，用于所述符号idxld在每生产一个索引文档ID后增加一。
[0092]在一个实施例中，图7是根据一示例性实施例示出的一种生成索引文档ID的装置框图。如图7所示，该装置还包括第二计算模块71和匹配模块72。
[0093]该第二计算模块71，用于根据哈希算法依此计算所述文件的哈希值；
[0094]该匹配模块72，用于根据所述哈希值将所述文件匹配到相对应的所述分表。
[0095]在一个实施例中，图8是根据一示例性实施例示出的一种生成索引文档ID的装置框图。如图8所示，该匹配模块72包括划分子模块81和匹配子模块82。
[0096]该划分子模块81，用于将所述哈希值的整个取值范围均等的划分为多个数值区间，所述多个数值区间的数量和所有所述分表的数量相同，且所述数值区间与所述分表——对应；
[0097]该匹配子模块82，用于将所述文件的哈希值在某一个数值区间段内的所有所述文件，匹配到同一个所述分表。
[0098]本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0099]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0100]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0101]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0102]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种生成索引文档ID的方法，其特征在于，包括: 接收由客户端发送来的文件；存储所述文件的信息，所述文件的信息分布在至少一个服务器中，每个服务器有至少一个分表; 获取存储的所有分表的数量、各个所述分表的序号和循环处理的次数；根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数，计算所述文件的索引文档ID。2.根据权利要求1的方法，其特征在于，所述根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数，计算所述文件的索引文档ID，包括: 根据以下公式计算索引文档ID:ID = idxldXidstep+idflag，其中，符号ID为所述索引文档ID，符号idxld为循环处理的次数，符号idstep为所有分表的数量，符号idflag为各个分表的序号；所述符号idxld在每生产一个索引文档ID后增加一；所述文件的索引文档ID的初始值为O，表示所述文件未被处理。3.根据权利要求1所述的方法，其特征在于，在生成所述索引文档ID之前，还包括: 根据哈希算法依此计算所述文件的哈希值；根据所述哈希值将所述文件匹配到相对应的所述分表。4.根据权利要求3所述的方法，其特征在于，所述根据所述哈希值将所述文件匹配到相对应的所述分表，包括: 将所述哈希值的整个取值范围均等的划分为多个数值区间，所述多个数值区间的数量和所有所述分表的数量相同，且所述数值区间与所述分表对应；将所述文件的哈希值在某一个数值区间段内的所有所述文件，匹配到同一个所述分表。5.根据权利要求1的方法，其特征在于，还包括: 每个所述分表都拥有各自独立的所述循环处理的次数。6.一种生成索引文档ID的装置，其特征在于，包括: 接收模块，用于接收由客户端发送来的文件；存储模块，用于存储所述文件的信息，所述文件的信息分布在至少一个服务器中，每个服务器有至少一个分表；获取模块，用于获取存储的所有分表的数量、各个所述分表的序号和循环处理的次数；第一计算模块，用于根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数，计算所述文件的索引文档ID。7.根据权利要求6所述的装置，其特征在于，所述第一计算模块，包括: 计算子模块，用于根据以下公式计算索引文档ID:ID = idxldXidstep+idflag，其中，符号ID为所述索引文档ID，符号idxld为循环处理的次数，符号idstep为所有分表的数量，符号idflag为各个分表的序号；自增子模块，用于所述符号idxld在每生产一个索引文档ID后增加一；所述文件的索引文档ID的初始值为O，表示所述文件未被处理。8.根据权利要求6所述的装置，其特征在于，还包括: 第二计算模块，用于在所述第一计算模块计算所述文件的索引文档ID之前，根据哈希算法依此计算所述文件的哈希值；匹配模块，用于根据所述哈希值将所述文件匹配到相对应的所述分表。9.根据权利要求8所述的装置，其特征在于，所述匹配模块，包括: 划分子模块，用于将所述哈希值的整个取值范围均等的划分为多个数值区间，所述多个数值区间的数量和所有所述分表的数量相同，且所述数值区间与所述分表一一对应；匹配子模块，用于将所述文件的哈希值在某一个数值区间段内的所有所述文件，匹配到同一个所述分表。
【专利摘要】本发明公开了一种生成索引文档ID的方法及装置。所述生成索引文档ID的方法，包括：接收由客户端发送来的文件；存储所述文件的信息，所述文件的信息分布在至少一个服务器中，每个服务器有至少一个分表；获取存储的所有分表的数量、各个所述分表的序号和循环处理的次数；根据所述所有分表的数量、所述各个分表的序号和所述循环处理的次数，计算所述文件的索引文档ID。本发明可将所有文件均匀的匹配到各个分表，生成的索引文档ID唯一且索引文档ID的数值是连续的，且可根据索引文档ID推断出该索引文档对应的具体分表及该索引文档是在该分表中的第多少条记录信息。
【IPC分类】G06F17/30
【公开号】CN105005624
【申请号】CN201510464988
【发明人】杨乾磊
【申请人】天脉聚源(北京)传媒科技有限公司
【公开日】2015年10月28日
【申请日】2015年7月31日

完整全部详细技术资料下载

当前第3页1 2 3