一种分布式数据去重处理方法及装置的制造方法_5

文档序号：9787443阅读：来源：国知局

获取去重列对应的去重值，最后最终去重值获取单元705将获取到的所有去重值进行累加获取到最终去重值，便实现了对分布式数据高效且精确的去重处理，解决了目前的精确去重但是非即席查询，所导致的在数据量较大时往往需要较长的计算时间才能得出结果的技术问题，以及非精确去重的即席查询，导致的计算出来的结果不是精确值的技术问题，同时本实施例用于实时计算数据去重，为实时统计海量数据中活跃，新增等去重指标提供高性能的解决方案，可带来为实时去重提供秒级计算的服务支持和服务可按需自动无限扩展的有益效果，并且分段处理子单元7041 的优先队列的设计大大地提高了去重处理的效率。
[0221] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0222] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0223]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0224] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0225] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM,Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0226] 以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制;尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换;而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1. 一种分布式数据去重处理方法，其特征在于，包括：将具有相同去重字段值的数据对应存储在预置分片中；将存储在所述预置分片中的所有所述数据进行列存储到Lucene中；根据所述Lucene提取每个所述预置分片中的去重列，并进行每一列的倒排索引；根据每个所述预置分片的所述倒排索引获取所述去重列对应的去重值；将获取到的所有所述去重值进行累加获取到最终去重值。2. 根据权利要求1所述的分布式数据去重处理方法，其特征在于，将具有相同去重字段值的数据对应存储在预置分片中具体包括：在分布式数据存储过程中，确定分布式数据中的待去重字段；根据所述待去重字段对应的所述去重字段值进行分片路由，将具有相同去重字段值的所述数据对应存储在预置分片中。3. 根据权利要求2所述的分布式数据去重处理方法，其特征在于，根据所述Lucene提取每个所述预置分片中的去重列，并进行每一列的倒排索引具体包括：根据所述Lucene提取每个所述预置分片中的去重列；根据所述去重列对每一列所述数据建立对应的倒排索引。4. 根据权利要求3所述的分布式数据去重处理方法，其特征在于，根据每个所述预置分片的所述倒排索引获取所述去重列对应的去重值具体包括：对每个所述预置分片结合预置分段位图进行去重判断，获取到每一所述去重列中每一个所述数据对应的去重值。5. 根据权利要求4所述的分布式数据去重处理方法，其特征在于，对每个所述预置分片结合预置分段位图进行去重判断，获取到每一所述去重列中每一个所述数据对应的去重值具体包括：对每个所述预置分片中的所述去重列位图进行复数个段的分段处理形成与每个所述去重列对应的所述预置分段位图；对每个所述预置分段位图进行去重判断，获取到每一所述去重列中每一个所述数据对应的去重值。6. 根据权利要求5所述的分布式数据去重处理方法，其特征在于，对每个所述预置分片中的所述去重列位图进行复数个段的分段处理形成与每个所述去重列对应的所述预置分段位图具体包括：对所述预置分段位图中的一个段进行优先队列的创建；将所述数据依次插入进所述优先队列，直到所述优先队列插满；将插满所述数据的所述优先队列中的数据转移至所述预置分段位图中形成与所述优先队列的长度一致的新的所述预置分段位图。7. 根据权利要求6所述的分布式数据去重处理方法，其特征在于，所述优先队列的容量为(所述优先队列的长度*k)/32,所述k为大于0,且小于1。8. -种分布式数据去重处理装置，其特征在于，包括：第一存储单元，用于将具有相同去重字段值的数据对应存储在预置分片中；第二存储单元，用于将存储在所述预置分片中的所有所述数据进行列存储到Lucene 中；索引单元，用于根据所述Lucene提取每个所述预置分片中的去重列，并进行每一列的倒排索引；第一去重值获取单元，用于根据每个所述预置分片的所述倒排索引获取所述去重列对应的去重值；最终去重值获取单元，用于将获取到的所有所述去重值进行累加获取到最终去重值。9. 根据权利要求8所述的分布式数据去重处理装置，其特征在于，第一存储单元具体包括：确定子单元，用于在分布式数据存储过程中，确定分布式数据中的待去重字段；第一存储子单元，用于根据所述待去重字段对应的所述去重字段值进行分片路由，将具有相同去重字段值的所述数据对应存储在预置分片中。10. 根据权利要求9所述的分布式数据去重处理装置，其特征在于，索引单元具体包括：提取子单元，用于根据所述Lucene提取每个所述预置分片中的去重列；索引子单元，用于根据所述去重列对每一列所述数据建立对应的倒排索引。11. 根据权利要求10所述的分布式数据去重处理装置，其特征在于，第一去重值获取单元，具体用于对每个所述预置分片结合预置分段位图进行去重判断，获取到每一所述去重列中每一个所述数据对应的去重值；所述第一去重值获取单元具体包括：分段处理子单元，用于对每个所述预置分片中的所述去重列位图进行复数个段的分段处理形成与每个所述去重列对应的所述预置分段位图；第一去重值获取子单元，用于对每个所述预置分段位图进行去重判断，获取到每一所述去重列中每一个所述数据对应的去重值。12. 根据权利要求11所述的分布式数据去重处理装置，其特征在于，分段处理子单元具体包括：创建模块，用于对所述预置分段位图中的一个段进行优先队列的创建；数据插入模块，用于将所述数据依次插入进所述优先队列，直到所述优先队列插满；数据转移模块，用于将插满所述数据的所述优先队列中的数据转移至所述预置分段位图中形成与所述优先队列的长度一致的新的所述预置分段位图；其中，所述优先队列的容量为(所述优先队列的长度*k)/32,所述k为大于0,且小于1。
【专利摘要】本发明实施例公开了一种分布式数据去重处理方法及装置，解决了目前的精确去重但是非即席查询，所导致的在数据量较大时往往需要较长的计算时间才能得出结果的技术问题，以及非精确去重的即席查询，导致的计算出来的结果不是精确值的技术问题。本发明实施例分布式数据去重处理方法包括：将具有相同去重字段值的数据对应存储在预置分片中；将存储在预置分片中的所有数据进行列存储到Lucene中；根据Lucene提取每个预置分片中的去重列，并进行每一列的倒排索引；根据每个预置分片的倒排索引获取去重列对应的去重值；将获取到的所有去重值进行累加获取到最终去重值。
【IPC分类】G06F17/30
【公开号】CN105550236
【申请号】CN201510893456
【发明人】柯钦武
【申请人】广州华多网络科技有限公司
【公开日】2016年5月4日
【申请日】2015年11月27日

完整全部详细技术资料下载

当前第5页1 2 3 4 5