基因组数据的存储传输备份管理方法及装置与流程

文档序号:26139541发布日期:2021-08-03 14:23阅读:来源:国知局

技术特征:

1.一种基因组数据的存储传输备份管理装置,其特征在于,包括:

数据接收模块,用于接收用户上传的基因组数据文件;

校验核查模块,根据所述基因组数据文件的格式采用匹配的核查规则进行格式校验,并对所述基因组数据文件进行完整性检验;

传输存储模块,用于构建互联互通的本地集群和远程集群,在所述本地集群和/或所述远程集群中存储所述基因组数据文件,实现对所述基因组数据文件归档管理。

2.根据权利要求1所述的装置,其特征在于,所述数据接收模块包括:

线下接收单元,用于将包括所述基因组数据文件的存储介质与所述本地集群或所述远程集群中的节点连接,上传所述基因组数据文件;

线上接收单元,用于通过客户端将所述基因组数据文件上传至所述本地集群中节点的指定目录下或上传至所述远程集群的节点中,所述指定目录下的所述基因组数据文件仅对指定的用户公开;

所述基因组数据文件中包括用于表示基因组数据文件完整性的md5信息属性文件。

3.根据权利要求1或2所述的装置,其特征在于,所述本地集群和所述远程集群通过专网结合vpn相互连接。

4.根据权利要求2所述的装置,其特征在于,所述校验核查模块包括:

路由设置单元,用于设置多种数据路由方案,并根据用户上传基因组数据文件的方式选择其中一种数据路由方案执行所述基因组数据文件的上传流转;

规范化核查单元,用于调用与基因组数据文件格式匹配的核查规则对所述基因组数据文件进行格式校验,获取格式校验通过的基因组数据文件;

完整性核查单元,用于通过每个基因组数据文件对应的md5信息属性文件进行完整性校验,获取完整性检验通过的基因组数据文件。

5.根据权利要求4所述的装置,其特征在于,所述传输存储模块包括:

上传单元,用于根据所选的数据路由方案实现所述基因组数据文件在本地集群中的本地备份和/或在远程集群中的远程备份,所述本地备份和所述远程备份采用多任务并行处理方案;

增量备份单元,用于将源端准备上传的所述基因组数据文件定义为源文件,以及将目标端备份的所述基因组数据文件定义为目标文件,识别出源文件与目标文件的增量字节部分,然后仅将增量字节部分上传至目标端;

增量还原单元,用于根据目标端中接收的增量字节部分及对照的目标文件还原出源文件;

归档管理单元,用于将目标端还原的源文件备定义为目标文件后分类存储。

6.根据权利要求5所述的装置,其特征在于,识别出源文件与目标文件的增量字节部分,然后仅将增量字节部分上传至目标端的方法包括:

s1:将目标文件按照固定尺度切分成多个目标字节块并编号,采用弱校验和算法对各编号的目标字节块进行弱哈希计算,以及采用强校验和算法对各编号的目标字节块进行强哈希计算,同时将所述弱校验和算法、强校验和算法、目标字节块编号及对应的哈希值打包发送至源端;

s2:以所述固定尺度为窗口从源文件中的第1个字节开始截取源字节块并采用弱校验和算法进行弱哈希计算,在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果相同时,再采用强校验和算法进行强哈希计算,直至当前源字节块的强哈希计算结果与所述目标字节块的强哈希计算结果也相同时,对当前源字节块进行顺序编号并认为当前源字节块与目标字节块相同,同时记录所述当前源字节块与所述目标字节块的编号匹配关系,顺移至下一个固定尺度重新截取源字节块并重复上述哈希计算;

s3:在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果不同时,则以固定尺度为窗口顺移1个字节截取源字节块并采用弱校验和算法进行弱哈希计算,在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果相同时,再采用强校验和算法进行强哈希计算,直至当前源字节块的强哈希计算结果与所述目标字节块的强哈希计算结果也相同时,对当前源字节块进行顺序编号并认为当前源字节块与目标字节块相同,同时记录所述当前源字节块与所述目标字节块的编号匹配关系;

s4:提取源文件中未被匹配的字节作为增量字节部分,连同各未被匹配字节与各编号源字节块的关系一同上传至目标端。

7.一种基因组数据的存储传输备份管理方法,其特征在于,包括:

接收用户上传的基因组数据文件;

根据所述基因组数据文件的格式采用匹配的核查规则进行格式校验,并对所述基因组数据文件进行完整性检验;

构建互联互通的本地集群和远程集群,在所述本地集群和/或所述远程集群中存储所述基因组数据文件,实现对所述基因组数据文件归档管理。

8.根据权利要求7所述的方法,其特征在于,构建互联互通的本地集群和远程集群,在所述本地集群和/或所述远程集群中存储所述基因组数据文件,实现对所述基因组数据文件归档管理的方法包括:

根据所选的数据路由方案实现所述基因组数据文件在本地集群中的本地备份和/或在远程集群中的远程备份,所述本地备份和所述远程备份采用多任务并行处理方案;

将源端准备上传的所述基因组数据文件定义为源文件,以及将目标端备份的所述基因组数据文件定义为目标文件,识别出源文件与目标文件的增量字节部分,然后仅将增量字节部分上传至目标端;

根据目标端中接收的增量字节部分及对照的目标文件还原出源文件;

将目标端还原的源文件备定义为目标文件后分类存储。

9.根据权利要求8所述的方法,其特征在于,识别出源文件与目标文件的增量字节部分,然后仅将增量字节部分上传至目标端的方法包括:

s1:将目标文件按照固定尺度切分成多个目标字节块并编号,采用弱校验和算法对各编号的目标字节块进行弱哈希计算,以及采用强校验和算法对各编号的目标字节块进行强哈希计算,同时将所述弱校验和算法、强校验和算法、目标字节块编号及对应的哈希值打包发送至源端;

s2:以所述固定尺度为窗口从源文件中的第1个字节开始截取源字节块并采用弱校验和算法进行弱哈希计算,在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果相同时,再采用强校验和算法进行强哈希计算,直至当前源字节块的强哈希计算结果与所述目标字节块的强哈希计算结果也相同时,对当前源字节块进行顺序编号并认为当前源字节块与目标字节块相同,同时记录所述当前源字节块与所述目标字节块的编号匹配关系,顺移至下一个固定尺度重新截取源字节块并重复上述哈希计算;

s3:在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果不同时,则以固定尺度为窗口顺移1个字节截取源字节块并采用弱校验和算法进行弱哈希计算,在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果相同时,再采用强校验和算法进行强哈希计算,直至当前源字节块的强哈希计算结果与所述目标字节块的强哈希计算结果也相同时,对当前源字节块进行顺序编号并认为当前源字节块与目标字节块相同,同时记录所述当前源字节块与所述目标字节块的编号匹配关系;

s4:提取源文件中未被匹配的字节作为增量字节部分,连同各未被匹配字节与各编号源字节块的关系一同上传至目标端。

10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求7至9任一项所述方法的步骤。


技术总结
本发明公开一种基因组数据的存储传输备份管理装置及方法,涉及基因数据管理技术领域,能够稳定安全、高效无损的对基因组数据的流转过程进行管理。该装置包括:数据接收模块,用于接收用户上传的基因组数据文件;校验核查模块,根据基因组数据文件的格式采用匹配的核查规则进行格式校验,并对基因组数据文件进行完整性检验;传输存储模块,用于构建互联互通的本地集群和远程集群,在本地集群和/或远程集群中存储基因组数据文件,实现对基因组数据文件归档管理。该方法应用于上述方案所提的装置。

技术研发人员:马旭;陈翠霞;曹宗富;蔡瑞琨;李乾;殷哲
受保护的技术使用者:国家卫生健康委科学技术研究所
技术研发日:2021.04.06
技术公布日:2021.08.03
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1