基因测序数据压缩方法、解压方法及相关装置与流程

文档序号:37689148发布日期:2024-04-18 21:05阅读:16来源:国知局
基因测序数据压缩方法、解压方法及相关装置与流程

本发明实施例涉及数据处理,尤其是涉及一种基因测序数据压缩方法、解压方法及相关装置。


背景技术:

1、随着基因测序技术的发展和测序成本的降低,尤其是新一代测序(ngs)的应用和普及,测序数据产出数量呈指数增长,而如何高效的存储和传输测序数据成为行业发展面临的一个重大挑战。

2、成熟的dna测序技术始于20世纪70年代化学降解法和双脱氧链终止法,后续又逐渐出现了荧光和杂交等测序方法,统称为第一代dna测序技术,产出数据量通常在bp或者kb数量级上。2005年左右,454测序,solexa测序和solid测序等技术的先后出现,新一代测序技术(ngs)迅速发展并成为主流技术。它最显著特征是高通量,可以同时对几十万到几百万条dna分子进行序列测序,产出数据提升到gb或者tb数量级上,而大型国际项目数据产出可以高达pb级。目前使用通用的文本压缩方法对测序数据进行压缩,这种压缩方式已经无法满足目前对于压缩比率的要求,并且经过上述步骤,压缩后的基因测序数据需要很大的存储空间。

3、为此,亟需提供一种基因测序数据压缩方法提升基因测序数据的压缩比率,从而节约压缩数据的存储成本。


技术实现思路

1、有鉴于此,本发明实施例提供了一种基因测序数据压缩方法、解压方法及相关装置,以节约压缩数据的存储成本。

2、第一方面,本发明实施例中提供一种基因测序数据压缩方法,包括:

3、从原始基因测序文件中,解析出多组基因测序数据,所述多组基因测序数据包括文字数据,序列数据和质量数据中的一种或者多种,其中,不同基因测序数据在所述原始基因测序文件中的位置不同;

4、基于所述基因测序数据的类型压缩所述多组基因测序数据,得到压缩数据;其中,不同类型的基因测序数据对应的压缩算法不同。

5、可选的,所述基于所述基因测序数据的类型压缩所述多组基因测序数据,得到压缩数据,包括:

6、若所述基因测序数据的类型为文字数据,利用变长编码算法vlc压缩,得到文字压缩数据;

7、若所述基因测序数据的类型为序列数据,利用lzma算法压缩,得到序列压缩数据;

8、若所述基因测序数据的类型为质量数据,利用lzma算法压缩,得到质量压缩数据。

9、可选的,所述基于所述基因测序数据的类型压缩所述多组基因测序数据,得到压缩数据,还包括:

10、若所述多组基因测序数据中同时包括序列数据和质量数据,将序列数据与质量数据混合,利用lzma算法压缩,得到混合基因测序压缩数据;

11、拆分所述混合基因测序压缩数据,得到对应所述序列数据的序列压缩数据和对应所述质量数据的质量压缩数据。

12、可选的,所述将序列数据与质量数据混合,利用lzma算法压缩,得到混合基因测序压缩数据,包括:

13、混合所述序列数据和所述质量数据,得到混合基因测序数据流;

14、根据基因测序数据的类型对所述混合基因测序数据流平均拆分,其中,不同基因测序数据的类型对应不同的线程号,所述线程号用于表示压缩程序中的不同线程;

15、将拆分后的混合基因测序数据流依次分配到多个线程的线程队列;

16、在多个线程中,利用lzma算法对分配到线程队列的混合基因测序数据流并行压缩,得到混合基因测序压缩数据;

17、所述拆分所述混合基因测序压缩数据,具体为:根据压缩程序的线程号,将混合基因测序压缩数据拆分为序列压缩数据和质量压缩数据。

18、可选的,所述文字数据包括非常量数据,所述利用变长编码算法vlc压缩,得到文字压缩数据,包括:

19、将所述文字数据的非常量数据转化成为非负整数;

20、对转化后的非常量数据利用变长编码算法vlc压缩,得到非常量压缩数据;

21、确定所述非常量压缩数据为文字压缩数据。

22、可选的,所述文字数据包括非常量数据和常量数据,所述利用变长编码算法vlc压缩,得到文字压缩数据,包括:

23、将所述文字数据的非常量数据转化成为非负整数;

24、对转化后的非常量数据利用变长编码算法vlc压缩,得到非常量压缩数据;

25、对所述文字数据中的常量数据执行掩码变换,得到加密常量数据;

26、将所述加密常量数据以及所述非常量压缩数据确定为文字压缩数据。

27、可选的,所述从原始基因测序文件中,解析出多组基因测序数据,包括:

28、从所述原始基因测序文件,解析得到文字数据,所述文字数据中包括常量数据和/或非常量数据,所述常量数据为基因测序数据中的固定标识数据,所述非常量数据为基因测序数据中的实验数据,所述实验数据包括数字数据或者字母数据中的至少一种;

29、和/或,

30、从所述原始基因测序文件,解析得到序列数据,所述序列数据中至少包括序列长度数据;

31、和/或,

32、从所述原始基因测序文件,解析得到质量数据。

33、可选的,基于所述基因测序数据的类型压缩所述多组基因测序数据,得到压缩数据之后,包括:

34、将所述压缩数据写入文件头所指示的基因测序压缩文件,其中,所述文件头用于指示基因测序压缩文件中的数据属性,所述数据属性包括所述基因测序数据的数据大小、数据长度中的至少一项。

35、可选的,所述文件头至少基于所述文字数据生成,其中,所述文件头包括:文字数据栏目数、常量标记、唯一分子标识符的单位长度、唯一分子标识符的长度以及测序标签的长度。

36、可选的,所述文件头至少基于所述文字数据和序列数据压缩生成,其中,所述文件头中至少包括:文字数据长度、文字压缩数据大小以及序列数据长度。

37、可选的,所述原始基因测序文件为fastq格式。

38、第二方面,本发明中提供了一种基因测序数据解压方法,包括:

39、获取基因测序压缩文件,所述基因测序压缩文件中至少包括文字压缩数据、序列压缩数据和质量压缩数据中的一种或者多种;

40、对所述基因测序压缩文件解压,确定多组基因测序数据,其中,所述基因测序压缩文件中包含不同的压缩数据,不同的压缩数据对应不同的解压算法,所述多组基因测序数据至少包括文字数据,序列数据和质量数据中的一种或者多种。

41、可选的,所述对所述基因测序压缩文件解压,确定多组基因测序数据,包括:

42、若所述基因测序压缩文件中的压缩数据为文字压缩数据,利用变长编码算法vlc解压,得到文字数据;

43、若所述基因测序压缩文件中的压缩数据为序列压缩数据,利用lzma算法解压,得到序列数据;

44、若所述基因测序压缩文件中的压缩数据为质量压缩数据,利用lzma算法解压,得到质量数据。

45、第三方面,本发明中提供了一种基因测序数据压缩装置,包括:

46、解析模块,用于从原始基因测序文件中,解析出多组基因测序数据,所述多组基因测序数据包括文字数据,序列数据和质量数据中的一种或者多种,其中,不同基因测序数据在所述原始基因测序文件中的位置不同;

47、压缩模块,用于基于所述基因测序数据的类型压缩所述多组基因测序数据,得到压缩数据;其中,不同类型的基因测序数据对应的压缩算法不同。

48、第四方面,本发明中提供了一种基因测序数据解压装置,包括:

49、获取基因测序压缩模块,用于获取基因测序压缩文件,所述基因测序压缩文件中至少包括文字压缩数据、序列压缩数据和质量压缩数据中的一种或者多种;

50、解压模块,用于对所述基因测序压缩文件解压,确定多组基因测序数据,其中,不同的基因测序数据对应不同的解压算法,所述多组基因测序数据至少包括文字数据,序列数据和质量数据中的一种或者多种。

51、本发明实施例提供一种基因测序数据压缩方法,包括:从原始基因测序文件中,解析出多组基因测序数据,所述多组基因测序数据至少包括文字数据,序列数据和质量数据中的一种或者多种,其中,不同基因测序数据在所述原始基因测序文件中的位置不同;基于所述基因测序数据的类型压缩所述多组基因测序数据,得到压缩数据,其中,不同类型的基因测序数据对应的压缩算法不同。本发明实施例中从原始基因测序文件中解析出不同类型的多组基因测序数据,为此,可以基于基因测序数据中的不同类型的基因测序数据利用不同的压缩算法进行处理,为此,本发明实施例中是基于基因测序数据对应的类型有针对性的压缩,从而提升基因测序数据的压缩比率,且压缩后的基因测序数据在存储时能够节约压缩数据的存储成本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1