一种序列比对文件碱基无损压缩方法、装置及电子设备

文档序号:37932568发布日期:2024-05-11 00:11阅读:7来源:国知局
一种序列比对文件碱基无损压缩方法、装置及电子设备

本发明涉及文件压缩,尤其涉及一种序列比对文件碱基无损压缩方法、装置及电子设备。


背景技术:

1、序列比对是进行下游序列分析和处理的首要步骤,其对应的序列比对(sequencealignment/mapping,简称sam)格式包含了丰富完整的基因比对信息,并为不同测序平台产生的序列提供一个通用的比对格式,dna高通量测序的高速发展和应用使得下机测序产出的fastq文件数据量日益庞大,而序列比对格式是fastq格式的超集,它不仅包含与fastq文件相同的信息,还包含每条read的比对信息,此外,碱基数据是序列比对文件中应用于下游分析的主要数据部分,且在整体数据中的占比较大,因此,需要针对序列比对文件的碱基数据存储设计高效的压缩算法。

2、现有的序列比对文件碱基压缩技术多为基于外部参考基因组的压缩方法,例如基于cram压缩器和genozip压缩器的压缩方法,利用生成模型生成的大量协议包进行模糊测试。实际应用中,外部提供的参考基因组并不总是可用的,并且数据库需要高度规范和专业管理,并且在生成和解压缩压缩文件的过程中需要提供完全相同的参考基因组文件。如果参考基因组相关文件丢失,压缩后的数据将无法解压,而当前已有的基于内部比对信息组装参考基因组的压缩方法(如cram压缩器)必须将序列比对文件按比对位置进行排序,并将每个碱基按比对位置逐个填充到初始为空的对齐参考基因组中,效率较低且依赖于排序,从而导致进行碱基压缩时的效率较低。


技术实现思路

1、本发明提供一种序列比对文件碱基无损压缩方法、装置及电子设备,其主要目的在于解决进行碱基压缩时的效率较低的问题。

2、为实现上述目的,本发明提供的一种序列比对文件碱基无损压缩方法,包括:对预先获取的序列比对文件进行数据排序解析,得到排序种类以及排序种类对应的数据域信息组;根据数据域信息组对序列比对文件进行分类碱基过滤,得到对齐碱基组;根据对齐碱基组对序列比对文件进行文件压缩,得到初级序列比对压缩文件;根据排序种类和数据域信息组对对齐碱基组进行分序压缩,得到标准压缩碱基组;将标准压缩碱基组和初级序列比对压缩文件汇集成标准序列比对压缩文件。

3、为了解决上述问题,本发明还提供一种序列比对文件碱基无损压缩装置,装置包括:排序解析模块,用于对预先获取的序列比对文件进行数据排序解析,得到排序种类以及排序种类对应的数据域信息组;碱基分类模块,用于根据数据域信息组对序列比对文件进行分类碱基过滤,得到对齐碱基组;初级压缩模块,用于根据对齐碱基组对序列比对文件进行文件压缩,得到初级序列比对压缩文件;分序压缩模块,用于根据排序种类和数据域信息组对对齐碱基组进行分序压缩,得到标准压缩碱基组;文件生成模块,用于将标准压缩碱基组和初级序列比对压缩文件汇集成标准序列比对压缩文件。

4、为了解决上述问题,本发明还提供一种电子设备,电子设备包括:

5、至少一个处理器;以及,

6、与至少一个处理器通信连接的存储器;其中,

7、存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述的序列比对文件碱基无损压缩方法。

8、本发明实施例通过对预先获取的序列比对文件进行数据排序解析,得到排序种类以及排序种类对应的数据域信息组,可以确序列比对文件的排序方式,方便后续确定压缩方式,能够实现对每个碱基片段数据的解析从而方便后续对于碱基数据的压缩;通过根据数据域信息组对序列比对文件进行分类碱基过滤,得到对齐碱基组,可以筛选出已经比对过的碱基数据进行分类压缩,提高压缩的效率;通过根据对齐碱基组以及序列比对文件进行文件压缩,可以实现对未比对的碱基数据的压缩,提高了碱基压缩方法的适用范围;通过根据排序种类和数据域信息组对对齐碱基组进行分序压缩,得到标准压缩碱基组,可以利用贪心算法对排序后的对齐碱基数据进行按序覆盖压缩,也可以利用初始化的内部参考基因组对未排序的对齐碱基组进行覆盖压缩,从而增强了碱基压缩的适用性,并实现了碱基的二次压缩,提高了压缩效率;通过将标准压缩碱基组和初级序列比对压缩文件汇集成标准序列比对压缩文件,可以实现对序列比对文件中的各类碱基数据进行压缩,提高了压缩的灵活性和效率。因此本发明提出的序列比对文件碱基无损压缩方法、装置及电子设备,可以解决进行碱基压缩时的效率较低的问题。



技术特征:

1.一种序列比对文件碱基无损压缩方法,其特征在于,所述方法包括:

2.如权利要求1所述的序列比对文件碱基无损压缩方法,其特征在于,所述对预先获取的序列比对文件进行数据排序解析,得到排序种类以及所述排序种类对应的数据域信息组,包括:

3.如权利要求2所述的序列比对文件碱基无损压缩方法,其特征在于,所述逐行对所述序列比对文件进行域名数据解析,得到数据域信息组,包括:

4.如权利要求1所述的序列比对文件碱基无损压缩方法,其特征在于,所述根据所述数据域信息组对所述序列比对文件进行分类碱基过滤,得到对齐碱基组,包括:

5.如权利要求1所述的序列比对文件碱基无损压缩方法,其特征在于,所述根据所述对齐碱基组对所述序列比对文件进行文件压缩,得到初级序列比对压缩文件,包括:

6.如权利要求1所述的序列比对文件碱基无损压缩方法,其特征在于,所述根据所述排序种类和所述数据域信息组对所述对齐碱基组进行分序压缩,得到标准压缩碱基组,包括:

7.如权利要求6所述的序列比对文件碱基无损压缩方法,其特征在于,所述根据所述数据域信息组对所述对齐碱基组进行贪心压缩,得到标准压缩碱基组,包括:

8.如权利要求6所述的序列比对文件碱基无损压缩方法,其特征在于,所述根据所述数据域信息组对所述对齐碱基组进行覆盖压缩,得到标准压缩碱基组,包括:

9.一种序列比对文件碱基无损压缩装置,其特征在于,所述装置包括:

10.一种电子设备,其特征在于,所述电子设备包括:


技术总结
本发明涉及文件压缩技术领域,揭露了一种序列比对文件碱基无损压缩方法、装置以及电子设备,该方法包括:对预先获取的序列比对文件进行数据排序解析,得到排序种类以及排序种类对应的数据域信息组;根据数据域信息组对序列比对文件进行分类碱基过滤,得到对齐碱基组;根据对齐碱基组对序列比对文件进行文件压缩,得到初级序列比对压缩文件;根据排序种类和数据域信息组对对齐碱基组进行分序压缩,得到标准压缩碱基组;将标准压缩碱基组和初级序列比对压缩文件汇集成标准序列比对压缩文件。通过本发明实施例的真实报文提取、报文数据转码以及测试模型的编写,可以提高进行碱基数据压缩时的效率。

技术研发人员:朱泽轩,李益民,孙怡雯
受保护的技术使用者:深圳大学
技术研发日:
技术公布日:2024/5/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1