一种高通量dna测序质量分数无损压缩系统及压缩方法

文档序号:6548462阅读:197来源:国知局
一种高通量dna测序质量分数无损压缩系统及压缩方法
【专利摘要】本发明公开一种高通量DNA测序质量分数无损压缩系统及压缩方法,所述方法包括:A、预先基于文化基因算法构造质量分数压缩码本;B、接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量;C、利用所搜索到的编码矢量对原始质量分数序列进行压缩。本发明通过对质量分数数据进行整体设计得到压缩码本,并借助文化基因算法优化,从而实现最佳压缩编码性能。其整体压缩率显著优于现有方法。另外,本发明的每个寻优个体表示单一编码矢量以及采用多模优化方式有效提升了码本设计效率。同时码本设计与压缩/解压缩过程相分离大大减少了运算时间。
【专利说明】一种高通量DNA测序质量分数无损压缩系统及压缩方法
【技术领域】
[0001]本发明涉及数据压缩领域,尤其涉及一种高通量DNA测序质量分数无损压缩系统及压缩方法。
【背景技术】
[0002]DNA序列数据由针对DNA物质的测序技术采集获得,是遗传学、基因组学、生物信息学、医学等诸多领域的基础研究对象,具有重要科学价值与实际意义。随着新一代高通量测序技术(Next-generation Sequencing, NGS)日益成熟并大量使用,获取DNA数据所需时间有效降低,成本显著下降。但另一方面,其所产生的DNA数据量也在急剧增长,从而对现有存储与传输技术造成了巨大压力。亟须设计具针对性的压缩方法。
[0003]NGS高通量测序所获取的DNA数据常以FASTQ各式存储。与传统测序数据不同,FASTQ由一连串的短读记录(Reads)构成,每个短读包含三部分内容:(I).元数据(Metadata),用于描述短读名、测序平台等信息;(2).DNA碱基序列(NucleotideSequence),用于记录在当前短读中所获得的DNA片段;(3).质量分数(Quality Scores),用于表示所对应DNA碱基序列中各符号测定的可信程度。在同一条短读记录内,其DNA碱基序列长度与质量分数序列长度是一致的。
[0004]现有的高通量测序数据压缩算法,一般只着眼于其短读中DNA碱基序列的压缩,而忽略了其它两个部分。对于元数据,因其整体相似度较高,仅使用差异编码即可获得较好的压缩结果。但对于质量分数部分,则需设计更具针对性的编码方法。其原因在于:(1).质量分数与测序仪器、对应碱基序列等因素相关,其数据间差异度较高;(2).与DNA碱基序列仅含A、T、G、C四种符号不同,质量分数往往包含数十种不同的字符,压缩难度更高;(3).质量分数与DNA碱基序列长度相同,所占用的数据大小一致。
[0005]现有算法一般使用常见的熵编码方法,如哈夫曼编码(Huffman Encoding)、游程编码(Run-length Encoding, RLE)等对高通量DNA测序质量分数进行无损压缩。而另外一些算法如Quip等,则使用高阶马尔科夫模型(High-order Markov Chain)对其进行预测编码。对于传统的熵编码压缩算法,由于其主要设计用于处理普通字符序列,并未考虑质量分数的独有数据特点,导致压缩性能不佳。在极端情况下,甚至出现编码后数据量反而有所增长的情况。而基于高阶马尔科夫模型的预测编码算法,一方面,其建模需统计全序列上各符号的出现频率,耗时较长。另一方面,预测模型所占存储体积较大,不适用于压缩较小的高通量测序数据。此外,模型的预测准确率与输入数据有着较大关联,对某些序列压缩率较低,算法鲁棒性能不佳。
[0006]因此,现有技术还有待于改进和发展。

【发明内容】

[0007]鉴于上述现有技术的不足,本发明的目的在于提供一种高通量DNA测序质量分数无损压缩系统及压缩方法,旨在解决目前高通量DNA测序数据压缩算法对质量分数数据针对性不强,压缩效果不理想的问题。
[0008]本发明的技术方案如下:
[0009]一种高通量DNA测序质量分数无损压缩方法,其中,所述方法包括以下步骤:
[0010]A、预先基于文化基因算法构造质量分数压缩码本;
[0011]B、接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量;
[0012]C、利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩。
[0013]所述的高通量DNA测序质量分数无损压缩方法,其中,所述原始高通量DNA测序质量分数数据为ASCII码编码的FASTQ格式。
[0014]所述的高通量DNA测序质量分数无损压缩方法,其中,所述步骤A具体为:
[0015]Al、设定质量分数压缩码本的大小M以及编码矢量长度N,统计待输入的原始高通量DNA测序质量分数数据中的符号种类形成符号集合,并据此设置搜索范围;
[0016]A2、在搜索范围内随机构造M个候选解长度为N的寻优个体,形成进化种群,设定文化基因算法迭代次数为K,初始化迭代计数器k = I ;
[0017]A3、在每次迭代时,计算进化种群中每个寻优个体的适应度函数值;
[0018]A4、在计算所有寻优个体的适应度函数值后,使用适应度共享技术计算各寻优个体的共享适应度函数值;
[0019]A5、基于各寻优个体的共享适应度函数值,使用文化基因算法优化进化种群。
[0020]A6、更新迭代计数器k = k+Ι。若k〈K,则返回步骤A3,否则执行步骤A7 ;
[0021]A7、将最终获得的进化种群中各寻优个体映射为各编码矢量,从而构成质量分数压缩码本。
[0022]所述的高通量DNA测序质量分数无损压缩方法,其中,所述步骤A3具体为:
[0023]A31、按照预定映射关系将寻优个体转换为编码矢量
[0024]A32、将编码矢量与原始高通量DNA测序质量分数数据中每个原始质量分数序列进行匹配,计算匹配编码后的数据体积;
[0025]A33、将该数据体积作为当前寻优个体的适应度函数值。
[0026]所述的高通量DNA测序质量分数无损压缩方法,其中,所述最相似的编码矢量指编辑距离最小的编码矢量。
[0027]所述的高通量DNA测序质量分数无损压缩方法,其中,所述步骤C具体为:
[0028]通过动态规划对原始质量分数序列和其最相似的编码矢量进行差异匹配,实现压缩编码形成压缩数据。
[0029]所述的高通量DNA测序质量分数无损压缩方法,其中,所述方法还包括:
[0030]D、利用所有原始质量分数序列的压缩数据构成数据集合,并将其与质量分数压缩码本作为系统输出结果。
[0031]所述的高通量DNA测序质量分数无损压缩方法,其中,解压缩时,将所述数据集合中的每个压缩数据根据所述质量分数压缩码本中的编码矢量恢复成原始质量分数序列,从而得到原始高通量DNA测序质量分数数据。
[0032]一种高通量DNA测序质量分数无损压缩系统,其中,所述系统包括:
[0033]压缩码本设计模块,用于基于文化基因算法构造质量分数压缩码本;[0034]质量分数压缩模块,用于接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量;并利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩;
[0035]所述的高通量DNA测序质量分数无损压缩系统,其中,所述系统还包括:
[0036]质量分数解压模块,用于将所述数据集合中的每个压缩数据根据所述质量分数压缩码本中的编码矢量恢复成原始质量分数序列,从而得到原始高通量DNA测序质量分数数据。
[0037]有益效果:本发明提供一种高通量DNA测序质量分数无损压缩系统及压缩方法,本发明的压缩码本针对输入的NGS质量分数数据进行整体设计,并使用高效的文化基因算法予以优化。从而可获得最佳的压缩编码性能。使得本系统具有显著优于现有方法的整体压缩率,且在各数据文件上都保持了较好的鲁棒性能。另外,本发明在文化基因算法中,使用每个寻优个体表示单一的编码矢量,并以多模优化方式构造整个压缩码本。从而有效提升了码本设计效率。此外,码本设计过程与压缩、解压过程相分离,可使用离线构造的码本,压缩多个不同的质量分数数据文件,从而大幅度减少运算时间。
【专利附图】

【附图说明】
[0038]图1为本发明具体实施例中高通量DNA测序质量分数无损压缩方法流程图。
[0039]图2为本发明基于码本的高通量DNA测序质量分数序列压缩过程示意图。
[0040]图3为本发明具体实施例中使用编码矢量对质量分数进行压缩编码的示意图。
[0041]图4为本发明基于文化基因算法构造质量分数压缩码本的算法示意图。
[0042]图5为图1中步骤SlOO的具体方法流程图。
[0043]图6为图5中步骤S130的具体方法流程图。
[0044]图7为本发明具体实施例中高通量DNA测序质量分数序列压缩系统原理框图。
[0045]图8为本发明高通量DNA测序质量分数序列压缩系统的工作示意图。
【具体实施方式】
[0046]本发明提供一种高通量DNA测序质量分数无损压缩系统及压缩方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0047]本发明提供的高通量DNA测序质量分数无损压缩方法是基于码本(Codebook)的编码方法来压缩NGS质量分数,如图1所示,其包括以下步骤:
[0048]S100、预先基于文化基因算法构造质量分数压缩码本。具体是基于文化基因算法(Memetic Algorithms, MAs)的多模优化(Multimodal Optimization)技术来设计质量分数压缩码本。
[0049]S200、接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量。其中,所述原始高通量DNA测序质量分数数据为ASCII码编码的FASTQ格式,所述的最相似的编码矢量指编辑距离(Edit Distance)最小的编码矢量(Code Vector)。
[0050]S300、利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩。[0051]其中,所述步骤S300具体为:通过动态规划对原始质量分数序列和其最相似的编码矢量进行差异匹配,实现压缩编码形成压缩数据。
[0052]如图2所示的是本发明的基于码本的高通量DNA测序质量分数序列压缩过程,对于某一输入短读记录中的质量分数序列,本发明会搜索质量分数压缩码本中与之最相似的编码矢量,使用这一编码矢量的序号及其与原始质量分数序列间的符号差异作为压缩编码。
[0053]如图3所示的具体实例,对于输入短读记录中的质量分数序列Q =“CCCGFF”,在质量分数压缩码本C= {Cl, C2, (^}中存在与之最相似的编码矢量(;=“01^--(:”。则
此质量分数序列可被编码为Im,(H,其中Q*表示Q与Cm间的符号差异:
[0054]Q = CCC G-FF-
[0055]C111 = CCA GHFFC
[0056]Q* = U U (I, "C") UDUUD
[0057]其中U表示符号相同(Unchanged), I表示插入(Insertion,以“ Λ ”标注),D表示删除(Deletion,以标注),S表示符号替换(Substitution)。对于插入与替换情况,原质量分数符号也需一并记录(例如第三个符号处插入的原质量分数“C”)。质量分数序列与编码矢量的这一差异匹配过程可通过动态规划(Dynamic Programming, DP)快速完成。
[0058]在FASTQ文件中,原始质量分数序列Q使用ASCII码(8bits/字符)存储每个符号,其数据大小为Ltj = 8 X I QI。当进行编码后,Q*中包含4种符号差异类型{U,I, D,S},每个差异占用2bits存储空间。因此编码后的质量分数序列大小为:
[0059]
【权利要求】
1.一种高通量DNA测序质量分数无损压缩方法,其特征在于,所述方法包括以下步骤: A、预先基于文化基因算法构造质量分数压缩码本; B、接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量; C、利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩。
2.根据权利要求1所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述原始高通量DNA测序质量分数数据为ASCII码编码的FASTQ格式。
3.根据权利要求2所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述步骤A具体为: Al、设定质量分数压缩码本的大小M以及编码矢量长度N,统计待输入的原始高通量DNA测序质量分数数据中的符号种类形成符号集合,并据此设置搜索范围; A2、在搜索范围内随机构造M个候选解长度为N的寻优个体,形成进化种群,设定文化基因算法迭代次数为K,初始化迭代计数器k = I ; A3、在每次迭代时, 计算进化种群中每个寻优个体的适应度函数值; A4、在计算所有寻优个体的适应度函数值后,使用适应度共享技术计算各寻优个体的共享适应度函数值; A5、基于各寻优个体的共享适应度函数值,使用文化基因算法优化进化种群。 A6、更新迭代计数器k = k+Ι。若k〈K,则返回步骤A3,否则执行步骤A7 ; A7、将最终获得的进化种群中各寻优个体映射为各编码矢量,从而构成质量分数压缩码本。
4.根据权利要求3所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述步骤A3具体为: A31、按照预定映射关系将寻优个体转换为编码矢量 A32、将编码矢量与原始高通量DNA测序质量分数数据中每个原始质量分数序列进行匹配,计算匹配编码后的数据体积; A33、将该数据体积作为当前寻优个体的适应度函数值。
5.根据权利要求4所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述最相似的编码矢量指编辑距离最小的编码矢量。
6.根据权利要求5所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述步骤C具体为: 通过动态规划对原始质量分数序列和其最相似的编码矢量进行差异匹配,实现压缩编码形成压缩数据。
7.根据权利要求6所述的高通量DNA测序质量分数无损压缩方法,其特征在于,所述方法还包括: D、利用所有原始质量分数序列的压缩数据构成数据集合,并将其与质量分数压缩码本作为系统输出结果。
8.根据权利要求7所述的高通量DNA测序质量分数无损压缩方法,其特征在于,解压缩时,将所述数据集合中的每个压缩数据根据所述质量分数压缩码本中的编码矢量恢复成原始质量分数序列,从而得到原始高通量DNA测序质量分数数据。
9.一种高通量DNA测序质量分数无损压缩系统,其特征在于,所述系统包括: 压缩码本设计模块,用于基于文化基因算法构造质量分数压缩码本; 质量分数压缩模块,用于接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量;并利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩。
10.根据权利要求9所述的高通量DNA测序质量分数无损压缩系统,其特征在于,所述系统还包括: 质量分数解压模块,用于将所述数据集合中的每个压缩数据根据所述质量分数压缩码本中的编码矢量恢 复成原始质量分数序列,从而得到原始高通量DNA测序质量分数数据。
【文档编号】G06F19/10GK103995988SQ201410240933
【公开日】2014年8月20日 申请日期:2014年5月30日 优先权日:2014年5月30日
【发明者】周家锐, 华韵之, 纪震, 朱泽轩, 曾启明 申请人:周家锐, 华韵之, 纪震, 朱泽轩, 曾启明
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1