测序深度的矫正方法及装置与流程

文档序号:17335456发布日期:2019-04-05 22:25阅读:557来源:国知局
测序深度的矫正方法及装置与流程

本发明涉及通信领域,具体而言,涉及一种测序深度的矫正方法及装置。



背景技术:

一些研究表明,通过扩增和测序引入的gc偏差对染色体非整倍性的敏感性产生了限制作用。在不同测序条件下,例如试剂成分不同、测序温度不同或者簇密度不同,gc偏差可能在样品制备和测序过程中引入,这会导致gc含量过高或gc含量过低的基因组区域的测序数据出现偏差。

相关技术中开发了消除gc偏差的计算方法。hcfan和srquake开发了一种通过局部多项式回归拟合(loess回归)的计算方法消除gc偏差,该方法通过基于局部基因组gc含量对每个gc密度给予权重,以通过乘以相应权重矫正每个区域的reads数目。但是,该方法在计算时可能造成数据轻微失真,会干扰检测的准确性。

针对相关技术中,通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法,容易出现数据失真,结果准确性差等问题,尚未提出有效的技术方案。



技术实现要素:

本发明实施例提供了一种测序深度的矫正方法及装置,以至少解决相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法,容易出现数据失真,结果准确性差等问题。

根据本发明的一个实施例,提供了一种测序深度的矫正装置,包括:获取模块,用于获取基因组上每个位点的gc含量,以及所述基因组的所有位点的测序深度;划分模块,用于根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,其中,n为正整数;确定模块,用于确定n个区间的平均测序深度的泊松分布;处理模块,用于将所述泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,并将排列后的泊松分布的值作为矫正后的每个位点的测序深度。

在本发明实施例中,所述划分模块,用于将gc含量落在第一范围内的位点化分在n个不同区间的两端区间内;以及将gc含量落在第二范围内的位点化分在中间区间内,其中,中间区间为所述n个不同区间中,除所述两端区间的其他区间,所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中,所述处理模块,还用于将所述排列后的泊松分布的值替换所述所有位点的测序深度,将替换后的所有位点的测序深度作为所述矫正后的每个位点的测序深度。

在本发明实施例中,所述处理模块,还用于将所述泊松分布的值和所述所有位点的测序深度均按照从小到大的顺序排列,或还用于将所述泊松分布的值和所述所有位点的测序深度按照从大到小的顺序排列。

在本发明实施例中,所述确定模块,还用于通过以下方式确定所述n个区间的平均深度:将所述基因组内所有位点的总深度除以所述基因组内位点的个数,得到所述n个区间的平均深度。

在本发明实施例中,所述装置还包括:矫正模块,用于根据矫正后的的每个位点的测序深度和所述每个位点的gc含量矫正所述每个位点的gc偏好。

根据本发明的另一个实施例,还提供了一种测序深度的矫正方法,包括:获取基因组上每个位点的gc含量,以及所述基因组的所有位点的测序深度;根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,其中,n为正整数;确定n个区间的平均测序深度的泊松分布;将所述泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,并将排列后的泊松分布的值作为矫正后的每个位点的测序深度。

在本发明实施例中,根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,包括:将gc含量落在第一范围内的位点化分在n个不同区间的两端区间内;将gc含量落在第二范围内的位点化分在中间区间内,其中,中间区间为所述n个不同区间中,除所述两端区间的其他区间,所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中,将排列后的泊松分布的值作为矫正后的每个位点的测序深度,包括:将所述排列后的泊松分布的值替换所述所有位点的测序深度;将替换后的所有位点的测序深度作为所述矫正后的每个位点的测序深度。

在本发明实施例中,将所述泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,至少包括以下之一:将所述泊松分布的值和所述所有位点的测序深度均按照从小到大的顺序排列;将所述泊松分布的值和所述所有位点的测序深度按照从大到小的顺序排列。

根据本发明的另一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上任一项所述的测序深度的矫正方法。

通过本发明,根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,确定n个区间的平均测序深度的泊松分布;然后将泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,并将排列后的泊松分布的值作为矫正后的每个位点的测序深度,采用上述技术方案,解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法,容易出现数据失真,结果准确性差等问题,进而提高了一种准确性高的方法来消除测序深度的偏差。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为根据本发明实施例的测序深度的矫正方法的流程图;

图2是根据本发明实施例的测序深度的矫正装置的结构框图;

图3是根据本发明实施例的测序深度的矫正装置的另一结构框图;

图4是根据本发明实施例的测序深度的矫正前效果的示意图(一);

图5是根据本发明实施例的测序深度的矫正后效果的示意图(一);

图6是根据本发明实施例的测序深度的矫正前效果的示意图(二);

图7是根据本发明实施例的测序深度的矫正后效果的示意图(二)。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

相关技术中,在对测序深度进行矫正的过程中,当数据量很大时,要对每个待预测数据拟合一次,运行时间较长,计算量大,本发明实施例将泊松分布引入到了测序深度的矫正过程中,避免了欠拟合和过拟合引起的计算过程,具体详见以下实施例以及优选实施例的技术方案。

实施例1

本发明实施例提供了一种测序深度的矫正方法,图1为根据本发明实施例的测序深度的矫正方法的流程图,如图1所示,包括以下步骤:

步骤s102:获取基因组上每个位点的gc含量,以及所述基因组的所有位点的测序深度;

步骤s104:根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,其中,n为正整数;

步骤s106:确定n个区间的平均测序深度的泊松分布;

步骤s108:将所述泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,并将排列后的泊松分布的值作为矫正后的每个位点的测序深度。

通过上述步骤,根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,确定n个区间的平均测序深度的泊松分布;然后将泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,并将排列后的泊松分布的值作为矫正后的每个位点的测序深度,采用上述技术方案,解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法,容易出现数据失真,结果准确性差等问题,进而提高了一种准确性高的方法来消除测序深度的偏差,且采用泊松分布的计算方式,运算速度快。

需要说明的是,上述每个区间的每个位点的权重不一定相同的,同一区间同一测序深度的位点的权重是相同的,所以步骤s110中是将测序深度乘以对应测序深度的权重。

上述步骤s104可以有多种实现方式,在一个可选实施例中,可以通过以下技术方案实现:将gc含量落在第一范围内的位点化分在n个不同区间的两端区间内;将gc含量落在第二范围内的位点化分在中间区间内,其中,中间区间为所述n个不同区间中,除所述两端区间的其他区间,所述第一范围内的位点数目小于所述第二范围内的位点数目,本发明实施例中的第二范围应该指的是在含有位点数目比较多的gc区间,而第一范围应该指的是含有位点数目比较少的gc区间,对于基因组,通常gc含量在20%~60%的位点比较多,也就是说gc在20%~60%的位点为第二范围的位点,其余的位点位第一范围的位点。

在本发明实施例中,将所述排列后的泊松分布的值替换所述所有位点的测序深度,将替换后的所有位点的测序深度作为所述矫正后的每个位点的测序深度,具体实施过程中,可以按照从小到大的排列顺序来排列泊松分布的值和所述所有位点的测序深度,也可以按照从大到小的顺序排列,简而言之,泊松分布的值和所有位点的测序深度需采用相同的排列顺序,本发明实施例对此不作限定。

其中,通过以下方式确定所述n个区间的平均深度:将所述基因组内所有位点的总深度除以所述基因组内位点的个数,得到所述n个区间的平均深度。

可选地,在步骤s108后,还可以执行以下技术方案:根据矫正后的每个位点的测序深度和所述每个位点的gc含量矫正所述每个位点的gc偏好,也就是说,在本发明实施例中,步骤s108得到的测序深度可以理解为一种中间状态的信息,其中,测序深度与gc含量的相关性,称为gc偏好(英文简称gcbias),gc含量是在dna4种碱基中,鸟嘌呤和胞嘧啶所占的比率称为gc含量。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种测序深度的矫正装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的测序深度的矫正装置的结构框图,如图2所示,该装置包括:

获取模块20,用于获取基因组上每个位点的gc含量,以及所述基因组的所有位点的测序深度;

划分模块22,用于根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,其中,n为正整数;

确定模块24,用于确定n个区间的平均测序深度的泊松分布;

处理模块26,用于将所述泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,并将排列后的泊松分布的值作为矫正后的每个位点的测序深度。

通过本发明,根据每个位点的gc含量将所述所有位点按照指定规则分成n个不同区间,确定n个区间的平均测序深度的泊松分布;然后将泊松分布的值和所述所有位点的测序深度按照相同的排列方式进行排列,并将排列后的泊松分布的值作为矫正后的每个位点的测序深度,采用上述技术方案,解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法,容易出现数据失真,结果准确性差等问题,进而提高了一种准确性高的方法来消除测序深度的偏差,且采用泊松分布的计算方式,运算速度快。

在本发明实施例中,所述划分模块22,用于将gc含量落在第一范围内的位点化分在n个不同区间的两端区间内;以及将gc含量落在第二范围内的位点化分在中间区间内,其中,中间区间为所述n个不同区间中,除所述两端区间的其他区间,所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中,所述确定模块24,还用于通过以下方式确定所述n个区间的平均深度:将所述基因组内所有位点的总深度除以所述基因组内位点的个数,得到所述n个区间的平均深度。

在本发明实施例中,处理模块26,还用于将所述排列后的泊松分布的值替换所述所有位点的测序深度,将替换后的所有位点的测序深度作为所述矫正后的每个位点的测序深度。

在本发明实施例中,处理模块26,还用于将所述泊松分布的值和所述所有位点的测序深度均按照从小到大的顺序排列,或还用于将所述泊松分布的值和所述所有位点的测序深度按照从大到小的顺序排列。

图3是根据本发明实施例的测序深度的矫正装置的另一结构框图,如图3所示,在本发明实施例中,所述装置,还包括:矫正模块28,用于根据矫正后的每个位点的测序深度和所述每个位点的gc含量矫正所述每个位点的gc偏好。

需要说明的是,上述实施例1-实施例2的技术方案可以结合使用,也可以单独使用,本发明实施例对此不作限定。

以下结合一优选实施例对上述测序深度的矫正流程进行说明,但不用于限定本发明实施例的技术方案,主要包括以下步骤:

步骤1、通过高通量测序获得样本的全基因组序列。

步骤2、将测序得到的序列与基因组hg19进行比对,比对结果去除比对到重复序列和比对到多个位置上的序列,去除非完全比对的序列。

步骤3、计算基因组hg19上每个位点的gc含量,将所有位点根据其gc含量分成43个bin,中间bin的区间为1%的gc含量,两端bin的区间为20%的gc含量,其中,将基因组根据gc含量分成43个bin,每个bin上所有位点的深度服从泊松分布。

步骤4、利用samtools软件(也可以是其他可执行软件)对基因组上的所有位点进行深度分析,统计所有位点的测序深度信息。

步骤5、对于每一个gcbin,所有位点的测序深度近乎服从泊松分布。分别计算所有bin的平均深度λall。

步骤6、对于每一个bini,模拟一个以λ=λall的泊松分布,将模拟的泊松分布值按照由小到大的顺序排列,对矫正前的测序深度也按照由小到大的顺序排列,相应的用模拟的泊松分布值替换矫正前的测序深度即为矫正后的测序深度。

步骤7、以100kb为一个滑动窗口bin,统计基因组上不同窗口bin的平均深度信息。

步骤8、计算每个bin的gc含量,以gc含量为横轴,平均深度为纵轴,绘制同一样品矫正前后的gc分布图,比较矫正前后的深度信息是否有gc偏好。

基于上述步骤1-步骤8的技术方案,如图4所示,对平均深度随gc含量偏上的样品进行校正,校正前后的结果如图4-5所示,横轴是每一个bin的gc含量,纵轴是每一个bin的平均深度。

如图6-7所示,对平均深度随gc含量偏下的样品进行校正,校正前后的结果如图6-7所示,横轴是每一个bin的gc含量,纵轴是每一个bin的平均深度。

可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-onlymemory,简称为rom)、随机存取存储器(randomaccessmemory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1