基于贝叶斯的高通量dna测序数据匹配增强方法

文档序号:6535533阅读:320来源:国知局
基于贝叶斯的高通量dna测序数据匹配增强方法
【专利摘要】本发明属于分子生物信息检测领域,具体涉及一种在已有高通量DNA测序数据匹配基础上,基于贝叶斯技术进一步增加测序数据的匹配数量的基于贝叶斯的高通量DNA测序数据匹配增强方法。本发明包括进行高通量DNA测序数据的初步匹配;求取高通量DNA测序数据错配先验概率;计算高通量DNA测序数据错配后验概率;评估高通量DNA测序数据不成功匹配集中数据发生成功匹配的评估值;提取高通量DNA测序数据不成功匹配集中成功匹配数据。本发明利用贝叶斯技术,在原有高通量DNA测序数据匹配映射基础上,通过评估不成功匹配测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用效率。
【专利说明】基于贝叶斯的高通量DNA测序数据匹配增强方法【技术领域】
[0001]本发明属于分子生物信息检测领域,具体涉及一种在已有高通量DNA测序数据匹配基础上,基于贝叶斯技术进一步增加测序数据的匹配数量的基于贝叶斯的高通量DNA测序数据匹配增强方法。
【背景技术】
[0002]高通量DNA测序技术直接对靶核苷酸序列进行测序,然后通过测序结果与参考基因组序列匹配的方式找到靶核苷酸序列在DNA上的出处,从而获取相关基因的检测信息。由于直接对靶核苷酸序列进行测序,高通量DNA测序技术大幅度地提高了基因信息的检测精度。然而,由于在基因信息检测过程中存在序列匹配环节,高通量DNA测序对基因信息的检测属于间接检测,其序列匹配环节直接影响着信息检测的最终效果。
[0003]此外,有别于传统基因芯片技术只能检测事先设计好的特定的基因信息,高通量DNA测序技术有能力一次性地检测全基因组的基因信息,因此,高通量DNA测序技术在生物信息检测领域正得到越来越广泛的应用。然而,为了达到检测目的,高通量DNA测序技术必须产生更高通量的检测数据,以保证检测数据有效覆盖全基因组上的所有信息。此时,对高通量DNA测序技术而言,所生成的每一条检测数据都非常重要,其序列匹配环节的成功率更是与信息检测效果密切相关。
[0004]综上所述,在高通量DNA测序实验中,如何保证测序数据高成功率地匹配映射回其在DNA上的出处至关重要。
[0005]目前,被大家广泛使用的高通量DNA测序数据序列匹配方法有很多。但不论何种方法,由于个体间差异和测序误差的存在,都无法将所有的高通量DNA测序数据一丝不差地通过与参考基因组序列的匹配而映射回基因组。因此,为了保证序列匹配的成功率,在序列匹配过程中,都允许测量序`列和参考基因组中的参考序列间存在一定数量的错配。只有当错配过量出现时,才认为测量序列和参考序列不匹配。尽管如此,在每次测序数据的匹配过程中,仍有部分数据因找不到相匹配的参考序列而被放弃,影响了测序数据的利用效率。
[0006]实际上,高通量DNA测序数据中测序误差的发生是有规律的,即每个测序读数中,越往后的位置,发生测序错误的概率越高;不同测序位置上,发生不同种类测序错误的概率不同。而上述规律是随着测序平台的不同,实验环境的不同而变化的。因此,针对特定的测序实验,可以通过估计其特有的测序误差模式,作为匹配映射的参考并进而提高其测序数据的匹配映射成功率,以提高测序数据的利用效率。

【发明内容】

[0007]本发明的目的在于提供一种提高测序数据的匹配映射成功率和测序数据的利用效率的基于贝叶斯的高通量DNA测序数据匹配增强方法。
[0008]本发明的目的是这样实现的:
[0009](I)进行高通量DNA测序数据的初步匹配[0010]利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行匹配映射,常规高通量DNA测序数据匹配方法将自动依据匹配结果中所含错配个数,将测序数据分为成功匹配和不成功匹配两个数据集合,在成功匹配的数据集中,进一步将含有错配的数据提取出来形成有错配匹配子集合,其余数据为完全匹配子集合;
[0011](2)求取高通量DNA测序数据错配先验概率
[0012]在成功匹配集合的有错配匹配子集合中,统计分析错配信息,并计算成功匹配时不同测序位置上不同种类错配发生的先验概率P(AU|M),其中,Au表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配,M为成功匹配;
[0013](3)计算高通量DNA测序数据错配后验概率
[0014]利用成功匹配集合中有错配匹配子集合数据求取得到的高通量DNA测序数据错配先验概率,即可计算测序数据存在某种错配但仍是成功匹配的后验概率P(MlAij):
[0015]P (MI Aij) = P (Aij IM) *P (M) /P (Aij)
[0016]其中,Aij表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配;M为成功匹配,则P(AijIM)为成功匹配数据中,第i个位置上发生第j种错配Aij的先验概率,P(MlAij)为第i个位置上发生第j种错配Au时仍认为其是成功匹配的后验概率,P(M)为全部测序数据中成功匹配的概率,P(Aij)为全部测序数据中第i个位置上发生第j种错配Aij的概率;
[0017](4)评估高通量DNA测序数据不成功匹配集中数据发生成功匹配的评估值
【权利要求】
1.一种基于贝叶斯的高通量DNA测序数据匹配增强方法,其特征在于 (1)进行高通量DNA测序数据的初步匹配 利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行匹配映射,常规高通量DNA测序数据匹配方法将自动依据匹配结果中所含错配个数,将测序数据分为成功匹配和不成功匹配两个数据集合,在成功匹配的数据集中,进一步将含有错配的数据提取出来形成有错配匹配子集合,其余数据为完全匹配子集合; (2)求取高通量DNA测序数据错配先验概率 在成功匹配集合的有错配匹配子集合中,统计分析错配信息,并计算成功匹配时不同测序位置上不同种类错配发生的先验概率P(AU|M),其中,Au表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配,M为成功匹配; (3)计算高通量DNA测序数据错配后验概率 利用成功匹配集合中有错配匹配子集合数据求取得到的高通量DNA测序数据错配先验概率,即可计算测序数据存在某种错配但仍是成功匹配的后验概率P(MlAij):
P(MlAij) = P (Aij I M)*P (M)/P (Aij) 其中,Aij表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配;M为成功匹配,则P(AijIM)为成功匹配数据中,第i个位置上发生第j种错配Aij的先验概率,P(MlAij)为第i个位置上发生第j种错配Aij时仍认为其是成功匹配的后验概率,P(M)为全部测序数据中成功匹配的概率,P(Aij)为全部测序数据中第i个位置上发生第j种错配Aij的概率; (4)评估高通量DNA测序数据不成功匹配集中数据发生成功匹配的评估值

【文档编号】G06F19/20GK103810404SQ201410013068
【公开日】2014年5月21日 申请日期:2014年1月13日 优先权日:2014年1月13日
【发明者】冯伟兴, 贺波, 董彦生, 陈若雷, 王科俊 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1