一种IonTorrent测序数据中多聚碱基的长度判定方法与流程

文档序号:14189536阅读:495来源:国知局
一种Ion Torrent测序数据中多聚碱基的长度判定方法与流程

本发明属于分子生物信息检测与分析领域,具体涉及一种Ion Torrent测序数据中多聚碱基的长度判定方法。



背景技术:

目前,关于分子生物信息检测,高通量测序技术的快速发展导致了许多新的测序技术的产生。Ion Torrent则是最新一代的测序技术之一。Ion Torrent测序的优势在于测序速度快、成本低,从而使得高通量测序技术走向临床成为可能。

Ion Torrent测序的核心技术是使用半导体技术在化学和数字信息之间建立直接的联系。Ion Torrent的测序原理是:DNA聚合酶在将一个核苷酸渗入到DNA分子上会释放出一个质子,导致局部发生可被检测的pH值变化。Ion Torrent测序技术则基于此利用离子传感器检测核苷酸与DNA序列结合时溶液pH值的变化。离子传感器将测得的化学信号直接转化为电压信号输出。分析软件则根据输出电压信号值的大小,确定此次测序周期中参与反应的序列长度,再根据此次测序周期检测的碱基类型完成最终的测序过程。与其它常用的高通测序技术逐个碱基进行检测不同,Ion Torrent测序技术在一个测序周期内只有一种核苷酸参与反应,因此,Ion Torrent一个测序周期只检测一种碱基,不会发生其它高通测序技术测序过程中常出现的碱基类型检测错误,但如何基于检测输出的电压值对被测碱基序列的长度进行判定则是Ion Torrent测序的一个关键技术问题。



技术实现要素:

本发明提供一种针对Ion Torrent测序得到的多聚碱基进行长度判定的方法。

本发明的目的是这样实现的:

(1)Ion Torrent实验数据的获取与多聚碱基信息提取:

获取Ion Torrent实验检测得到的电压值,当电压值大于1.5伏时,则电压值对应检测的是一个多聚碱基,再根据实验检测周期,即确定多聚碱基对应的碱基种类A,C,G,T;得到实验测得的所有多聚碱基的检测电压值和碱基种类信息;

(2)基因组基本信息的获取及多聚碱基基本信息的提取:

基因组基本信息是指分析过程中国际公开发布的被测碱基序列所对应物种的DNA基因组碱基序列信息;从序列信息可提取得到多聚碱基的碱基种类及其长度信息;

(3)多聚碱基长度已知的电压值贝叶斯先验概率计算:

对长度已知的多聚碱基进行Ion Torrent测序并获取检测电压值,并计算多聚碱基长度已知的电压值贝叶斯先验概率相同长度的多聚碱基的检测电压值遵从高斯分布,用高斯分布的 形式来计算多聚碱基长度已知的电压值贝叶斯先验概率;高斯分布的均值和方差通过长度已知的多聚碱基的检测电压值统计计算得到;

(4)判定基因组基本信息和电压值贝叶斯先验概率的多聚碱基长度并对权值参数优化:

对Ion Torrent实验测得的电压值对应的多聚碱基长度进行判定:

I为多聚碱基的碱基种类,j为多聚碱基在检测序列读数的位置,V为实验检测电压值,L为聚碱基的长度,l为多聚碱基长度,P(V|i,j,l)为多聚碱基的碱基种类为i,多聚碱基在检测序列读数的位置为j,多聚碱基长度为l,检测电压值为V的贝叶斯先验概率;P(l)为所有多聚碱基中,长度为l的多聚碱基的发生概率;P(i,j,l)为所有多聚碱基中碱基种类为i,在检测序列读数的位置为j,长度为l的多聚碱基的发生概率;P(l)和P(i,j,l)通过Ion Torrent实验检测数据统计计算得到;log()为对数函数;Pen(l|Seq_ref)函数为多聚碱基长度为l时致使其所在测序序列与基因组基本信息Seq_ref出现不一致的罚分;W为权值,用于平衡基因组基本信息和电压值贝叶斯先验概率在多聚碱基长度判定中的作用;利用已知长度的多聚碱基的检测信息对该判定公式的权值参数W进行优化计算,以获取最终的多聚碱基长度判定公式;

(5)多聚碱基长度判定

基于得到的多聚碱基长度,即可针对Ion Torrent实验获取的多聚碱基检测电压值对其长度进行判定。

本发明的有益效果在于:本发明通过所发明的方法可以高精度地依据Ion Torrent测序得到的检测电压值对该电压值对应的多聚碱基的长度进行判定,以生成更加准确的Ion Torrent测序结果,从而为后续更高层次的应用分析提供数据保障。

附图说明

图1多聚碱基不同长度的电压值分布(碱基=A,位置=0);

图2多聚碱基不同碱基类型的电压值分布(长度=4,位置=0);

图3多聚碱基在检测序列读数不同位置的电压值分布(长度=4,碱基=A);

图4判定公式权值参数优化求取(碱基=A,位置=0);

图5为本发明流程图。

具体实施方式

下面结合附图对本发明做进一步描述:

作为新的高通量测序技术,Ion Torrent测序仪测序速度快、成本低,从而使得高通量测序技术走向临床成为可能。Ion Torrent测序仪能够快速地按顺序对被测碱基序列进行测序, 但在一个检测周期内仅对被测碱基序列中的一类碱基进行检测,然后,依据检测输出的电压值判定被测碱基的长度,并最终实现测序。如果被测序列中存在多聚碱基(即连续多个同类碱基),则如何基于检测输出的电压值对其长度进行判定是Ion Torrent测序仪的一个关键技术问题。本发明即是针对该问题提出的一种Ion Torrent测序数据中多聚碱基的长度判定方法。该方法结合了贝叶斯先验知识和基因组基本信息,高精度地实现多聚碱基的长度判定。具体包括:

(1)Ion Torrent实验数据的获取与多聚碱基信息提取

首先,获取Ion Torrent实验检测得到的电压值。由于设计上Ion Torrent测序仪检测1个碱基输出1伏电压,因此,当检测电压值大于1.5伏时,则认为该电压值对应检测的是一个多聚碱基,再根据实验检测周期,即可确定该多聚碱基对应的碱基种类(A,C,G,T)。最终,得到实验测得的所有多聚碱基的检测电压值和碱基种类等信息。

(2)基因组基本信息的获取及其多聚碱基基本信息的提取

基因组基本信息是指本发明方法分析过程中所需要的国际公开发布的被测碱基序列所对应物种的DNA基因组碱基序列信息。从该序列信息可提取得到多聚碱基的碱基种类及其长度等基本信息。

(3)多聚碱基长度已知的电压值贝叶斯先验概率计算

首先,对长度已知的多聚碱基进行Ion Torrent测序并获取检测电压值,并计算多聚碱基长度已知的电压值贝叶斯先验概率。理论上,相同长度的多聚碱基的检测电压值应遵从高斯分布,因此,本发明用高斯分布的形式来计算多聚碱基长度已知的电压值贝叶斯先验概率。高斯分布的均值和方差等参数可通过长度已知的多聚碱基的检测电压值统计计算得到。为保证预测精度,本发明在贝叶斯先验概率计算过程中,分别根据多聚碱基的不同长度,多聚碱基的不同碱基种类,多聚碱基在检测序列读数的不同位置等信息计算不同的电压值贝叶斯先验概率。

(4)结合基因组基本信息和电压值贝叶斯先验概率的多聚碱基长度判定公式及其参数优化

由于同一物种不同个体的DNA碱基序列差异非常小,因此,Ion Torrent所测得的多聚碱基长度应倾向于和基因组基本信息记载的多聚碱基长度相同。为此,我们用如下公式结合基因组基本信息和电压值贝叶斯先验概率对Ion Torrent实验测得的电压值对应的多聚碱基长度进行判定。判定公式如下:

该判定公式是在已知多聚碱基的碱基种类i和多聚碱基在检测序列读数的位置j前提下,依据实验检测电压值V判定该多聚碱基的长度L。式中,l为假定的多聚碱基长度,P(V|i,j,l)为多聚碱基的碱基种类为i,多聚碱基在检测序列读数的位置为j,多聚碱基长度为l时,检测电压值为V的贝叶斯先验概率,该概率已经在第(3)步计算得到;P(l)为所有多聚碱基中,长度为l的多聚碱基的发生概率;P(i,j,l)为所有多聚碱基中,碱基种类为i,在检测序列读数的位置为j,长度为l的多聚碱基的发生概率。P(l)和P(i,j,l)可以通过Ion Torrent实验检测数据统计计算得到;log()为对数函数;Pen(l|Seq_ref)函数为假设多聚碱基长度为l时致使其所在测序序列与基因组基本信息Seq_ref出现不一致的罚分(相同:0;替换:-1;增删:-2);W为权值,用于平衡基因组基本信息和电压值贝叶斯先验概率在多聚碱基长度判定中的作用,以取得最佳的判定结果。

最后,利用已知长度的多聚碱基的检测信息对该判定公式的权值参数W进行优化计算,以获取最终的多聚碱基长度判定公式。

(5)多聚碱基长度判定

基于得到的多聚碱基长度判定公式,即可针对Ion Torrent实验获取的多聚碱基检测电压值对其长度进行判定。

表1 16个判定公式的权值参数优化求取结果

1、Ion Torrent实验数据的获取与多聚碱基信息提取

首先,获取Ion Torrent实验检测得到的电压值。由于设计上Ion Torrent测序仪检测1个碱基输出1伏电压,因此,当检测电压值大于1.5伏时,则认为该电压值对应检测的是一个多聚碱基。获取所有多聚碱基后,可根据实验检测周期,得到每个多聚碱基对应的碱基种类(A,C,G,T)。

2、基因组基本信息的获取及其多聚碱基基本信息的提取

基因组基本信息是指本发明方法分析过程中所需要的国际公开发布的被测碱基序列所对应物种的DNA基因组碱基序列信息。从该序列信息可提取得到多聚碱基的碱基种类及其长度等基本信息。

具体而言,DNA基因组碱基序列可从Genbank等国际大型生物信息数据库中下载,随后,即可从碱基序列中提取多聚碱基,并获取其碱基种类和长度等信息。

3、多聚碱基长度已知的电压值贝叶斯先验概率计算

首先,对长度已知的多聚碱基进行Ion Torrent测序并获取检测电压值,并计算多聚碱基长度已知的电压值贝叶斯先验概率。理论上,相同长度的多聚碱基的检测电压值应遵从高斯分布,因此,本发明用高斯分布的形式来计算多聚碱基长度已知的电压值贝叶斯先验概率。 高斯分布的均值和方差等参数可通过长度已知的多聚碱基的检测电压值统计计算得到。为保证预测精度,本发明在贝叶斯先验概率计算过程中,分别根据多聚碱基的不同长度,多聚碱基的不同碱基种类,多聚碱基在检测序列读数的不同位置等信息计算不同的电压值贝叶斯先验概率。

4、结合基因组基本信息和电压值贝叶斯先验概率的多聚碱基长度判定公式及其参数优化

由于同一物种不同个体的DNA碱基序列差异非常小,因此,Ion Torrent所测得的多聚碱基长度应倾向于和基因组基本信息记载的多聚碱基长度相同。为此,我们用如下公式结合基因组基本信息和电压值贝叶斯先验概率对Ion Torrent实验测得的电压值对应的多聚碱基长度进行判定。判定公式如下:

该判定公式是在已知多聚碱基的碱基种类i和多聚碱基在检测序列读数的位置j前提下,依据实验检测电压值V判定该多聚碱基的长度L。式中,l为假定的多聚碱基长度,P(V|i,j,l)为多聚碱基的碱基种类为i,多聚碱基在检测序列读数的位置为j,多聚碱基长度为l时,检测电压值为V的贝叶斯先验概率,该概率已经在第(3)步计算得到;P(l)为所有多聚碱基中,长度为l的多聚碱基的发生概率;P(i,j,l)为所有多聚碱基中,碱基种类为i,在检测序列读数的位置为j,长度为l的多聚碱基的发生概率。P(l)和P(i,j,l)可以通过Ion Torrent实验检测数据统计计算得到;log()为对数函数;Pen(l|Seq_ref)函数为假设多聚碱基长度为l时致使其所在测序序列与基因组基本信息Seq_ref出现不一致的罚分(相同:0;替换:-1;增删:-2);W为权值,用于平衡基因组基本信息和电压值贝叶斯先验概率在多聚碱基长度判定中的作用,以取得最佳的判定结果。

最后,利用已知长度的多聚碱基的检测信息对该判定公式的权值参数W进行优化计算,以获取最终的多聚碱基长度判定公式。

5、多聚碱基长度判定

基于得到的多聚碱基长度判定公式,即可针对Ion Torrent实验获取的多聚碱基检测电压值对其长度进行判定。

6、实验验证

我们针对同一个生物样本分别用Ion Torrent测序仪和Illumina测序仪进行了基因组碱基测序。从Ion Torrent测序仪的输出检测电压信号中,依据电压值是否大于1.5伏,我们共获取了855,813个多聚碱基;再依据Ion Torrent测序仪的检测周期,获取了这855,813个多聚碱基的碱基类型。由于Illumina测序仪一个检测周期仅对一个碱基进行检测,因此,对于多聚 碱基的检测不会发生长度误差。于是,通过Illumina测序仪的测序结果,我们知道了所获取的855,813个多聚碱基的准确长度。

随后,我们对这些多聚碱基数据进行了统计分析。具体分别依据多聚碱基的不同长度(2,3,4,5,6)、多聚碱基的不同碱基类型(A,C,G,T)、多聚碱基在检测序列读数的不同位置(0:0-49,50:50-99,100:100-149,150:150-199)对相应的检测电压值进行了统计分析。

多聚碱基不同长度的电压值分布见图1。图中,横轴为检测电压值,纵轴为概率密度。该图是对碱基类型为A、在检测序列读数位置为0时不同长度多聚碱基的电压值分布曲线,从左到右的曲线分别对应多聚碱基长度为2、3、4、5、6。

多聚碱基不同碱基类型的电压值分布见图2。图中,横轴为检测电压值,纵轴为概率密度。该图是对长度为4、在检测序列读数位置为0时不同碱基类型多聚碱基的电压值分布曲线。

多聚碱基在检测序列读数不同位置的电压值分布见图3。图中,横轴为检测电压值,纵轴为概率密度。该图是对长度为4、碱基类型为A时在检测序列读数不同位置多聚碱基的电压值分布曲线。

从上述分析,我们发现多聚碱基的检测电压值确实和多聚碱基的长度、多聚碱基的碱基类型,以及多聚碱基在检测序列读数的位置有关。

随后,我们在多聚碱基长度已知的情况下,对多聚碱基的电压值贝叶斯先验概率模型进行了计算。这里,根据多聚碱基的不同长度(2,3,4,5,6)、不同碱基类型(A,C,G,T)和在检测序列读数的不同位置(0,50,100,150),我们共计算了80个多聚碱基的电压值贝叶斯先验概率。

最后,我们结合基因组基本信息和电压值贝叶斯先验概率对多聚碱基长度进行判定。具体采用我们提出的判定公式。依据多聚碱基的不同碱基类型(A,C,G,T)和在检测序列读数的不同位置(0,50,100,150)等不同条件,我们共建立了16个判定公式。基于已知长度的855,813个多聚碱基,我们采用5倍交叉验证法对16个判定公式中的权值参数进行了优化求取。图4为碱基类型为A、位置为0条件下的权值参数求取过程。图中,横轴为权值,纵轴为长度判定错误的次数。最终,当权值为0.34时,取得最佳的判定结果,即141,444个此类多聚碱基中,错误个数仅为476个,识别正确率高达99.7%。16个判定公式的权值参数优化求取结果见表1。表1中,“碱基”是指多聚碱基特定的碱基类型;“位置”是指多聚碱基在检测序列读数中特定的位置;“数量”的含义是特定碱基类型和检测序列读数特定位置下的实验测得的多聚碱基个数;“Ion Torrent”的含义是利用Ion Torrent测序仪自带软件进行多 聚碱基长度判定的错误个数;“贝叶斯”的含义是当权值取1,即仅采用电压值贝叶斯先验概率对多聚碱基进行长度判定的错误个数;“基因组”的含义是当权值取0,即仅采用基因组基本信息对多聚碱基进行长度判定的错误个数;“发明方法”是本发明方法对多聚碱基进行长度判定的错误个数。可以发现,本发明方法在判定效果上明显最好。

表1

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1