实现dna序列分析中增加测序阅读长度的测定方法

文档序号:435557阅读:638来源:国知局
专利名称:实现dna序列分析中增加测序阅读长度的测定方法
技术领域
本发明涉及一种高通量测的DNA测序方法,是一种实现DNA序列分析中增加 测序阅读长度的测定方法。
背景技术
随着人类基因组计划和各种模式生物基因组计划的开展和完成,使人类步 入了后基因时代,对当代的生物学研究和医学研究产生了巨大的影响,分子生物 学相关学科得到了迅猛的发展。从基因水平上认识生命的差异,疾病发生、发展 的规律,以及药物与生命体的相互作用将成为可能。就基因序列分析而言,后基 因时代的重点已由全基因组序列测定转移到了对基因组中个体遗传差异及物种 间遗传差异的比较。目前,无论是找寻新的还是确认已知SNP位点,传统的Sanger DNA测序法,仍处于无可替代的地位。但这一方法存在通量低和价格高的问题。 第一个人类基因组序列测定的费用大约为10亿美元,目前这一费用已经降低到大 约2千万美元。但是,功能基因组的研究进展仍然受限于DNA测序技术。为此,美 国Venter基金会在2003年提出了 1 OOO美金人类全基因组测序的研究目标。2004 年初,美国国立卫生院投入7千多万美元支持DNA测序新技术的研究计划,其目标 是发展10万美金的测序技术,并最终减低为l千美金。美国国立卫生研究院人类 基因组研究中心主任Collins教授指出大幅度降低DNA测序的成本将会大大推动 生命科学和医学的研究,甚至会带来革命性的变化。目前国际上要完成一个哺乳 动物全基因组的测序需要上千万美元。以当前最为先进的ABI Prism 3730 DNA 测序仪为例,完成人类基因组中30亿碱基的测序,需要150台ABI Prism 3730 DNA测序仪运转一年,其测序成本达到二千四百万美元。现在以Sanger DNA测序 法为基础的,在发展高密度的毛细管阵列,以提高测序的并行性,进而提高DNA 的测序速度这一研究思路在提高DNA测序速度和降低成本方面的改进空间也十分有限。
目前,全基因组DNA测序技术己经成为国际上一个竞争十分激烈的研究领 域。大部分研究在合成测序策略方面。除了对现有的基于电泳的测序技术进行 改进外,当前正在发展的新型测序技术主要集中在非电泳的手段上。这类技术从总体上来看可以分成四大类第一类是合成测序,在碱基加入到正在延伸的DNA 链的过程当中进行检测;第二类技术则是杂交测序法,通过制备一组高密度寡核 苷酸微阵列芯片的杂交信号,进行目标基因的序列鉴定。第三类为分子影像一系 列可以在单分子的水平上进行测序的技术;最后一类技术是诱导DNA分子蜿蜒通
过非常细微的小孔,在这个过程当中借助于电子学或者光学的方法对碱基进行读 出,也称作纳米孔测序。实际上,目前只有合成测序方法有希望用于全基因组测 序。合成测序法目前较为成功的例子是美国的454 Life Sciences公司基于乳液 PCR产物的高通量并行焦测序技术;Illumina (Solexa)公司的桥式扩增-DNA 芯片延伸测序技术;以及Applied Biosestems (SOLiD)公司基于乳液PCR产物 的杂交-酶连接-酶切割高通量测序技术。
而目前的延伸合成测序方法,不管是焦测序还是标记单体的延伸测序,由于 延伸反应效率、洗涤等会错误延伸的累积、测序引物的流失等,这些问题都可能 导致序列阅读长度的降低,而序列阅读长度显著影响拼接组装效率。已有文献表 明,当序列阅读长度为20个碱基时,需要进行50次以上的序列测定,而当序列 阅读长度为80个碱基时,只需要5-6次左右的序列测定就能将人类基因组序列 进行有效的完整组装。因此,提高测序的阅读长度不仅可以提高序列的准确性, 而且可以大大降低序列测定的成本。
本发明的目的就是通过一种高通量测序引物,为DNA序列分析增加测序阅读 长度,建立快速,准确,便宜的基因组序列测定方法。

发明内容
本发明的目的是提供一种实现DNA序列分析中增加测序阅读长度的测定方 法,其优点在于测序阅读长度长,能够提高拼接的正确性,减少重复测定的次数, 序列测定费用低。
本发明的基本思路是DNA测序引物由一段测序模板杂交定位片段和一段测 序起点定位片段构成。当高通量测序引物与未知单链DNA模板完成杂交后可以从 测序起点开始模板序列的测定;当实现一小段序列的碱基测定后,将测序引物从 DNA模板中变性分离,并重新将包含上述一小段已经测定序列的新高通量测序引 物与DNA模板杂交,继续下一段序列测定,每增加一次新的测序引物杂交,将增 加DNA模板序列的一小段阅读长度,循环上述过程,直到未知DNA模板的序列确 定。由于高通量引物是通过非常成熟的固相DNA方法合成并纯化得到,或者在 DNA模板指导下通过连接合成的杂交定位片段和测序起点定位片段得到,因此该 方法没有错误延伸的累积效应,能够维持DNA模板和测序引物的量,序列的测定 正确可靠,不存在测序长度的限制;另外,该方法按照流行的分子生物学方法进 行,不存在技术难点。
本发明采用如下技术方案
一种实现DNA序列分析中增加测序阅读长度的测定方法
步骤1:在待测DNA序列的一端连接一段公用的已知测序用于序列测引物的 杂交,
步骤2:使用现有的电泳或非电泳DNA测序方法,测得待测DNA测序模板的 碱基数量为5 40个的第一段碱基序列,然后,根据连接于待测DNA序列一端的 已知测序引物及已经测得的DNA碱基序列,人工合成另一段测序引物,该另一段 测序引物由测序杂交定位片段及测序起点定位片段组成,该测序杂交定位片段是 由A、 T、 C及G构成的与步骤1所述己知测序引物互补的碱基序列,测序起点定 位片段由能够与A、 T、 C或G配对的基团构成且测序起点定位片段的整体稳定性 低于测序杂交定位片段,
步骤3:采用变性方法,从待测DNA测序模板上,去除已与待测DNA测序模 板杂交的延伸测序引物,再将由步骤2得到的新的人工合成的另一段测序引物与 待测DNA序列进行杂交,
重复步骤2 3,进行循环测定,直至测得全部待测DNA序列。
所述的测序引物,测序引物可以通过成熟的固相DNA合成方法合成并纯化得 到,也可以在未知单链DNA模板引导下,将杂交定位片段和测序起点定位片段连 接得到。
所述的测序引物中杂交定位片段,测序引物的杂交温度由杂交定位片段测序 来确定的。这个片段杂交未知DNA模板的已知序列片段。杂交定位片段为正常的 核苷酸序列,其碱基个数为15-~40,最佳为20-30。
所述的测序引物中测序起点定位片段,这段序列为杂交定位和测序起点定位 提供空间连接作用,对应于未知DNA模板的已知(已测定)序列或者不需要测定 的序列片段。测序起点定位片段由碱基N (既包含四个正常碱基混合物)、以及 能与模板DNA杂交,但稳定性比正常碱基配对差的其它碱基或者碱基类似物基 团,如脱氧肌苷(1)、脱氧核糖、核糖、次黄嘌呤、甲基腺嘌呤、甲基鸟嘌呤、 甲基胞嘧啶、二氢尿嘧啶等,它满足与所有未知DNA模板的杂交要求,且其杂交
温度比杂交定位片段的低。测序起点定位片段碱基个数相当于正常核苷酸序列碱 基个数为0—100,最佳为20-50。
本发明与现有技术相比,具有如下优点
1. 本发明的最大优点是实现了DNA序列测列的阅读长度,提高了拼接的正 确性,减少重复测定的次数,大大降低了序列测定的费用。
2. 本发明的高通量测序引物由于碱基类似物或者基团不能够与模板DNA上 的碱基形成正常稳定氢键,这样可以通过控制温度来准确控制杂交定位片段序列 的杂交准确性,以及有效控制测序引物延伸3端的杂交特异性,从而保证后续测 序的正确性。此外,该发明均按照流行的分子生物学方法进行,容易在现有的技 术上实施。


图1是本发明一种高通量测序引物及其增加测序阅读长度的方法序列测定示 意图。
图2是本发明采用固相DNA合成的一种高通量测序引物示意图。 图3是本发明在未知单链DNA模板引导下,通过特异连接杂交定位片段和测 序起点定位片段得到的一种高通量测序引物及其制备流程示意图。
具体实施例方式
当高通量测序引物实际上是一组寡核苷酸序列,这组序列是所有测序模板的 测序引物,它们均由一段测序模板杂交定位片段和一段测序起点定位片段构成。 当高通量测序引物与未知单链DNA模板完成杂交后可以从测序起点开始模板序 列的测定;当实现一小段序列的碱基测定后,将测序引物从DNA模板中变性分离, 并重新将包含上述一小段已经测定序列的新高通量测序引物与DNA模板杂交,继 续下一段序列测定,每增加一次新的测序引物杂交,将增加DNA模板序列的一小 段阅读长度,循环上述过程,直到未知DNA模板的序列确定。
通过常规的固相合成法一次合成高通量测序引物能满足与所有未知DNA模 板杂交的测序引物要求。同时,新高通量测序引物中央部分包括替代正常碱基, 并能与碱基形成弱键的碱基或者碱基类似物基团,这样可以通过控制温度来有效 控制测序引物的定位以及引物3端的杂交特异性,从而保证后续测序的正确性。
测序方法可以是碱基延伸序列测定方法,序列连接测定方法以及其它测定方 法。在碱基延伸序列测定方法中高通量测序引物为单向的(即测序引物的3端延 伸碱基),而在序列连接测定方法中高通量测序引物既可以是的单向的(测序引 物的3端连接或者测序引物的5端连接),也可以是双向的。序列测定可以是单
个DNA模板,也可以是多个DNA模板并行进行。
本实施例所述的一种实现DNA序列分析中增加测序阅读长度的测定方法 步骤1:在待测DNA序列的一端连接一段公用的已知测序用于序列测引物的
杂交,
步骤2:使用现有的电泳或非电泳DNA测序方法,测得待测DNA测序模板的 碱基数量为5 40个的第一段碱基序列,然后,根据连接于待测DNA序列一端的 已知测序引物及已经测得的DNA碱基序列,人工合成另一段测序引物,该另一段 测序引物由测序杂交定位片段及测序起点定位片段组成,该测序杂交定位片段是 由A、 T、 C及G构成的与步骤1所述已知测序引物互补的碱基序列,测序起点定 位片段由能够与A、 T、 C或G配对的基团构成且测序起点定位片段的整体稳定性 低于测序杂交定位片段,
步骤3:采用变性方法,从待测DNA测序模板上,去除已与待测DNA测序模 板杂交的延伸测序引物,再将由步骤2得到的新的人工合成的另一段测序引物与 待测DNA序列进行杂交,
重复步骤2 3,进行循环测定,直至测得全部待测DNA序列。
上述能够与A、 T、 C或G配对的基团包括次黄嘌呤及其衍生物、吲哚核苷及 其衍生物、脱氧核糖及其衍生物、核糖及其衍生物或二氢尿嘧啶及其衍生物,具 体可以是脱氧肌苷(1)、 H引哚核苷、二氢尿嘧啶等。在满足测序起点定位片段整 体稳定性低于测序杂交定位片段的条件下,可在测序起点定位片段中插入使用 A、 T、 C或G,与其他能够与A、 T、 C或G配对的基团共同构成测序起点定位片段。
在本实施例中,在每次循环测定中,在测序起点定位片段1-2的一个末端修 饰有能与测序杂交定位片段1-1连接的活性基团4,在另一个末端修饰了一个封 闭基团5,活性基团4可以采用磷酸根基团,封闭基团5可以采用磷酸根基团, 封闭基团5可以通过酶消化成羟基,为序列测定的碱基延伸提供反应位点。 以下将结合附图对本发明作进一步说明。
图1是本发明一种高通量测序引物及其增加测序阅读长度的方法序列测定 示意图。图中有高通量测序引物l,未知DNA模板序列2。当测序引物(1)与 未知DNA模板序列(2)完成杂交后,可以采用碱基延伸、序列连接、焦测序以
及其它测序方法进行序列测定。
图2是本发明采用固相DNA合成的一种高通量测序引物示意图。图中1为高 通量测序引物,它由杂交定位序列1-1、和测序起点定位片段序列1-2组成。其 中杂交定位序列卜l为正常的碱基序列(X表示可能的A、 G、 C、 T中的一种, 不同位置的X碱基科研相同也可以补相同),测序起点序列由碱基N ((既包含四 个正常碱基混合物),以及能与模板DNA杂交,但稳定性比正常碱基配对差的其 它碱基或者碱基类似物基团,如脱氧肌苷(1)、脱氧核糖、核糖、次黄嘌呤、甲 基腺嘌呤、甲基鸟嘌呤、甲基胞嘧啶、二氢尿嘧啶等。由于或者碱基类似物或者 基团不能够与模板DNA上的碱基形成正常稳定氢键,这样可以通过控制温度来准 确控制杂交定位片段序列的杂交,以及有效控制测序引物延伸3端的杂交特异 性,从而保证后续测序的正确性。
图3是本发明在未知单链DNA模板引导下,通过特异连接杂交定位片段和测 序起点定位片段得到的一种高通量测序引物及其制备流程示意图。图中有测序 杂交定位片段1-1和测序起点定位片段1-2,未知单链DNA模板序列2,固定未 知单链DNA模板序列(2)的载体3。其中,测序起点定位片段(1-2)的一个末 端修饰了可以与测序杂交定位片段(1-1)连接的活性基团4 (如磷酸根基团等), 而另一个末端修饰了一个封闭基团5,使得测序起点定位片段(1-2)相互间不 能发生连接反应。固定在载体(3)上的未知单链DNA模板(2)与测序杂交定位 片段(1-1)完成杂交,洗涤未杂交或者不完全互补杂交的引物(a),加入测序 起点定位片段(1-2)与未知单链DNA模板(2)杂交(b),在连接酶的作用下, 连接测序杂交定位片段(1-1)测序起点定位片段U-2) (c),通过变性、清除 未连接的测序起点定位片段(1-2) (d),活化测序起点定位片段(1-2)的封闭 基团(e),便制备出可用于序列测定的高通量测序引物。由于测序起点定位片段 是通用引物,因此与DNA模板的任何片段均能完成杂交,可以采用反复"杂交-变性-连接"的方式提高准确连接的效率。
实例l:杂交-荧光单体延伸测序法测定包含人全基因组。
将人基因组用酶切割(或者超声破碎)成大小为50-1000碱基的片段,并在 连接酶的作用下将这些片段化核酸序列用一对通用连接子进行连接(假定均为 20个碱基),其中的一个通用连接子的寡核酸序列与扩增引物的序列完全互补, 而另一个连接子的寡核酸序列与测序引物的相同。
连接臂连接的片段化核酸序列置于固定连接子互补序列的连玻璃基片上进 行扩增反应,并最后得到人全基因组测序模板。
参照附图l、图2,将将定位序列片段作为测序引物与人全基因组测序模板 杂交。将3端封闭并标记不同颜料的A、 G、 C、 T单体加入玻璃基片上进行延伸
测序反应延伸反应完成后,洗涤未参与反应的单体,并对玻璃基片进行扫描分 析确定哪些位置的模板进行了哪些碱基的延伸反应,从而确定基因组序列上的碱 基。将合成单体的3端活化,并进行下一个碱基的序列测定。每重服一次增加一 个碱基的序列测定,直到因每个碱基的延伸效率导致不能准确碱基序列为止,停 止该次合成延伸测序。将延伸上述测定若干个碱基序列的测序引物变性掉,并重 新杂交新的高通量测序引物。如果上次延伸测序确定每个模板的碱基个数为25
个,则新的测序引物长度为45个其中20个杂交定位序列片段;25个碱基序 列为引物测序起点定位片段,为了能够完全满足所有基因组测序模板的杂交要
求,这段序列可以包含20个脱氧肌苷nnniinnni和5个碱基n组成的45 条序列,碱基i可以和模板上的任何四个正常的碱基形成弱的氢键,而碱基n
意味着从45条序列中总能找到与模板完全互补的杂交序列。新的高通量测序引
物与模板完成杂交后,便定位于上次序列测定的位置,进行新的序列测定。每增
加一次新的测序引物杂交,将增加dna模板序列的一小段阅读长度,循环上述过 程,直到未知dna模板的序列确定。
实例2 :杂交-连接荧光标记序列法测定包含人全基因组。
将人基因组用酶切割(或者超声破碎)成大小为50-1000碱基的片段,并在 连接酶的作用下将这些片段化核酸序列用一对通用连接子进行连接(假定均为 20个碱基),其中的一个通用连接子的寡核酸序列与扩增引物的序列完全互补, 而另一个连接子的寡核酸序列与测序引物的相同。
将这些连接臂连接的片段化核酸序列与固定连接子互补序列到微珠进行乳 液并行pcr反应,扩增片段化的人全基因组。并将这些微珠固定到平板基片上, 通过酶切或者变性得到人全基因组测序模板。
参照附图1、图2和图3,将杂交定位序列片段与人全基因组测序模板杂交。 将标记不同颜料的a陋nn"、 gnnnn"、 cn顧n"、 tnnnn" (*表示颜料分子)与人 全基因组测序模板完成杂交一连接,并进行扫描分析确定哪些位置的模板进行了 哪些碱基的连接反应,从而确定基因组序列上的碱基。用酶切方法将四个不确定 的碱基连同荧光分子(nnnn') —同切除,不断重复上诉过程,每重复一次增加 一个碱基的序列测定,直到因碱基的延伸效率导致不能准确碱基序列为止,停止 该次测序。将延伸上述测定若干个碱基序列的测序引物变性掉,并重新杂交定位 序列片段。如果上次延伸测序确定每个模板的碱基个数为25个,则将这一条含 有25个通用碱基的片段(如2 5个脱氧肌苷序列)作为测序起点定位片段,与 模板dna杂交并完成连接反应,由通用碱基构成的测序起点定位片段的3端修饰 了一个封闭基团,使得测序起点定位片段相互间不能发生连接反应。这样就制备 出长度为45个的测序引物,定位于上次序列测定的位置,进行新的序列测定。 每增加一次新的测序引物杂交,将增加DNA模板序列的一小段阅读长度,循环上 述过程,直到未知DNA模板的序列确定。
循环上述杂交-延伸过程,直到序列测定到需要的位置。
权利要求
1、一种实现DNA序列分析中增加测序阅读长度的测定方法,其特征在于步骤1在待测DNA序列的一端连接一段公用的已知测序用于序列测引物的杂交,步骤2使用现有的电泳或非电泳DNA测序方法,测得待测DNA测序模板的碱基数量为5~40个的第一段碱基序列,然后,根据连接于待测DNA序列一端的已知测序引物及已经测得的DNA碱基序列,人工合成另一段测序引物,该另一段测序引物由测序杂交定位片段及测序起点定位片段组成,该测序杂交定位片段是由A、T、C及G构成的与步骤1所述已知测序引物互补的碱基序列,测序起点定位片段由能够与A、T、C或G配对的基团构成且测序起点定位片段的整体稳定性低于测序杂交定位片段,其数量等于已经测得的DNA碱基序列的碱基总数,步骤3采用变性方法,从待测DNA测序模板上,去除已与待测DNA测序模板杂交的延伸测序引物,再将由步骤2得到的新的人工合成的另一段测序引物与待测DNA序列进行杂交,重复步骤2~3,进行循环测定,直至测得全部待测DNA序列。
2、 根据权利要求1所述的实现DNA序列分析中增加测序阅读长度的测定方 法,其特征在于能够与A、 T、 C或G配对的基团包括次黄嘌呤及其衍生物、吲哚 核苷及其衍生物、脱氧核糖及其衍生物、核糖及其衍生物或二氢尿嘧啶及其衍生 物。
3、 根据权利要求1或2所述的实现DNA序列分析中增加测序阅读长度的测 定方法,其特征在于在每次循环测定中,在测序起点定位片段(1-2)的一个末 端修饰有能与测序杂交定位片段(1-1)连接的活性基团(4),在另一个末端修 饰了一个封闭基团(5)。
全文摘要
一种实现DNA序列分析中增加测序阅读长度的测定方法使用现有的电泳或非电泳DNA测序方法,测得待测DNA测序模板的碱基数量为5~40个碱基序列,人工合成另一段测序引物,该另一段测序引物由测序杂交定位片段及测序起点定位片段组成,该测序杂交定位片段是由A、T、C及G构成的与所述已知测序引物互补的碱基序列,测序起点定位片段由能够与A、T、C或G配对的基团构成且测序起点定位片段的整体稳定性低于测序杂交定位片段,其数量等于测得的DNA碱基序列的碱基总数;从待测DNA测序模板上去除延伸测序引物,再将另一段测序引物与待测DNA序列进行杂交;重复上述步骤,循环测定,至测得待测DNA序列。
文档编号C12Q1/68GK101168774SQ20071013500
公开日2008年4月30日 申请日期2007年11月6日 优先权日2007年11月6日
发明者静 唐, 啸 孙, 肖鹏峰, 陆祖宏 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1