基于dna自动机过程的双链dna序列测定的方法

文档序号:425036阅读:193来源:国知局
专利名称:基于dna自动机过程的双链dna序列测定的方法
技术领域
本发明涉及的是一种用于生物技术领域的DNA序列测定的方法,特别是一种基于DNA自动机过程的双链DNA序列测定的方法。
背景技术
自从人类基因组序列公布以来,全世界进入了后基因组时代。成千上万的生物物种需要进行基因组序列测定。在目前的DNA测序方案中,最流行的是Sanger的双脱氧法,目前DNA测序已经有一批国际专利技术[如美国专利,欧洲专利和日本专利],其中除了少量实用性不是很强的方法外,大部分是围绕双脱氧法进行的一系列技术问题实施的专利。人类基因组序列就是利用双脱氧法测定的。近年来DNA计算及DNA计算机引起了人们的广泛兴趣。DNA计算是一个新的领域,其中,DNA分子作为计算的介质用于解决数学问题。
经对现有技术文献的检索发现,2001年以色列魏兹曼研究所的Shapiro等人在“自然”刊物(Nature,2001,414,430-434)发表了类似图灵机的DNA有限自动机。我们发现,在该DNA自动机中,作为输入分子的DNA双链在限制性内切酶和DNA连接酶的循环作用下通过状态转移实现了连续运算,在该过程中双链DNA分子的序列长度由长变短。由于在DNA自动机反应过程中输入的双链DNA分子序列逐渐变短,其长度变化可以即时跟踪,而且长度变化的方式完全可以编程设计,可以设计成每次变短1个碱基,所以构成了一个完备的DNA测序方案。而且该方案与双脱氧法所描写的技术是完全不一样的技术。

发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于DNA自动机过程的双链DNA序列测定的方法。使其有效地避免单链DNA分子高级结构引起的测序困难,克服现有双脱氧测序技术中单链模板二级结构影响测序的问题,并在此基础上降低成本,本发明在技术路线上不仅能够替代现有技术,而且克服了现有技术的缺陷,具有很大的应用前景。
本发明是通过以下技术方案实现的,本发明的方法具体如下双链DNA序列作为输入分子,由限制性内切酶对DNA进行切割,露出粘性末端,与状态转移分子通过碱基配对相结合,在连接酶作用下发生连接;由于状态转移分子仍然含有限制性内切酶的识别位点,连接后的DNA分子继续新一轮的切割和连接循环并使作为输入分子的DNA序列逐渐变短,作为输入分子的DNA序列逐渐变短,输入分子的长度变化反映了DNA序列的信息,通过设计状态转移分子的结构可以实现输入分子的长度递减的速度为每次1个碱基。由于是基于双链分子,可以有效地避免单链DNA分子高级结构引起的测序困难。
所述的输入分子为双链DNA,或由单链核酸分子转换而成的双链。
基于双链为模板进行单链连接的DNA连接酶或者是能够直接进行单链DNA连接的连接系统。
所述的限制性内切酶为II型限制性内切酶,其识别位点离切割位点有一定的距离,但是又有高度的切割专一性;切割出来的DNA分子末端为粘性末端,长度为2-5个碱基,而且粘性末端既可以是5’序列,也可以是3’序列。两个或两个以上不同类型的限制性内切酶也可以同时使用。
使用小分子荧光标记物对状态转移分子进行四色荧光标记。状态转移分子在连接酶的作用下与逐渐变短的输入分子发生共价连接,并通过荧光基团来标识正在变短的输入分子。
用于DNA计算反应的状态转移分子的基本结构为由长度不同的两条DNA单链组成双链DNA分子,上链长度在19-38碱基,下链长度在21--43碱基。上链与下链的3’端序列完全配对,这样一来下链的5’端有2-5个碱基为粘性末端用于状态转换;粘性末端的长度(n)决定了需要合成的状态转移分子的总个数4n。完全配对的区域含有上述3中酶的识别位点,识别位点距离下链的3’末端有6--25个碱基,这一段对应的双链为保护序列;识别位点与粘性末端之间的双链序列为间隔序列,间隔序列的长度设计使得DNA计算过程中一次状态转换只移动一个碱基。下链的3’末端为荧光标记位点;根据下链的3’末端是A、G、C或T来选择四种互不相同的荧光标记或任意一种可以用于检测的物理化学标记。下链的5’末端要进行磷酸化标记。
DNA计算反应体系组分包括输入分子,状态转换分子,连接酶,内切酶,ATP,缓冲液,该反应体系同时包含了内切酶和连接酶。DNA计算反应过程还包括1)无蛋白质性质的酶所组成的反应系统,但是使用了核酶或脱氧核酶,在该系统中核酶或脱氧核酶可以代替限制性内切酶驱动DNA分子进行的计算反应,但是系统还含有DNA连接酶;2)由生物分子构成某一组合经过物理化学过程而组成的自动机反应系统,以双链DNA分子为输入分子进行类似图灵机运算并反映DNA序列信息。在上述反应体系中可以直接观察双链DNA输入分子与状态转移分子连接产物的长度变化来检测DNA序列信息。
序列长度变化可以通过毛细管电泳技术来阅读。
与目前流行的DNA序列双脱氧测定方法相比,本发明描述的方法使用的荧光标记是完全一样的。但是设计的一套状态转移分子对任意DNA序列是通用的,而双脱氧法经常需要针对具体的DNA序列设计相应的引物。加上本发明是以双链DNA为模板,克服了双脱氧法以DNA单链为模板带来的二级结构问题,所以本发明明显具备了高于现有技术的技术优势。
以下对本发明的方法进一步具体描述(1)未知DNA序列,将其转换成双链并与前导分子连接起来,该前导分子含有DNA自动机硬件内切酶所特定的识别位点。前导分子长度在10到20bp(碱基对)左右,可以是一般亚克隆载体上的多克隆位点。PCR(聚合酶链式反应)产物可以与前导分子连接起来,也可以在引物上设计硬件内切酶所特定的识别位点。未知DNA序列也可以是由单链核酸(DNA或RNA)分子转换而成的DNA双链。
(2)硬件内切酶准备两套,FokI是其中一种酶,也可以使用BbsI,HgaI或BsMFI。未知序列在测定之前使用这些酶先消化,如果没有某酶的识别位点则可以使用该酶,否则使用上述酶中的另外一个。
(3)状态转移分子的设计。FokI的限制性内切酶切割后露出的粘性末端为4个碱基,这样需要的状态转移分子个数是44即256种。如果使用的内切酶切割双链DNA后粘性末端为3个碱基或其它个数,相应的状态转移分子个数需要相应地调整。状态转移分子的结构见图2。间隔序列使得DNA计算过程中一次状态转换只移动一个碱基。全部256种状态转移分子中8碱基对序列可以全部相同,也可以有所不同。露出的粘性末端需要5’磷酸化以利于连接(在无连接酶系统中5’磷酸化对反应速度没有太大影响),全部状态转移分子可以一次合成。状态转移分子的荧光分子标记在下链的3’最末端。为了防止状态转移分子的自身连接并保证状态转移分子可以高效地被限制性内切酶识别和切割,左侧保护序列可以进行类似图1显示的特殊设计,即保护序列所在的双链末端不一定是平头末端,也可以让下链的3’末端比上链多出几个碱基。系统描述用于DNA测序的DNA计算反应系统的状态转移分子为由长度不同但是完全配对的两条DNA单链组成双链DNA分子,上链长度在19-38碱基,下链长度在21--43碱基。上链与下链的3’端序列完全配对,这样一来下链的5’端有2-5个碱基为粘性末端用于状态转换;完全配对的区域含有上述3中酶的识别位点,识别位点距离下链的3’末端有6--25个碱基,这一段对应的双链为保护序列;识别位点与粘性末端之间的双链序列为间隔序列,间隔序列的长度设计使得DNA计算过程中一次状态转换只移动一个碱基。下链的3’末端为荧光标记位点;根据下链的3’末端是A、G、C或T来选择四种互不相同的荧光标记或任意一种可以用于检测的物理化学标记。下链的5’末端要进行磷酸化标记。
(4)荧光标记的选择。小分子荧光标记物。可以参考Applied BioSystems公司的荧光标记。根据状态转移分子中的碱基粘性末端最后一个碱基来规定荧光标记基团的不同,比如A标记FAM,T标记HEX,C标记CY3,G标记CY5等,根据序列阅读仪器的要求选择标记方法.序列阅读仪器将产生反映DNA双链分子长度变化的四色荧光图。
(5)连接酶的选择。一般基于双链为模板进行单链连接的DNA连接酶或者能够直接进行单链连接的DNA连接酶或连接系统都是可以的。
(6)DNA计算反应的一般体系组分包括双链DNA输入分子(Input),状态转换分子,DNA连接酶(Ligase),II型限制性内切酶,ATP,缓冲液,DNA计算反应的反应温度为16-25℃,各自浓度为每种状态转换分子为0.374um/L,FokI0.2umit/uL,Ligase 18.7units/uL,ATP 0.8mmol/L,Input DNA 0.15umol/L.Stock solutionsFokI4units/uL,ligase 400units/uL,ATP 100mmol L。在上述条件下可以继续进行反应体系的优化。
(7)序列长度变化的阅读方式。本发明的核心在于一个全新的DNA测序反应系统即DNA计算反应系统;至于观察序列长度的变化可以使用任何现有的技术,如毛细管电泳技术(如ABI3100/MegaBase测序仪)。在DNA计算反应的一般体系中不同长度的DNA片段可以利用毛细管电泳技术和荧光阅读系统来进行DNA序列识别。需要知道被测序列的前3个碱基的序列以及反映DNA双链分子长度变化的四色图,则全部后续序列即可以推算出来,比如如果已经知道前3个序列碱基是AGT,随后的第一个碱基完全由荧光基团判定,比如A标记FAM,T标记HEX,C标记CY3,G标记CY5,依据荧光颜色就可以得到碱基种类。在DNA计算其它反应体系中,可以采取直接检测双链DNA输入分子长度的变化来识别DNA序列信息。


图1类似图灵机的DNA自动机工作原理示意图。
图中方框中的数字(7,21,22,15,311)表示方框内的双链DNA序列长度,T1、T4和T6是状态转移(Transition)分子的3个例子,Input S0表示双链DNA分子开始进行DNA计算的初始状态,aba代表DNA自动机计算的状态转换程序例子,terminator代表自动机反应的终止符号,计算到达这里后会给出最终状态。通过设计状态转移(Transition)分子中间隔序列的长度,可以控制自动机每次前进的碱基个数,当自动机每次前进的碱基个数为1时,就能利用DNA自动机直接测序。在DNA计算反应中,上述所有序列和符号都是必需的;当DNA计算用于DNA序列测定时,初始状态和自动机反应的终止符号都可以不必特意规定。
图2用于FokI反应系统的状态转移分子示意图。
图中左侧黑色椭圆球表示荧光标记,标记在下链(3’),GGATC为FokI识别位点,6-25bp为保护序列,NNNNNNNN为8碱基间隔序列,XXXX为所有可能的碱基组合,p为下链5’磷酸标记,共需要256种状态转移分子。
具体实施例方式
实施例1测定已经插入质粒多克隆位点的未知序列的DNA序列信息。利用DNA重组技术把把待测序列插入质粒,多克隆位点要包含一个用于DNA计算反应的限制性内切酶的识别位点如FokI;多克隆位点的已知序列为测定的起始序列。设计状态转移分子使每次DNA自动机移动切割距离为1个碱基,则可以直接阅读DNA输入分子的序列。如果利用FokI来进行自动机的运行,则露出的粘性末端为4个碱基,这样需要考虑的全部状态转移分子个数为44=256个。只需要知道被测定序列的前3个碱基(多克隆位点的已知序列)就可以依据状态转移分子的荧光颜色来推断后面的全部序列。反应之前先用FokI切割含有未知序列的质粒,判断未知序列中是否含有另外的FokI识别位点。如果没有另外的FokI识别位点,则直接进行测序反应,即整个质粒作为DNA计算的输入分子加入DNA计算反应体系;如果有另外的FokI识别位点,则按最佳实施例3中的方案进行。
实验研究中所使用的输入分子举例(其中NNNN表示长度不限的任意序列)FokIgtcactatggcgtgctgcta tgtgatcctggctcgcagcctggcttgtcgcNNNNcagtgataccgcacgacgat acactaggaccgagcgtcggaccgaacagcgNNNN状态转移分子举例T1acgttgcatacggactgctgat tgtgatccFAM-tgcaacgtatgcctgacgacta acactaggccga-p在反应体系中加入输入分子,T1,FokI和T4 DNA ligase.输入分子经FokI酶切得到ggctcgcagcctggcttgtcgcNNNNgcgtcggaccgaacagcgNNNN带有ccga粘性末端的T1在T4 DNA Ligase的作用下连接,产物记为分子Macgttgcatacggactgctgat tgtgatccggctcgcagcctggcttgtcgcNNNNFAM-tgcaacgtatgcctgacgacta acactaggccgagcgtcggaccgaacagcgNNNN下链带有荧光标记,可以用毛细管电泳直接观察。由于FoKI的存在,分子M还会继续被酶切为两个片断gctcgcagcctggcttgtcgcNNNNcgtcggaccgaacagcgNNNN和acgttgcatacggactgctgat tgtgatccgFAM-tgcaacgtatgcctgacgacta acactaggccgag状态转移分子举例T2acgttgcatacggactgctgat tgtgatccFAM-tgcaacgtatgcctgacgacta acactaggcgag-pT2有可以与输入分子继续连接,然后再被切割。从上述反应中能看出,输入分子一次向右移动一个碱基。上述含有FoKI识别位点的输入分子的部分序列可以设计成多克隆位点序列的一部分。根据已有的实验结果,利用DNA计算反应进行DNA序列测定可以阅读的序列程度在未经优化的反应条件下将可以达到500个碱基左右,已经接近目前双脱氧法的较好水平。
实施例2测定PCR产物双链DNA的序列。需要把PCR引物中设计有一个FokI位点,这样通过PCR扩增(PCR反应的具体方式不限)出来的双链DNA分子的一端含有一个FokI位点,该位点离双链DNA分子的最末端有6-10个碱基的距离,保证该位点可以有效地被FokI切割。这样就可以利用FokI对应的DNA计算反应系统实现PCR产物的序列测定。反应之前先用FokI切割PCR扩增的双链DNA序列,判断序列中是否含有另外的FokI识别位点。如果没有另外的FokI识别位点,则直接进行测序反应,即整个PCR产物双链DNA作为DNA计算的输入分子加入DNA计算反应体系;如果有另外的FokI识别位点,则按最佳实施例3中的方案进行。
实施例3对于已经含有FokI识别位点的未知序列可以使用如下策略。利用FokI切割该序列,切割后的片段进行回收并直接进行测序反应。片段的回收方式有多种,可以将FokI切割反应的产物用琼脂糖胶按片段大小进行分离,每个片段分别进行割胶纯化。这些回收纯化过程利用的都是标准的DNA重组技术,可以选择市场上任意一种试剂盒来进行。纯化后的DNA片段可以直接进行DNA计算反应来测定序列,即纯化后的DNA双链片段作为DNA计算的输入分子加入DNA计算反应体系。最后把这些片段的序列拼接起来。
权利要求
1.一种基于DNA自动机过程的双链DNA序列测定的方法,其特征在于,双链DNA序列作为输入分子,由限制性内切酶对DNA进行切割,露出粘性末端,与状态转移分子通过碱基配对相结合,在连接酶作用下发生连接;由于状态转移分子仍然含有限制性内切酶的识别位点,连接后的DNA分子继续新一轮的切割和连接循环并使作为输入分子的DNA序列逐渐变短,作为输入分子的DNA序列逐渐变短,输入分子的长度变化反映了DNA序列的信息,通过设计状态转移分子的结构可以实现输入分子的长度递减的速度为每次1个碱基。
2.根据权利要求1所述的基于DNA自动机过程的双链DNA序列测定的方法其特征是,所述的输入分子为双链DNA,或由单链核酸分子转换而成的双链。
3.根据权利要求1所述的基于DNA自动机过程的双链DNA序列测定的方法,其特征是,所述的限制性内切酶为II型限制性内切酶,切割出来的DNA分子末端为粘性末端,长度为2-5个碱基,粘性末端既可以是5’序列,也可以是3’序列,两个或两个以上的限制性内切酶可同时使用。
4.根据权利要求2所述的基于DNA自动机过程的双链DNA序列测定的方法,其特征是,基于双链为模板进行单链连接的DNA连接酶或者是能够直接进行单链DNA连接的连接系统。
5.根据权利要求1所述的基于DNA自动机过程的双链DNA序列测定的方法,其特征是,所述的状态转移分子,使用小分子荧光标记物对状态转移分子进行四色荧光标记,状态转移分子在连接酶的作用下与逐渐变短的输入分子发生共价连接,并通过荧光基团来标识正在变短的输入分子。
6.根据权利要求1或者5所述的基于DNA自动机过程的双链DNA序列测定的方法,其特征是,所述的状态转移分子,用于DNA计算反应的状态转移分子的基本结构为由长度不同的两条DNA单链组成双链DNA分子,上链长度在19-38碱基,下链长度在21--43碱基。上链与下链的3’端序列完全配对,这样一来下链的5’端有2-5个碱基为粘性末端用于状态转换;粘性末端的长度(n)决定了需要合成的状态转移分子的总个数4n,完全配对的区域含有上述3中酶的识别位点,识别位点距离下链的3’末端有6--25个碱基,这一段对应的双链为保护序列;识别位点与粘性末端之间的双链序列为间隔序列,间隔序列的长度设计使得DNA计算过程中一次状态转换只移动一个碱基,下链的3’末端为荧光标记位点;根据下链的3’末端是A、G、C或T来选择四种互不相同的荧光标记或任意一种可以用于检测的物理化学标记,下链的5’末端要进行磷酸化标记。
7.根据权利要求1或者6所述的基于DNA自动机过程的双链DNA序列测定的方法,其特征是,所述的序列长度变化可以通过毛细管电泳技术来阅读。
8.根据权利要求1所述的基于DNA自动机过程的双链DNA序列测定的方法,其特征是,DNA计算反应过程还包括1)无蛋白质性质的酶所组成的反应系统,但是使用了核酶或脱氧核酶,在该系统中核酶或脱氧核酶可以代替限制性内切酶驱动DNA分子进行的计算反应,但是系统还含有DNA连接酶;2)由生物分子构成某一组合经过物理化学过程而组成的自动机反应系统,以双链DNA分子为输入分子进行类似图灵机运算并反映DNA序列信息;在上述反应体系中可以直接观察双链DNA输入分子与状态转移分子连接产物的长度变化来检测DNA序列信息。
9.根据权利要求1所述的基于DNA自动机过程的双链DNA序列测定的方法,其特征是,DNA计算反应的反应温度为16-25℃,各自组分的浓度为每种状态转换分子为0.374um/L,FokI0.2umit/uL,Ligase 18.7units/uL,ATP0.8mmol/L,Input DNA 0.15umol/L.Stock solutionsFokI4units/uL,ligase 400units/uL,ATP 100mmol L。
全文摘要
一种基于DNA自动机过程的双链DNA序列测定的方法。本发明中双链DNA序列作为输入分子,由限制性内切酶对DNA进行切割,露出粘性末端,与状态转移分子通过碱基配对相结合并发生连接。由于状态转移分子仍然含有限制性内切酶的识别位点,连接后的DNA分子继续新一轮的切割和连接循环并使作为输入分子的DNA序列逐渐变短,作为输入分子的DNA序列逐渐变短,输入分子的长度变化反映了DNA序列的信息,该长度变化是可阅读的,通过设计状态转移分子的结构可以实现输入分子的长度递减的速度为每次1个碱基。本发明有效地避免单链DNA分子高级结构引起的测序困难,克服现有技术中单链模板二级结构影响测序的不足,并在此基础上降低成本,具有很大的应用前景。
文档编号C12Q1/68GK1661102SQ20041009309
公开日2005年8月31日 申请日期2004年12月16日 优先权日2004年12月16日
发明者张治洲, 胡钧, 贺林 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1