一种用于DNA编码化合物文库的核苷酸双链的计算机编码方法与流程

文档序号:14257593阅读:418来源:国知局
本发明属于计算机编码领域,涉及一种对dna的碱基序列通过计算机编码方法进行排列组合,并通过一定的过滤规则对这些碱基序列进行过滤,得到两部分碱基序列的集合,一部分碱基序列集合作为编码区,另一部分碱基序列集合作为配对区,这两部分碱基序列集合再按照一定规律组合在一起后,再次按照一定的过滤规则进行筛选得到可用于构建dna编码化合物文库的核苷酸双链的集合。
背景技术
:苗头化合物是通过各种途径得到的具有某种生物活性和化学结构的化合物,可用于进一步的结构改造和修饰,以提高其生物活性、选择性,改善药物动力学性质,是现代新药研究的出发点。传统的药物研发中,应用化合物库进行筛选需找苗头化合物是一种被大量应用的策略,传统方法是通过有机合成的方法得到含有大量单独的纯的小分子组成的化合物库,再利用高通量筛选技术(highthroughputscreening,hts)测试化合物库中每个化学小分子的生物活性,找到苗头化合物,接着根据构效关系(structureactivityrelationship,sar)不断对其结构进行优化,最终综合考虑生物活性,靶标选择性和药代动力学等性质,选择几个候选药物用于进一步的药化研究。但是该方法得到的化合物库中每个分子都是单独合成,成本大,周期长,靶标使用量大。为了解决该问题,美国scripps研究院的sydneybrenner和richardlerner教授于1992年提出了dna编码化合物文库(dnaencodedlibrary,简称del)的合成与筛选的概念(参考文献:proc.natl.acad.sci.,1992,89,5381,专利:us5573905)。该方法通过将一个片段化合物与一段独特序列的dna在分子水平进行连接(即对小分子化合物进行dna标记),利用组合化学的“组合-拆分”策略通过两个至多个循环快速地构建数量巨大的化合物库,该化合物库中每一个化合物都由不同片段化合物组成,并由相应的唯一碱基序列的dna标识,将极少量的dna编码化合物库与靶标进行亲和筛选,与靶标没有吸附的化合物库分子先被洗掉,留下的与靶标有吸附的化合物库分子再洗脱下来,这时得到的化合物库分子浓度很低,常规手段难以分析和识别,但是通过dna独有的聚合酶链式反应(polymerasechainreaction,简称pcr)可以把得到的与靶标有吸附的化合物库分子中的dna部分进行复制扩增直至得到的dna量可以被dna测序仪识别,测序后的数据再通过构建dna编码化合物文库时创建的片段化合物与每个具体dna碱基序列之间的关系表来解码,进而找到可以识别具有潜在活性分子相对应的具体化合物对应的片段化合物,我们再通过传统的有机合成方法把这些片段化合物组合在一起得到筛选的目标分子,再检测并确认其对靶标的生理活性。dna编码化合物文库的构建方法主要有三种,第一种是以美国ensemble公司为主利用dna模板技术得到的dna导向分子库(dna-templatedchemicallibrarysynthesis,简称dtcl),第二种是以美国gsk公司,x-chem公司和国内的成都先导公司为主利用dna标记技术得到的dna记录分子库(dna-recordedchemicallibrary,简称drcl),第三种是以瑞士philogen公司为主基于片段的药物设计(fbdd)技术得到的编码自组装分子库(encodedself-assemblingchemicallibraries,简称esac)。目前工业上被大量运用的构建dna编码化合物文库的方法主要还是第二种方法,该方法操作简单,成本更低,能更快速地利用组合化学方法得到含有海量的小分子化合物的dna编码化合物文库。该方法根据使用dna链的不同,又分为以gsk公司为主的核苷酸双链链接(参考专利:cn101864412a)和以x-chem公司为主的核苷酸单链链接(参考专利:cn103998658a)两种方式,这两家公司的专利中详细介绍了他们的起始头片段,核苷酸链不同的酶链接方式和化学链接方式。双链链接相对于单链链接来说,由于双链dna自身通过碱基互补配对形成了反向互补的双螺旋结构,碱基上的活泼氢原子大都参与形成氢键,使核苷酸上的碱基被包埋在dna双螺旋结构的最内部,这样由于空间位阻的影响等因素,在构建dna编码化合物文库的过程中dna上的碱基受到化学反应的影响降到最低,减少了因化学反应引起碱基变化而造成后续pcr和测序时的错误率;这样也大大降低了在后续dna编码化合物文库与靶标进行亲和筛选时,核苷酸上的碱基与靶标的吸附作用也能得到有效的抑制。因此,在实际操作中,双链链接的方式更受欢迎。gsk的文献(nat.chem.biol.,2009,5(9),647-54)和相关专利(cn101864412a,ep2368868a1)也详细展示了部分他们用来标记具体片段化合物的核苷酸双链序列,但是对于具体的核苷酸双链的编码方式和方法仅在专利(ep2441757a1)中稍有提及,碱基序列都是5’磷酸化,都具有恒定的gc含量,没有回文序列和同源二聚体。2015年scripps研究所的brianm.paegel等(参考文献:acscomb.sci.2015,17,518-534)比较详细介绍了一种寡聚核苷酸双链的编码方式,但是他们的限制和要求使得最后得到的11个碱基对(basepair,简称bp)的寡聚核苷酸双链只有不到80个,严重限制了dna编码化合物文库中小分子的数量,远远满足不了dna编码化合物文库工业化生产的需要,而且设置的过滤条件没有考虑到这些寡聚核苷酸链链接起来后整条dna链在聚合酶链式反应中的差异,也没有考虑这些寡聚核苷酸链在建库过程中对片段化合物反应成功与否检测上的影响。技术实现要素:为了解决上述问题,本发现详细提供了一种新型的用于dna编码化合物文库的核苷酸双链的计算机编码方式和方法,以及通过该方法得到的一系列可用于dna编码化合物文库的核苷酸双链的集合。名词解释:碱基互补配对原则(theprincipleofcomplementarybasepairing):在dna或某些双链rna分子结构中,由于碱基之间的氢键具有固定的数目和dna两条链之间的距离保持不变,使得碱基配对必须遵循一定的规律,即腺嘌呤(adenine,简写a)在dna中一定与胸腺嘧啶(thymine,简写t),在rna中一定与尿嘧啶(uracil,简写u)通过两个氢键配对,鸟嘌呤(guanine,简写g)一定与胞嘧啶(cytosine,简写c)通过三个氢键配对,反之亦然,碱基间的这种一一对应的关系叫做碱基互补配对原则。黏性末端(stickyend):黏性末端是指dna双链中有一段有突出(overhang)的碱基序列,如果与其链接的另一段dna也有一段可以与其反向互补的突出的碱基序列,则其链接效率大大高于没有突出碱基序列的dna双链(此时叫平齐末端(flushends))。汉明距离(hammingdistance):两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数,也即将一个字符串变换成另外一个字符串所需要替换的字符个数。gc含量(gccontent):在构成一端dna链的4种碱基中,鸟嘌呤g和胞嘧啶c在所有碱基中所占的比率称为gc含量。在双链dna中,腺嘌呤与胸腺嘧啶(a/t)之比,以及鸟嘌呤与胞嘧啶(g/c)之比都是1。但是,(a+t)/(g+c)之比则随dna的种类不同而异。gc含量愈高,dna的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行dna的分离或测定。dna链接(dnaligation):利用生物酶或化学反应的方法将起始dna片段和后续的dna片段连接在一起,成为一个完整的重组分子的过程。本发明涉及一种核苷酸双链的计算机编码方法,没有特别说明,本发明提及的碱基序列都是指5’到3’方向顺序排列的,它包括如下步骤:(1)核苷酸双链编码区的计算机编码方法:a、计算机编码得到m碱基对的碱基完全互补配对的核苷酸双链:设定编码区碱基对长度m,完成计算机编码,得到所有碱基排列组合的上下链完全碱基互补配对的核苷酸双链,m=3、4、5、……、50。b、按照设置的规则对得到的用于编码区的核苷酸双链进行筛选,具体的筛选规则如下:一是核苷酸双链中上链或下链自身不能通过碱基互补配对形成反向互补的双链。二是核苷酸双链中上链或下链的5’端和3’端不能有n个碱基能通过碱基互补配对形成一小段双链,从而让该条核苷酸单链形成发卡形式,n为≥3的整数,具体的,n=3、4、……、(m/2)-1,m是该条单链的碱基长度,m/2取整数部分的值;优选的,m是5到15之内的整数。三是核苷酸双链中的上链和下链在错位o个碱基后不能形成反向互补的双链,o=1、2、……、(m/2)+1,m是该条单链的碱基长度,m/2取整数部分的值;优选的,m是5到15之内的整数。四是核苷酸双链中的gc含量必须是在合适的范围内(如40-60%),具体就是核苷酸双链中每条单链的gc含量在40-60%范围内,也可以说成是核苷酸双链中(a+t)/(g+c)比率在0.67-1.5。五是核苷酸双链之间的最大分子量差异与核苷酸双链的平均分子量之比不能超过0.1%;优选的,不能超过0.02%。分子量差异太大,会在建库过程中给通过lcms判断片段化合物与dna的反应成功与否的判断带来很大的挑战。六是核苷酸双链的上链或下链中不能连续出现3个或3个以上的相同碱基。连续出现多个相同碱基,如ggg或ccc,会使pcr时的错配机率增加。七是核苷酸双链的上链也可以作为另一个核苷酸双链的下链使用(即直接把上链碱基序列的方向从5’到3’调整为3’到5’并作为另一个核苷酸双链的上链),反之下链也可以作为另一个核苷酸双链的上链使用,但是不可有重复的核苷酸双链。八是核苷酸双链集合中各个碱基序列之间的汉明距离需要大于等于2,更优选大于等于3,或更高。汉明距离越大,在后续的pcr过程中发生的碱基错配和突变就越容易被发现,这样pcr得到的碱基序列的数据的准确性就越接近真实值。(2)核苷酸双链配对区的计算机编码方法:a、计算机编码得到a碱基对的碱基完全互补配对的核苷酸双链:设定配对区碱基对长度a,完成计算机编码,得到所有碱基排列组合的上下链完全碱基互补配对的核苷酸双链,a=2、3、4、……、20。b、按照设置的规则对得到的用于配对区的核苷酸双链进行筛选,具体的筛选规则如下:一是核苷酸双链中上链或下链自身不能是回文序列,且每个单链中碱基序列的5’端和3’端能形成发卡结构的碱基数量之和不超过整条单链的碱基总数的50%。二是核苷酸双链中上链或下链自身不能连续含有3个或以上的相同碱基。三是核苷酸双链中上链或下链gc含量在20-80%之间。这样可以保证配对区和编码区的核苷酸双链组合在一起后形成的最终用于dna编码化合物文库的核苷酸双链的gc含量符合要求,也即在40-60%范围内或相差不大。但在只有2个碱基作为配对区碱基序列时,可以不用考虑gc含量这一限制。(3)核苷酸双链编码区和配对区组合得到5’或3’端有突出的核苷酸双链的方法:a、dna编码化合物文库的具有部分双链结构的起始头片段一般是有一条单链有突出的碱基序列,突出的碱基数量是2、3、4、……、20个,该突出的碱基序列包含在我们计算得到的核苷酸双链配对区内。b、第一个循环可与该起始头片段链接的核苷酸双链集合的构建方法如下:首先是配对区核苷酸双链与起始头片段的突出碱基序列的互补链的5’端与编码区核苷酸双链中一条单链的3’端组合,或者是配对区核苷酸双链与起始头片段的突出碱基序列的互补链的3’端与编码区核苷酸双链中一条单链的5’端组合;二是编码区核苷酸双链中另一条互补的单链的3’端与另一套配对区核苷酸双链中的一条单链的5’端组合,或者编码区核苷酸双链中另一条互补的单链的5’端与另一套配对区核苷酸双链中的一条单链的3’端组合;这样就得到了一对上下链部分碱基能完全互补、上链或下链在5’端和/或3’端有突出碱基序列、可以与起始头片段的突出碱基序列互补结合的第一个循环的核苷酸双链的集合。c、第n个循环的核苷酸双链的构建方法如下:首先是把起始头片段与第一个循环的核苷酸双链的组合体看作一个新的起始片段,该起始片段也有一条单链有一个新的突出碱基序列,按照步骤b的构建方法得到第n个循环的核苷酸双链集合,n=2、3、4、……、20。(4)组合后的核苷酸双链集合的筛选方法:再次按照步骤(1)设定的八个规则对组合后得到的核苷酸双链集合进行筛选,组合后的核苷酸双链集合对规则一、四、五、七和八仍然遵守,主要是再次进行规则二、三和六的筛选。(5)步骤(4)得到的n个循环的核苷酸双链集合的两端修饰方法:a、上一个循环核苷酸双链集合的上链的3’端与下一个循环核苷酸双链集合的上链5’端需要含有反应基团和其互补反应基团,基团上可以带有保护集团;上一个循环核苷酸双链集合的下链的5’端与下一个循环核苷酸双链集合的下链3’端需要含有反应基团和其互补反应基团,基团上可以带有保护集团。所述互补是指该反应基团和其互补反应基团在一定条件下可以发生化学反应使两个基团形成共价键连接。b、这些反应基团和其互补反应基团包括磷酸基和羟基,炔基和叠氮基,重氮基和炔基,碘基和硫代磷酸酯基,仲胺基与醛或酮基,氨基与羧酸基,氨基与烷基卤或芳基卤,氨基与烯基或炔基,磷叶立德基团和醛或酮基,环加成反应的双烯和亲双烯体基等,这些反应基团和其互补反应基团都可以带有保护基团或是带有可以通过一步化学反应转化为可以互相反应的反应基团和其互补反应基团的基团。当其中一个反应基团是伯胺时,可以带有保护基,保护基可以是芴甲氧羰基(fmoc)、叔丁氧羰基(boc)、6-硝基藜芦氧基(nvoc)、烯丙氧基羰基(alloc)、邻硝基苯磺酰基(ns)、甲砜基乙氧羰基(msec)、三氟乙酰基(cf3co)等。当其中一个反应基团是仲胺时,可以带有保护基,保护基可以是芴甲氧羰基(fmoc)、叔丁氧羰基(boc)、6-硝基藜芦氧基(nvoc)、烯丙氧基羰基(alloc)、邻硝基苯磺酰基(ns)、甲砜基乙氧羰基(msec)、三氟乙酰基(cf3co)等。当其中一个反应基团是炔基时,可以带有保护基,保护基可以是三甲基硅基(tms)、三乙基硅基(tes)、三异丙基硅基(tips)等。当其中一个反应基团是醛时,可以带有保护基,保护基可以是二甲氧基缩醛、二乙氧基缩醛、乙二醇缩醛等。当其中一个反应基团是酮时,可以带有保护基,保护基可以是二甲氧基缩酮、二乙氧基缩酮、乙二醇缩酮等。当其中一个反应基团是羧基时,可以带有保护基,保护基可以是甲酯、乙酯、异丙酯,叔丁酯等。当其中一个反应基团是环加成反应的双烯和亲双烯体基时,可以是胸腺嘧啶(thymine)和补骨脂素(psoralen)、马来酰亚胺(maleimide)和丁二烯等。(6)步骤(5)得到的n个循环两端修饰的核苷酸双链集合的链接方法:a、两个相邻循环的核苷酸双链集合的两端修饰化学基团,因为两条突出的碱基序列碱基完全互补配对,在合适的条件下,这两个核苷酸双链会迅速杂交成为一个双链复合物,拉近了配对区末端的碱基上的两个化学基团的空间距离,使得它们的有效浓度升高,从而使得原本是分子间的化学反应转化为分子内的化学反应,反应速率大大提高。b、双链杂交成复合物要求突出碱基序列必须严格遵守碱基互补配对原则,没有配对的突出碱基序列上带有的化学基团不会发生分子内反应,因此使得链接具有很好的选择性。其中,步骤(1)得到的是3至50bp的碱基完全互补配对的核苷酸双链作为编码区,优选地,是5至15bp。其中,步骤(1)规则五要求的是不同核苷酸双链之间的分子量最大差值与核苷酸双链的平均分子量之比不能超过0.1%。优选地,不同核苷酸双链之间的分子量最大差值是3,因为完全碱基互补配对的核苷酸双链中a/t=g/c=1,而dna碱基序列中a的分子量是313.21,t的分子量是304.19,c的分子量是289.18,g的分子量是329.21,因而,a+t的分子量(617.4)只比g+c的分子量是(618.39)少1,考虑到gc含量在40-60%,实际上也就是控制核苷酸双链中(a+t)/(g+c)=0.67-1.5的比率,就可以达到控制核苷酸双链集合中分子量差异的目的。以10bp编码区为例,gc最高可以有10bp,最低是0bp,但是符合gc含量在40-60%,只有at是4bp且gc是6bp((a+t)/(g+c)=0.67),或at是5bp且gc是5bp((a+t)/(g+c)=1),或at是6bp且gc是4bp((a+t)/(g+c)=1.5)。其中,步骤(2)得到的是2至20bp的碱基完全互补配对的核苷酸双链作为配对区,优选地,是2至10bp。其中,步骤(3)得到的是5至70bp的部分碱基互补配对的带有突出碱基序列的核苷酸双链,优选地,是7至25bp。本发明提及的碱基对,不做特殊说明时,均不考虑突出的碱基序列长度,只计算完全碱基互补配对的碱基对个数。其中,步骤(3)组合时使用的配对区和编码区核苷酸双链在同一个循环的上链或下链使用的是相同碱基长度的核苷酸链,但是组合后上下链之间的碱基长度可以是一样的,也可以是不一样的,也就是得到的部分碱基互补配对的带有突出碱基序列的核苷酸双链的上下链可以是相同碱基长度,也可以是不同碱基长度。其中,步骤(3)组合得到的核苷酸双链的突出碱基序列可以在上下链的5’端或是3’端,也可以全部在上链或下链的两端,只需要相邻的两个循环的核苷酸双链的配对区可以完成碱基配对即可。其中,步骤(3)组合时不同循环的编码区的碱基长度可以是一样的,也可以是不一样的,同一个循环使用的配对区碱基长度可以是一样的,也可以是不一样的,但是相邻两个循环的核苷酸双链的配对区的碱基长度必须是一样的,才能让两个循环的核苷酸双链完全配对并在一定条件下链接。其中,步骤(4)再次筛选主要是查看组合后的核苷酸链因为碱基长度加长了,新的核苷酸链中有没有新产生的能形成发卡,或连续出现3个或以上的相同碱基,或可以发生错配的情况。其中,步骤(5)得到的是7至70bp的部分碱基互补配对的带有突出碱基序列的,两端碱基序列连有特定化学功能团的核苷酸双链,优选地,是7至25bp。其中,步骤(5)中两端碱基序列连有特定化学功能团在一个循环的核苷酸双链中可以重复使用一种反应基团和其互补反应基团,也可以交叉使用两种或以上的反应基团和其互补反应基团。其中,步骤(6)的链接方式可以是化学链接,也可以是生物酶催化链接。本发明的核苷酸双链的计算机编码方法,它是以计算机编程为基础,综合利用分子生物学、组合化学和生物信息学知识来设置一定的过滤规则得到核苷酸双链的编码区和配对区,它们再通过一定的规则组合在一起,得到的每一个循环的核苷酸双链都具有相似的分子量(分子量差异在3以内),符合分子生物学的引物(primer)设计要求,相邻循环的核苷酸双链之间可以通过突出碱基序列互补配对,并通过两端修饰的具体的化学基团通过化学反应或是生物酶催化的方式进行链接。其中,所述的核苷酸双链碱基序列编码区的长度是3至50bp。优选地,所述的核苷酸双链碱基序列编码区的长度是5至15bp。核苷酸双链碱基序列编码区的长度是5bp,理论上可以得到最多1024个不同的碱基序列的核苷酸双链,该数量的核苷酸双链可用于标记最多1024个用于dna编码化合物文库的片段化合物;核苷酸双链碱基序列编码区的长度是6bp,理论上可以得到最多4096个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是7bp,理论上可以得到最多16384个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是8bp,理论上可以得到最多65536个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是9bp,理论上可以得到最多262144个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是10bp,理论上可以得到最多1048576个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是11bp,理论上可以得到最多4194304个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是12bp,理论上可以得到最多16777216个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是13bp,理论上可以得到最多67108864个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是14bp,理论上可以得到最多268435456个不同的碱基序列的核苷酸双链;核苷酸双链碱基序列编码区的长度是15bp,理论上可以得到最多1073741824个不同的碱基序列的核苷酸双链,该数量的核苷酸双链可用于标记最多1073741824个用于dna编码化合物文库的片段化合物。实际使用中,根据筛选规则得到的符合要求的不同碱基序列的核苷酸双链编码区的数目远远小于计算值,如9bp的核苷酸双链编码区,通过我们的筛选规则,汉明距离大于等于2的有12057个,汉明距离大于等于3的仅仅只有1391个,具体需要多长的核苷酸双链取决于构建dna编码化合物文库时同一类型的需要编码的片段化合物有多少。一般情况下,一个dna编码化合物文库的一个循环的片段化合物的数量不会超过3万个,因此核苷酸双链编码区的长度在15bp的长度已经能满足绝大部分dna编码化合物文库的需求。其中,所述的核苷酸双链碱基序列配对区的长度是2至20bp。优选地,所述的核苷酸双链碱基序列配对区的长度是2至10bp。核苷酸双链碱基序列配对区的长度是2bp,理论上可以得到最多16个不同的碱基序列,排除掉回文序列at、ta、cg和gc,共计有12个不同碱基序列可用于最多6个循环的dna编码化合物文库;核苷酸双链碱基序列配对区的长度是3bp,理论上可以得到最多64个不同的碱基序列;核苷酸双链碱基序列配对区的长度是4bp,理论上可以得到最多256个不同的碱基序列;核苷酸双链碱基序列配对区的长度是5bp,理论上可以得到最多1024个不同的碱基序列;核苷酸双链碱基序列配对区的长度是6bp,理论上可以得到最多4096个不同的碱基序列;核苷酸双链碱基序列配对区的长度是7bp,理论上可以得到最多16384个不同的碱基序列;核苷酸双链碱基序列配对区的长度是8bp,理论上可以得到最多65536个不同的碱基序列;核苷酸双链碱基序列配对区的长度是9bp,理论上可以得到最多262144个不同的碱基序列;核苷酸双链碱基序列配对区的长度是10bp,理论上可以得到最多1048576个不同的碱基序列。实际使用中,根据筛选规则得到的符合要求的用于配对区的不同碱基序列的数目远远小于计算值,如2bp的核苷酸双链,通过我们的筛选规则的,排除掉回文序列at、ta、cg和gc,共计只有12个不同碱基序列;考虑到化学链接时的效率,通过dna模板链接来提高化学链接的效率,此时配对区的碱基长度需要达到6个碱基以上才能保证模板链接的效率。其中,所述的配对区和编码区核苷酸单链组合时,在同一个循环的上链或是下链使用的是相同碱基长度的核苷酸链,但是得到的部分碱基互补配对的带有突出碱基序列的核苷酸双链的上下链可以是相同碱基长度,也可以是不同碱基长度。本发明方法是一种高效的,操作简单,能快速得到足够多数量的部分碱基序列互补配对且带有突出碱基序列的用于dna编码化合物文库构建的计算机编码方法,在dna编码化合物文库构建中应用前景广泛。本发明所述的带有突出碱基序列的部分碱基互补配对的核苷酸双链一般是人工合成得到的。附图说明图1为本发明的一个具体的由配对区碱基序列、编码区碱基序列和两端的化学基团组成的两端带有特定化学基团、核苷酸双链两侧都具有突出碱基序列的部分碱基互补配对的核苷酸双链的示意图。其中,配对区和编码区的碱基序列共有4种组合形式,5’和3’代表核苷酸双链的碱基序列方向,r1、r2、r3和r4表示特定的化学反应基团,m、n是配对区的碱基,x和y是编码区的碱基,x代表上链的碱基,y代表下链的碱基,它们都可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基的核苷酸,m、n表示配对区的碱基个数,m/n=2、3、……、20,k表示编码区的碱基个数,k=3、4、……、50,每条单链中字母之间的连字符“—”表示这些字母代表的化学基团或核苷酸单体是通过共价键链接的,字符的长度不代表共价键的长度,上下链的编码区之间的字母x和y之间的虚线“---”表示上下链的编码区的碱基之间是通过氢键而形成配对,虚线只代表发生了氢键作用,其个数不代表碱基之间的形成氢键的具体个数。图2为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,r1、r2、r3、r4、r5、r6、r7、r8、r9、r10、r11和r12表示特定的化学反应基团,m、n、o和p是配对区的碱基,x和y是编码区的碱基,x代表上链的碱基,y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,前一个循环的上链的3’端突出碱基序列与下一个循环的下链的3’端突出碱基序列是完全碱基互补配对的,r2和r5,r4和r7,r6和r9,r8和r10是反应基团和其互补反应基团,他们可以带有保护基团。图3为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,r1、r2、r3、r4、r5、r6、r7、r8、r9、r10、r11和r12表示特定的化学反应基团,m、n、o和p是配对区的碱基,x和y是编码区的碱基,x代表上链的碱基,y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,前一个循环的下链的5’端突出碱基序列与下一个循环的上链的5’端突出碱基序列是完全碱基互补配对的,r2和r5,r4和r7,r6和r9,r8和r10是反应基团和其互补反应基团,他们可以带有保护基团。图4为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,r1、r2、r3、r4、r5、r6、r7、r8、r9、r10、r11和r12表示特定的化学反应基团,m、n、o和p是配对区的碱基,x和y是编码区的碱基,x代表上链的碱基,y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,第一个循环的上链的3’配对区与第二个循环的下链的3’配对区的碱基序列是互补配对的,第二个循环的下链的5’配对区与第三个循环的上链的5’配对区的碱基序列是互补配对的,r2和r5,r4和r7,r6和r9,r8和r10是反应基团和其互补反应基团,反应基团可以带有保护基团。图5为本发明得到的部分碱基互补配对的核苷酸双链的相邻三个循环的核苷酸双链的配对和链接方法的示意图。其中,r1、r2、r3、r4、r5、r6、r7、r8、r9、r10、r11和r12表示特定的化学反应基团,m、n、o和p是配对区的碱基,x和y是编码区的碱基,x代表上链的碱基,y代表下链的碱基,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,m、n、o、p表示配对区的碱基个数,m、n、o和p可以相同,也可以互不相同,j、k、l分别表示该循环的核苷酸双链编码区的碱基个数,j、k、l可以相同,也可以互不相同,第一个循环的下链的5’配对区与第二个循环的上链的5’配对区的碱基序列是互补配对的,第二个循环的上链的3’配对区与第三个循环的下链的3’配对区的碱基序列是互补配对的,r2和r5,r4和r7,r6和r9,r8和r10是反应基团和其互补反应基团,反应基团可以带有保护基团。图6为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则一的示意图:核苷酸双链中上链或下链自身通过碱基互补配对形成反向互补的同源双链,需要去除,共有2种不同的形式1和2。其中,r1和r2表示特定的化学反应基团,n是配对区的碱基,x代表双链中某一个单链的碱基,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,n表示配对区的碱基个数,m表示该循环的编码区的碱基个数。图7为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则二的的示意图:核苷酸双链中上链或下链的5’端和3’端有o个碱基能通过碱基互补配对形成一小段双链,从而让该条核苷酸单链自身通过形成发卡形式得到部分双链,o=3,4,……,(p/2)-1,p是该链的总的碱基个数,p/2不是整数时,四舍五入取整,需要去除,共有3种不同的形式1、2和3。其中,r1和r2表示特定的化学反应基团,m和n是配对区的碱基,x代表双链中某一个单链的碱基,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,m和n表示配对区的碱基个数,l表示该循环的编码区的碱基个数。图8为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则三的示意图:核苷酸双链中的上链和下链在错位o个碱基后形成反向互补的双链,o=1,2,……,(p/2)+1,p是该链的总的碱基个数,p/2不是整数时,四舍五入取整,需要去除,共有3种不同的形式1、2和3。其中,r1、r2、r3和r4表示特定的化学反应基团,m和n是配对区的碱基,x和y代表双链中某一个单链的碱基,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,m和n表示配对区的碱基个数,l表示该循环的编码区的碱基个数。图9为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则四和五的示意图:一个循环内,核苷酸双链之间的最大分子量差异与该循环内核苷酸双链的平均分子量之比不能超过0.1%。优选地,一个循环的核苷酸双链的最大分子量差异不能超过3,而a+t的分子量(617.4)只比g+c的分子量(618.39)少1,考虑到gc含量在40-60%,实际上也就是控制核苷酸双链中(a+t)/(g+c)的比率在0.67-1.5之间即可达到控制核苷酸双链集合中分子量差异的目的,以10bp编码区为例,gc最高可以有10bp,最低是0bp,但是符合gc含量在40-60%,只有at是4bp且gc是6bp((a+t)/(g+c)=0.67),或at是5bp且gc是5bp((a+t)/(g+c)=1.0),或at是6bp且gc是4bp((a+t)/(g+c)=1.5),该核苷酸双链的最大分子量差异是2。图10为本发明对编码区和配对区组合后得到的部分碱基互补配对带有突出碱基序列的核苷酸双链的筛选规则八的示意图:核苷酸双链集合中各个碱基序列之间的汉明距离需要大于等于2,优选地,汉明距离大于等于3。其中,图示的两条链都是该集合中的上链,r1和r2表示特定的化学反应基团,m是配对区的碱基,x和y代表双链中某一个单链的碱基,x和y是不相同的,y不一定需要在连续出现,可以在编码区随机出现,这些碱基可以是核苷酸链中常规核苷酸a、t、c和g或他们的组合得到的简并碱基或人工修饰过的碱基,m表示配对区的碱基个数,l表示该循环的编码区的碱基个数。具体实施方式下面将结合附图对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例1,两个突出碱基序列均在单链的3’端的编码区为9bp且汉明距离大于等于4的核苷酸双链的计算机编码方法1、编码区为9bp且汉明距离大于等于4的核苷酸双链的计算机编码方法本次编码采用软件shell和python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列完全相同的话,应该理解为在本发明专利保护范围内。具体的代码如下:得到的汉明距离大于等于4的核苷酸双链共632对具体碱基序列。2、配对区为2个碱基的计算机编码方法因为只有4个碱基,通过简单的数学的排列组合方法就可以得到16个2个碱基的排列组合和他们的互补配对的碱基序列,但是因为配对区和编码区组合得到的核苷酸双链不具有方向性,上下链颠倒过来仍然可以被识别和配对,因此,我们把上链碱基序列和下链碱基序列是相同的去除,具体得到10对碱基序列,其中at、ta、cg和gc是短的回文序列,应去除,最终得到6组配对区碱基序列,不重复使用的情况下,理论上可以用于6个循环的dna编码化合物文库的构建,这6组碱基序列具体如下:配对区核苷酸双链编号配对区核苷酸双链上链(5’->3’)配对区核苷酸双链下链(5’->3’)b2-01aattb2-02acgtb2-03agctb2-04tcgab2-05tgcab2-06ccgg3、配对区碱基序列的5’端和编码区核苷酸单链的3’端组合方法本次操作使用的是microsoftofficeexcel的2007版本,利用excel上面的排列和组合功能,把具体的配对区碱基序列组合到编码区的核苷酸单链上,这里以三个循环的核苷酸双链为例,先确定三个循环的突出的碱基序列,我们随机选择三组配对区碱基序列并认定如下:循环数上链3’端突出碱基序列(5’->3’)下链3’端突出碱基序列(5’->3’)1gtct2gaac3tttc4、配对区和编码区的碱基序列组合在一起的核苷酸双链进行筛选的计算机编码方法本次编码采用软件shell和python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列相同的话,应该理解为在本发明专利保护范围内。具体的代码如下:得到的汉明距离大于等于4的,配对区和编码区组合后满足筛选条件的核苷酸双链碱基序列283对。5、对各个循环的核苷酸双链的两端进行修饰,得到最终可用于dna编码化合物文库构建的核苷酸双链由于核苷酸双链的共价连接可以通过生物酶链接,也可以通过化学链接,这里以最简单的生物酶链接需要的功能团为例,5’端用磷酸修饰,3’端是核苷酸自身带有的oh,最终得到的修饰后可用于dna编码化合物文库构建的核苷酸双链的碱基序列如下:实施例1得到的带有两个突出碱基序列均在单链的3’端、编码区为9bp且汉明距离大于等于4的核苷酸双链,可以通过生物酶链接来参与dna编码化合物文库构建,因为突出碱基序列的存在,生物酶链接效率大大高于平齐末端的核苷酸双链,因为汉明距离大于等于4,该套核苷酸双链在pcr和测序过程中即使发生突变,也不会影响最终测序数据的准确性,不需要再用完全匹配(perfectmatch)的办法来解析测序数据,通过近似匹配的办法即可,会大大提高测序后数据的有效数据量,减少因为pcr和测序过程中碱基发生突变导致的大量测序数据直接被丢弃,不能解析的问题,减少了因此导致的很好吸附的小分子没有被找到的担忧。实施例2,两个6个碱基的突出均在单链的3’端的、编码区为6bp且汉明距离大于等于4的核苷酸双链的计算机编码方法1、编码区为6bp且汉明距离大于等于4的核苷酸双链的计算机编码方法本次编码采用软件shell和python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列完全相同的话,应该理解为在本发明专利保护范围内。具体的代码如下:得到的汉明距离大于等于4的核苷酸双链共28对。2、配对区核苷酸双链为6个碱基(overhang)的计算机编码方法本次编码采用软件shell和python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列完全相同的话,应该理解为在本发明专利保护范围内)。具体的代码如下:得到具体的核苷酸双链配对区碱基序列2128对。3、配对区碱基序列的5’端和编码区核苷酸单链的3’端组合方法本次操作使用的是microsoftofficeexcel的2007版本,利用excel上面的排列和组合功能,把具体的配对区碱基序列组合到编码区的核苷酸单链上,这里以三个循环的核苷酸双链为例,我们选定三个循环的突出碱基序列如下:循环数上链3’端突出碱基序列(5’->3’)下链3’端突出碱基序列(5’->3’)1acacagactagc2tctgacctgtgt3cgtacagtcaga4、配对区和编码区的碱基序列组合在一起的核苷酸双链进行筛选的计算机编码方法本次编码采用软件python语言,但是采用其他相似软件,使用相似的编码方法得到的具体的核苷酸双链的碱基序列如果与本发明的碱基序列相同的话,应该理解为在本发明专利保护范围内。具体的代码如下:筛选后得到具体的核苷酸双链14对。5、对各个循环的核苷酸双链的两端进行修饰,得到最终可用于dna编码化合物文库构建的核苷酸双链由于核苷酸双链的共价连接可以通过生物酶链接,也可以通过化学链接,这里选定5’端用磷酸修饰,3’端是核苷酸自身带有的oh,最终得到的修饰后的碱基序列如下:实施例2得到的两个6个碱基的突出均在单链的3’端的、编码区为6bp且汉明距离大于等于4的核苷酸双链,可以通过化学链接的方法用于dna编码化合物文库的构建,因为两条突出的6个碱基完全互补配对,之间的氢键数量在12-18个之间,95℃退火5分钟后这两个核苷酸双链会迅速杂交成为一个双链复合物,拉近了配对区末端的碱基上的两个化学基团的空间距离,使得它们的有效浓度升高,从而使得原本是分子间的化学反应转化为分子内的化学反应,通过氰基咪唑和zn2+催化的化学链接可以大大提高反应速率,汉明距离大于等于4的优点在实施例1中已经阐明,这里不再累述。综上所述,上述各实施例及附图仅为本发明的较佳实施例而已,并不用以限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,皆应包含在本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1