合成基因设计的计算方法

文档序号:6478637阅读:760来源:国知局

专利名称::合成基因设计的计算方法
技术领域
:本发明涉及用于诸如植物等异源生物体中表达的合成基因的设计方法,包括计算机实现的方法,也包括用于执行本发明方法的计算机系统。
背景技术
:如植物细胞的异源宿主中的外源基因表达已很难,并经常无法获得产品的可检测的表达(Fischhoff等(1987)生物/技术5:807_813;Vaeck等(1987)自然328:33_37)。对贫乏表达的解释包括加工位点的偶然存在,导致在转基因宿主细胞中非功能mRNA转录物;相较于原始宿主在植物中不同的密码子使用;以及在基因序列的GC含量和由此产生的初级RNA转录物中的不同。沿着双螺旋结构的双碱基组成DNA结构。众所周知,不同生物体的总DNA具有四种核苷酸腺嘌呤(A)、胸苷(T)、鸟苷(G)以及胞苷(C)的不同分布。在DNA螺旋结构中,腺嘌呤和胸苷通过氢键结合形成一个“碱基对”(“AT碱基对”)。同样,鸟苷仅和胞苷形成碱基对(“GC碱基对”)。这种AT碱基对与GC碱基对的比例通常被称为“GC含量”,其为由GC碱基对(相对于AT碱基对)构成的总碱基对的百分比。同样,“AT含量”是指AT碱基对构成的碱基对的百分比。GC含量不仅在不同生物体中不同,而且在基因组的DNA不同区域中不同,甚至在例如植物基因的一个基因的不同区域中不同。植物内含子有大约70%AT(30%GC)含量,而外显子有大约50%AT(50%GC)含量(Wiebauer等(1988)Mol.CellBiol.8:2042_2051)。由于在植物中表达苏云金芽孢杆菌(Bt)杀虫剂蛋白的困难性,各种在转录植物中较高水平表达的合成基因已被设计。Adang等(美国专利号5380831,6015891)描述了设计合成Bt杀虫蛋白以在植物中具有增强的表达,通过修饰基因以包含高水平表达的植物基因优选的密码子进行所述设计。根据在被高水平表达的植物基因中所用的密码子使用分布频率来选择密码子使用。Adang等(美国专利号5567600)进一步描述了类似的方法,其中修饰包括减少在植物多腺苷酸化信号之间区域中的密码子位置II和III中具有GC的密码子数量。备选地,修饰可导致较少地发生序列AATGAA(SEQIDNO:1)。Fischhoff等(美国专利号5500365)揭示了修饰的Bt基因,其移除了植物多腺苷酸化序列以及ATTTA(SEQIDNO2)序列。Koziel等(美国专利号6320100)揭示了为在植物中优化表达而选择的合成Bt杀虫蛋白,其使用的密码子在玉米中最频繁地编码每一氨基酸,并具有60%的GC含量。发明概述提供了产生编码感兴趣的多肽的合成核苷酸序列的方法。这些方法如下产生优化的合成基因序列计算在DNA序列数据库中的连续短核苷酸区段的发生概率,并且然后使用这些概率通过用高概率序列代替在候选转基因中的低概率核苷酸序列来产生合成序列。这优选不改变编码蛋白质的氨基酸序列来完成。重要地是,此统计方法能够产生转基因,其经优化在目标生物体表达而不需要在目标生物体中的加工位点或其他表达决定因素的特定知识。这些方法包括⑴序列数据库的开发;(2)选择一连续核苷酸长度(“N长度”)作为优化(“N长度寡核苷酸”)的基础;(3)组织序列数据库作为N长度寡聚物序列集合;(4)选择一输入序列;(5)为输入序列开发沉默NLSs(“SNLS”)集合;以及(6)在SNLS的选择中优化以生成一被优化的基因序列。这些方法可以备选地或另外包括移除不期望的可读框,和/或修饰感兴趣的核苷酸序列以移除不期望的短的共有核苷酸序列,和/或所得优化基因获得期望的GC含量,而不考虑密码子使用。本发明的方法可用于产生在生物体、特别是植物和细菌中理想表达的核苷酸序列以提供杀虫或除草剂耐抗性活性。这些生物体被期望用于农业目的。本发明的方法可用于产生具有杀虫或除草剂抗性活性的改变的或改进的蛋白质,或者用于检测在产品或生物体中杀虫或除草剂抗性蛋白质或氨基酸的存在。图1所示为NLRs,NLS以及delta表之间关系的图示。此图中的A,B,C,D以及E代表了在长度为5(N=5)的核苷酸区域中的假定位置。此图示出可为该NLR生成的NLSs的子集。因此,对于所有长度为5的NLRs,有4’个可能的NLSs(在位置A处为A,T,G,或C;在位置B处为A,T,G,或C;等等)。图2所示为NLSs的确定的图例。发明详述合成基因设计的先前方法通常分为两类。第一类使用诸如多聚腺苷酸化信号的加工信号的特定知识来设计在目标生物体具有更高表达概率的转基因(例如FischhofT等)。此策略仅被应用于这种加工信号的特定实验性知识是可用的情况下。另外,被表达基因的加工决定因素的不完整的知识会导致转基因的不当修饰,导致目标生物体中较少或没有表达。第二类方法完全依赖于密码子偏倚和/或GC含量修正以改进转基因表达(例如Koziel等,Adang等),而不管高级DNA序列决定因素(如ATTTA,AATGAA)的重要作用的充分证据。本发明描述了设计编码感兴趣的多肽的合成核苷酸序列的方法。所述方法包括(1)组织一序列数据库作为N长度寡聚物序列集(“NLSs”)的集合;(2)通过确定和编译所有可能NLSs群体间的每一NLS的被观察到的概率生成一NLS统计表;(3)为感兴趣的序列产生NLRs集合;(4)确定没有破坏可读框的NLSs(“沉默NLSs”,或者“SNLS”)的集合;以及(5)优化在SLNS集合之间的选择以生成被优化的核苷酸序列。在本发明的另一方面,分析和调整感兴趣的核苷酸序列以移除下面两者或其中之一(1)非期望的可读框或者(2)非期望的短DNA元件。“非期望的0RF”是不同于亲本序列且通过用本发明的方法修饰序列而来的0RF。“非期望的短DNA元件”包括引入目标生物体非理想表达结构的DNA序列。短DNA元件的示例在本文别处讨论。这些方法可用于优化任何生物体、特别是植物中的异源基因的表达。此方法生成合成基因,其组成与目标数据库的相似。这些合成基因可被用于,例如在生物体、尤其是在植物或植物细胞中调节杀虫活性或除草剂抗性。定义为了清楚地理解本发明,给出如下定义“合成”的意思是不在自然界发生。为了本发明的目的,合成序列不意在包含通过自然发生突变而生成或通过化学或生物机制如位点定向诱变诱导的突变而来的序列。在一些实施方案中,合成核苷酸序列是或是指在它整个或绝大部分编码区域被化学地合成。化学合成核苷酸序列的方法在本领域中已知(参见,例如Ausubel等,编著。分子生物中的现代协议(2000)第8.2B章节,卷1,JohnWiley&Sons,纽约;Xiong等(2004)氨基酸研究,32:e98;Ovchinnikov等(1984)基因31:65_78;Khudyakov等(1993)氨基酸研究,212747-2754)。合成序列包括核苷酸序列,其在至少大约1%,至少大约5%,至少大约10%,至少大约15%,至少大约20%,至少大约25%,至少大约30%,至少大约35%,至少大约40%,至少大约45%,至少大约50%,至少大约55%,至少大约60%,至少大约65%,至少大约70%,至少大约75%,至少大约80%,至少大约85%,至少大约90%,至少大约95%,或至少大约100%的相对于亲本序列的核苷酸位置与天然发生的亲本序列不相同。要认识到核苷酸序列可以在序列一定区域内被优化,其序列剩余部分相对于亲本序列保持不变。为了本发明的目的,术语“合成的核苷酸序列”以及“优化的核苷酸序列”可互换使用。“N长度区域”,或“NLR”表示对应于感兴趣的核苷酸序列的一个区域的长度为N的连续核苷酸序列。例如,一个NLR可以是从大约1到大约100的核苷酸长度,或者是从大约2到大约50,或从大约3到大约40,或从大约4到大约30,或从大约5到大约20,或从大约6到大约15,或者大约10的核苷酸长度。在一些实施方案中,NLR在长度上大于或小于3个核苷酸。“N长度序列”或者“NLS”表示任何N长度的连续核苷酸序列。对于任何给定的优化运行,每一NLS的长度等于每一NLR的长度。如图1所示。在此例中,感兴趣的核苷酸序列被12个核苷酸代表,并且每一NLR长度为5个核苷酸。因此,每一NLR的每一NLS也是5个核苷酸长度。可以理解这里描述的方法能够被用于从单个感兴趣的核苷酸序列生成单个优化的序列,以及从单个感兴趣的核苷酸序列生成多个不同的优化序列。产生多个不同被优化的序列时,在每一个优化运行中一个或多个优化参数被改变以使不同被优化的序列从运行中产生。一个这样可被改变的参数就是NLS和NLR中“N”所代表的值。这里揭示的方法的步骤在随后的模块中进行阐述。模块Α,开发目标数据库本发明的方法需要一个核苷酸序列目标数据库。“目标数据库”可为一个或多个核苷酸序列的任何数据库,例如GENBΑΝΚ核苷酸数据库,某一属或种特定的序列数据库(如玉米特定的数据库,黄豆特定的数据库,动物特定的数据如人,实验,或农业动物特定的数据库等),或者特定用户相关的传统核苷酸序列数据库。在一个实施方式中,目标数据库包括所感兴趣的有机体的编码序列的集合。序列数据库可被组织为任何形式或文件类型,例如以FASTA格式文件的文件形式,或者以计算机可读形式的序列文件的文件夹形式。模块B,组织作为N长度寡聚物序列集的数据库在本发明的此方面,以NLS统计表(或者“NLSStatsTable")的形式从目标数据库中组织数据。通过设置“N”长以及确定数据库中代表每一可能N长度片段的频率生成NLS统计表。N的值可基于目标数据库的容量(即所有在该数据库中的序列)任意选择。通常地,长些的NLR序列比短些的NLR序列捕获更多的信息,但NLS统计表条目数目被序列长度控制,并且过长的表会减缓算法执行以及降低统计精确度。一个空NLS统计表通过首先列出每一个η长度的可能序列而生成。例如,对于η=5,NLS统计表会有1024个条目(AAAAA,AAAAC,AAAAG.··TTTTT(分别地,SEQIDNO:3_6)。NLS统计表可通过计算数据库中所代表的每一NLS计数次数而被编译,例如通过使用“滑动窗口”算法扫描数据库中每一个序列。备选地,NLS统计表可通过使用任何其他统计学上合理策略被编译,例如从数据库中随机抽样短序列。滑动窗口算法在本领域中是已知的。在一个实施方案中,算法通过一次滑动一个或多个核苷酸而在目标数据库中沿着每一序列移动以编译NLSs列表。例如,在一个假定目标数据库(包括由AGTGCAAGTACGTAA(SEQIDNO7)所代表的核苷酸序列,其中N被设为5)中,第一个NLS是AGTGC,第二个NLS是GTGCA,第三个NLS是TGCAA,等等。在目标数据库中的每一个序列被编译为NLSs集。滑动窗口算法计算来自空NLS统计表的每一NLS在数据库中代表的次数。例如,算法扫描所有序列并计算NLS“AAAAA”,NLS“AAAAC”,NLS“AAAAG”出现在数据库中的次数等等。此原始计数被在数据库中观测的NLSs总数相除以得到一个观测频率值。对于每一NLS,计算概率得分,其代表每一NLS相对于在目标数据库中期望发生频率的观测频率。在一个例子中,将概率得分转变为对数概率得分并且等于Iogltl[数据库中NLS观测频率/数据库中NLS期望频率]。期望频率的计算方法可不同。在一方面,每一核苷酸被认为同样可能。在这种情况下期望频率将为0.25N,其中N是上述NLR/NLS指定的长度。因此,对于在前提及的5-merNLS(AGTGC),其期望频率将为0.25n=0.0098。在另一实施方案中,基于目标数据库中每一核苷酸相对频率的一个频率被使用。每一核苷酸的相对频率被计算作为目标数据库(对于该核苷酸的“数据库频率”)中整个所有序列(全体地)中的核苷酸G,C,T和A的分数表示。在这种情况下,为每一N长度序列计算NLS的期望频率通过(1)对于NLS每一位置,记录该位置(A,G,C,或T)上代表的核苷酸的数据库频率;以及然后(2)计算那些数据库频率乘积以为整个NLS生成期望频率。例如,如果整个数据库基本组成是A=0.20,G=0.30,T=0.20,C=0.30,NLS“AGTGC,,的期望频率将为0.2X0.3X0.2X0.3X0.2=0.00072。在数据库中特定NLS观测频率大于被计算的期望频率的情况下,被观测/被期望的比率大于1并且对数概率得分是正数。在观测频率小于期望频率的情况下,该比值小于1并且对数概率得分是负数。因此,对于每一NLS,正的对数概率意味着NLS比统计学上期望的更频繁地被观测到,并且负的对数概率意味着NLS比统计学上期望的更加不经常地被观测到。在给定NLS没有在数据库中被观测的情况下(即观测频率为0),使用近似值。在一个例子中,观测频率设为[1/1+数据库中被观测的NLSs总数]。在另一个例子中,选择低于NLS统计表中最低观测频率的任意值。从而,未被观测的NLSs典型地相对于被观测的NLSs具有非常低的概率得分。记分模块在本发明的一方面,模块B被用于评估特定序列(或多个序列)与NLS统计表的适合度。例如,感兴趣的序列可被扫描以寻找低得分区域,或者计算整个序列的累积得分。此累积得分可被用于,例如比较编码相同氨基酸的两个不同核苷酸序列以确定哪一个序列更适于在目标生物体中表达。尽管不被任何特定的理论或机制所束缚,可提议具有低得分区域优势的序列(或具有更低累积得分序列)比具有更高得分区域优势的序列(或具有更高累积得分序列)在目标生物体中有更低水平的表达。一种评估序列与NLS统计表的适合度的方法包括a.提供一NLS统计表(如为目标生物体的NLS统计表,感兴趣的序列在其中被表达);b.识别感兴趣序列中的每一个NLR,例如使用如上所述的滑动窗口算法;c.为每一NLR读出在该位置的NLS;d.使用NLS统计表寻找在步骤b和c鉴定的每一NLS的对数概率得分。该NLS概率值被用作为在感兴趣序列中每一NLR位置的概率值。e.对所有NLR位置的对数概率得分求和以为感兴趣的序列生成一个总得分。注意求和的对数得分与基础(非对数)概率值相乘是等同的。f.该方法为整个序列提供一个累积得分。另一种评估序列与NLS统计表的适合度的方法涉及在感兴趣的较大序列中寻找低得分片段。此低得分片段可代表转基因表达的重要障碍,或者足以破坏表达。该方法包括a.细分一感兴趣的序列为更小的片段。这些片段可重叠。例如,一个IOOObp序列可被分为多个50bp片段;b.使用与上述相似的方法对这样鉴定每一片段记分;c.为每一片段记录分值;d.对在该序列中等同于最低计值的片段的全序列赋予一个分值。模块C.优化模块当感兴趣的核苷酸序列是一感兴趣蛋白质的编码序列时,评估每一给定NLR的所有可能列表以及鉴定那些不破坏可读框和/或经编码的氨基酸序列(即关于蛋白质翻译是“沉默的”)的NLSs将是必要的。这里所涉及的这些NLSs集合称作沉默NLSs列表或“SNLS”。在本发明的一方面,SNLS列表通过使用感兴趣的整个序列作为翻译和评估的基础来生成。该方法包括a.对于感兴趣序列中的每一NLR,在该位点上将每个可能的NLS取代初始的感兴趣的序列。例如,对于η=5,存在1024个可能的序列(AAAAA,AAAAC,AAAAG...ΤΤΤΤΤ)。b.将整个感兴趣的初始序列以及新生成的取代序列翻译成氨基酸序列。c.比较两个氨基酸序列。如果两个翻译是相同的,取代被认为是沉默的并且在这一轮用到的NLS被加到针对那个NLR位置的SNLS列表。d.在评估每一可能NLS后,该位置的SNLSs列表被完成。在本发明的另一个方面,SNLS列表通过执行仅仅有限的翻译和在被检查NLR的附近进行比较来被生成。该方法相对于上文所述的方法在计算上是优选的。该方法包括a.为感兴趣序列中的每一NLR,建立NLR周围的翻译框内窗口。这如下完成通过在5'和/或3'方向扩展NLR,使得i)区域长度变为3倍(以适应遗传密码的三联体性质),并且ii)扩展区域的开始位置与初始全长序列(即亲本序列)的翻译框架在框内。b.使用对应于扩展区域的亲本序列作为基础序列,在对应于步骤a中起始NLR的位置上将每个可能的NLS取代该基础序列。c.翻译初始基础序列以及新生成的取代序列至氨基酸序列。e.比较两个氨基酸序列。如果两个翻译是相同的,该取代被认为是沉默的并且将在该轮中使用的NLS加到针对那个NLR位置的SNLS列表中。f.在评估每一可能NLS后,该位置的SNLS的列表完成。在本发明的另一个方面,SNLS列表通过首先为每一NLR创建翻译的肽,而后从所有可编码翻译的肽的简并核苷酸序列集合中选择SNLS成员而被生成。该方法包括a.为感兴趣序列中的每一NLR,在其周围建立一可翻译的框内窗口。这如下完成在5'和/或3'方向扩展NLR,使得i)区域长度变为3倍(以适应遗传密码的三联体性质),并且ii)扩展区域的开始位置与初始全长序列的翻译框架在框内。b.使用对应于扩展区域的亲本序列作为基础序列,生成一目标氨基酸序列(即翻译该区域的初始核苷酸序列)。c.生成编码目标氨基酸序列的所有核苷酸序列集合。由于遗传密码的冗余性,该序列集被认为是“简并的”。d.从简并的序列集合,识别并记录在对应于步骤a中初始NLR的位置中的N-长度序列。e.在步骤d中识别的所有NLSs列表,减去任何重复就是该位置的SNLS列表。下一步,使用该NLS统计表对每个SNLS的得分赋予分值,并且对每个SNLS计算delta得分。“delta得分”或“Δ”代表感兴趣的核苷酸序列的NLR初始序列与每一对应SNLS之间概率得分的差异(Δ=沉默-初始)。因此,正delta得分指示了SNLS相比初始序列更类似于目标数据库中的序列(具有更高概率得分),并且delta得分的幅度对应于在目标数据库中观测的偏差度。然后,对于每一NLR,SNLSs列表按delta得分从最高到最低排序。为个别的NLR生成的SNLSs列表在这里被称作该特定NLR的“对应SNLS列表”。这样,每一NLR都有其自己对应的SNLS列表。为了优化序列,通常的策略是用具有最大delta得分的SNLS代替每一NLR的初始NLS0这些取代的净效果是使得初始序列的总体组成更接近于目标数据库中的序列组成。与此同时,初始序列的低得分子片段被更高得分片段所代替,而保留整个序列的初始翻译。一个执行该模块步骤的示例算法可包括如下步骤1)为操作序列,设置序列作为“输入序列”。2)基于用于该NLS统计表的N-长度来开发在该输入序列中所有NLR位置的列表。典型地,在一个序列中存在着[L-N+1]个NLR位置,其中L是该初始序列的长度。3)为每一NLR生成一个相应SNLSs列表。4)通过检查每一对应SNLSs列表为整个序列选择最高得分SNLS(如有最高delta得分的SNLS)。在相同delta得分的情况下,最5’位置被首先使用。5)为具有最高得分SNLS的NLR,将该NLR序列设定为对应于最高计分SNLS的序列。6)暂时地“锁定”与刚刚改变的位置重叠的任何NLR,包括自身改变的NLR。要求这个步骤来防止“翻转”或其中一个单一的限定区域通过重叠取代被改变回去的其他循环过程。在该轮优化的剩余部分的过程中被锁定的NLR不被认为是NLS取代。然而,它们在随后的循环中被解锁以允许该序列的全部优化。7)从剩余的解锁NLR的列表以及对应的SNLS列表中选择该整个序列的最高计分SNLS。8)重复步骤5至7直到序列中的每一个NLR处于(1)被锁定,或(2)已经包含其位置最高得分SNLS。在此,优化的一个循环完成。9)解锁整个序列。10)使用上面描述的NLS统计表为整个序列生成得分。11)从步骤1开始重复优化步骤,使用先前循环的序列作为输入序列。12)继续重复步骤1至11(即执行顺序优化循环)直到两个连续的循环产生同样的得分序列。这表明无进一步优化可能。13)从最后循环中输出序列作为“完全优化的序列”。在本发明的另一方面中,直接从经翻译的亲本序列的氨基酸序列中进行初步的一轮优化。这种方法包括a.将该整个亲本序列翻译成一个氨基酸序列。b.将该整个经翻译的基因分成多个邻接的肽段。每个肽段的长度可以在从1个氨基酸至经翻译的基因的整个长度之间(其中每一段是相同长度的)。用现有计算机系统优选大约3至大约10个氨基酸的长度。c.对于每个肽段,产生对该片段进行编码的所有核苷酸序列的一个集合(一个简并序列的集合)。d.使用该目标数据库生成的NLS统计表来对因此生成的每个简并核苷酸序列进行计分(参见模块B)。使用在以上说明的“计分模块”中披露的方法来计算该得分用于序列的子段计分。e.对每个肽片段选出最大计分的核苷酸序列并且按顺序装配这些序列。f.通过以上说明的额外的优化作用来通过该初步装配的序列。在随后的任选的过程中(模块D和E),进一步分析并调节从模块C得到的优化序列以去除任何无意的可读框或不令人希望的短DNA序列。模块D.去除不令人希望的短DNA序列在本发明的一个方面中,从该优选的序列中去除代表或据信能够代表不理想特征的某些短DNA序列。此类短DNA序列可以包括某些限制性酶识别序列、多腺苷酸化序列、5’和/或3’剪接识别位点、等等。这些元件可以由特定的使用者进行定义。在本发明的一方面中,通过扫描不令人希望的元件的序列并且用不同的NLS从与这些短序列重叠的NLR替换NLS、从而破坏该短核苷酸序列,从该核苷酸序列中去除此类短DNA序列。优选地,用对总得分具有最低影响的NLS取代与该不令人希望的元件相重叠的NLS0在本文其他地方讨论了计算总分的方法。在编码DNA序列的优化作用的情况下,只允许SNLS取代,并且不允许引入假(即,无意的)0RF的取代。典型地重复这个循环,直至没有不令人希望的位点留下,尽管可能没有必要去除每个不令人希望的序列。短DNA序列的去除典型地是在根据本文中模块A、B和C的优化过程中或之后进行的,或可以在这些模块中任一者的缺失下进行。在本发明的一个方面中,可以将特定的不令人希望的序列(如多腺苷酸化位点)从一个优化序列中去除。按照这种方式,在这种知识是可获得的情况下,该方法可以实现大体上的优化以及特异性位点校正。多腺苷酸化位点的实例包括但不限于AATAAA、AATATT,AACCAA,ATACTA,AATGAA,GATAAA,ATATAA,ATAAAA,ATTAAT,AATAAT,AATAAG,AATCAA、ATGAAA、AAGCAT、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、以及CATAAA(分另Ij是SEQIDNO:8至11、1、以及12至26)(参见,例如,Zhaoetal(1999)Microbiol.MoI.Biol.Rev.63405-445)。<0}植物特异性多腺苷酸化位点说明于Joshi(1987)NucleicAcidsRes.15:9627_9640和Rothnie(1996)PlantMoI.Biol.32:43_61中。原核多腺苷酸化位点讨论于Sarkar(1997)Annu.Rev.Biochem.66:173_197中。聚合酶终止信号包括但不限于(CAN)7-9AGTNNAA(参见,例如VankanandFilipowicz(1988)EMBOJ.7791-799)。共有的剪接位点包括但不限于5’-AAG=GTAAGT以及3’-TTTT(Pu)TTT(Pu)T(Pu)T(Pu)T(Pu)TGCAG:C(参见,例如Brownetal.(1986)EMBOJ.52749-2758;HanleyandSchuler(1988)NucleicAcidsRes.16:7159_7176)。剪接位点最恒定的残基是5‘-GT和3'-AG。这个优化的核苷酸序列也可以通过用NLS进行取代来进行进一步修饰,这些NLS具有生成稳定的RNA二级结构的更低概率。此类二级结构包括但不限于发夹环(转折结构)。能够形成发夹环的序列包括但不限于CUUCGG(SEQIDNO:27)和UCUUCGG(SEQIDNO:28)(参见,例如Tuerketal.(1988)Proc.Natl.Acad.Sci.U.S.Α.851364-1368)。此外,该优化序列可以通过消除不需要的短核苷酸共有序列(如限制性核酸内切酶的识别位点、多腺苷酸化序列、5’和3’剪接识别序列等)的发生进行进一步优化。模块Ε.去除额外的ORF在本发明的另一方面中,从该优化序列中去除不编码感兴趣的蛋白质的可读框(ORF)。这种不令人希望的或“假的”ORF是通过用破坏该假ORF的NLS替换在假ORF内部的NLR位置上的NLS而实现的。“内部NLR”是落在该假ORF的边界内的NLR,如该感兴趣的序列的全框翻译所鉴定。在这个实施方案中,针对假ORF的存在对该序列进行扫描。下一步,鉴定在假ORF内部的NLR位置。对在这些NLR位置上的SNLS取代进行评估,并且基于如以上说明的δ得分选出破坏该假ORF的那些SNLS取代。典型地,选择了对总得分具有最低影响的SNLS。因为只考虑了SNLS,选择在不中断该初始ORF的同时破坏任何假ORF的取代。可以将这个循环重复以生成越来越完美的优化序列,或直至去除具有长度大于约1000、约900、约800、约700、约600、约500、约400、约300、约200、约100、或大于约75个核苷酸的假ORF。模块F.GC含量的优化在本发明的又一个方面中,可以进一步改变该优化的核苷酸序列以调节该优化序列的GC含量。通过用具有不同GC含量的NLS取代在NLR上的NLS可以实现该改变。不应当允许引入假ORF或不令人希望的短DNA序列的取代。在一个实例中,检查了所有NLR上的所有可能的SNLS,并且鉴定出当改变净GC含量时对总得分具有最小影响的那些SNLS。用如以上说明的锁定进行反复取代,直至该基因的总GC含量达到一个目标阈值,例如GC含量为大约40至大约60%,例如大约60%、大约59%、大约58%、大约57%、大约56%、大约55%、大约54%、大约53%、大约52%、大约51%、大约50%、大约49%、大约48%、大约47%、大约46%、大约45%、大约44%、大约43%、大约42%、大约41%、大约40%、大约39%、或大约38%。在一个实施方案中,该优化核苷酸序列的GC含量是均勻遍及该整个核苷酸序列的。通过“均勻遍及”一词,该核苷酸序列是要指该全长优化序列的任何定义的子段的GC含量具有一个GC含量,该GC含量类似于该全长优化序列的任何其他定义子段的GC含量。通过“类似于”该GC含量,它是要指参比子段的GC含量是在大约20%内、大约19%内、大约15%内、大约10%内、大约9%内、大约8%内、大约7%内、大约6%内、大约5%内、大约4%内、大约3%内、大约2%内、大约1%内,或小于相比较的参比部分的亚部分的GC含量。计算机实现的方法以上说明的用于生成合成的核苷酸序列的方法可以通过使用计算机程序或计算机实现的方法来全部或部分地进行。本发明的计算机程序和计算机程序产品包括计算机可用的介质,其在其中存储控制逻辑,用于使计算机生成对感兴趣的多肽进行编码的合成的核苷酸序列。在一个实施方案中,该计算机程序包括计算机可用的介质,在其中存储有控制逻辑,用于使计算机生成NLS统计表,该控制逻辑包含用于使该计算机接受通过输入装置输入的外部信息的第一代码,其中该外部信息包括DNA序列的数据库以及η长度的指定值。控制逻辑也被称作计算机可读的和/或计算机可执行的代码。在另一个实施方案中,该计算机程序包括计算机可用的介质,在其中存储控制逻辑,用于使计算机生成对感兴趣的多肽进行编码的优化的核苷酸序列,该控制逻辑包括用于使该计算机接受通过输入装置输入的外部信息的第一代码,其中该外部信息包括NLS统计表、以及有待优化的核苷酸序列。控制逻辑也被称作计算机可读和/或计算机可执行的代码。在另一个实施方案中,该计算机程序包括计算机可用的介质,在其中存储有控制逻辑,用于使计算机生成对感兴趣的多肽进行编码的优化的核苷酸序列,该控制逻辑包括用于使该计算机接受通过输入装置输入的外部信息的第一代码,其中该外部信息包括优化的核苷酸序列的DNA序列、以及一个较不希望的DNA和蛋白序列的集合(例如,在本文的其他地方披露的短的不令人希望的DNA序列)。控制逻辑也被称作计算机可读取和/或计算机可执行的代码。在另一个实施方案中,该计算机程序包括计算机可用的介质,在其中存储控制逻辑,用于使计算机生成对感兴趣的多肽进行编码的合成(“优化”)的核苷酸序列,该控制逻辑包括使该计算机接受通过输入装置输入的外部信息的第一代码,其中该外部信息包括DNA序列的数据库、η-长度的一个指定值、以及针对其开发一个或多个优化基因的一个氨基酸序列;用于使该计算机从输入中生成NLS统计表的第二代码;用于开发NLR集合的第三代码、用于确定不破坏该可读框(“沉默NLSs”或“SNLS”)的这个NLS集合的第四代码、以及用于优化SNLS装配中的选择以得到优化的基因序列的第五代码。用于生成对感兴趣的多肽进行编码的合成的核苷酸序列的本发明的计算机系统包括处理器(进行运算以确定、接受,检查、并显示数据)、与所述处理器相连接用于存储数据的存储器、与所述处理器相连接用于显示数据的显示装置、与所述处理器相连接用于输入外部数据的输入装置;以及一个具有至少两种所述处理器可执行的操作模式的计算机可读的脚本。计算机可读取脚本可以是一个计算机程序或本发明的一个实施方案的计算机程序产品的控制逻辑。对于本发明而言以任何具体的计算机语言来写这个计算机程序或在任何特定类型的计算机系统或操作系统上操作不是关键性的。例如,可以用C++、Java,Perl、Python、Ruby、Pascal、或Basic编程语言来编写这个计算机程序。应当理解,可以用多种不同的编程语言之一来产生这个程序。在本发明的一个方面中,写出该程序以便在使用Linux操作系统的计算机上运行。在本发明的另一方面中,写出该程序以便在使用MSWindows或MacOS操作系统的计算机上运行。本领域的技术人员应当理解根据本发明可以按任何顺序或同时执行代码,只要该顺序符合逻辑流。在一个实施方案中,该计算程序具有对于使用者插入所希望的氨基酸序列的一个输入空间、以及显示生成的核苷酸序列的一个输出空间。在一个实施方案中,该计算机程序具有一种编辑模式,其中可以如使用者所希望修改对于每个NLR选择每个NLS的概率。用于优化的核苷酸序列对于感兴趣的多肽进行编码的任何核苷酸序列可以生成合成(或“优化的”)的核苷酸序列,包括但不限于对杀虫蛋白、除草剂耐受性蛋白、真菌耐受性蛋白、水解酶类(包括改变植物谷物中糖类、蛋白质、或脂类/油的量和/或性质的酶类)、品质性状、或任何其他感兴趣的蛋白质进行编码的序列。杀虫蛋白包括S-内毒素蛋白,如来自苏云金芽孢杆菌中的那些蛋白。通过“杀虫”一词是要指带来至少一种害虫死亡或明显地减少害虫生长、摄食、或正常生理发育的能力。“杀虫”化合物是一种具有抗昆虫种类中的害虫的活性的化合物。“除草剂耐受性蛋白”或从“编码除草剂耐受的核酸分子”的表达中得到的蛋白包括多种蛋白质,它们与不表达该蛋白的细胞相比赋予细胞耐受更高浓度的除草剂的能力、或与不表达该蛋白的细胞相比耐受一定浓度的除草剂更长时间的能力。以下实施例是通过阐明方式但不作为限制来提供的。实验实施例1.使用一个5级统计模型优化在玉蜀黍中表达的细菌δ内毒素基因步骤1:识别并且收集玉蜀黍cDNA序列(模块A)。从公共资源(例如GENBANK)中收集有待在玉蜀黍中表达的本领域内已知的编码区域的序列。这些序列由mRNA、cDNA、或代表这些编码序列的基因组片段组成。按照需要,对这些序列进行编辑以去除非编码区(优选地通过在该序列群体中识别可读框(ORF)区域)。步骤2用N=5生成针对玉蜀黍cDNA序列的NLS统计表。使用如在模块B中所说明的一个5碱基滑动序列窗对来自玉蜀黍的序列进行分析。生成了由所有可能的5碱基序列组成的一个表,并且记录了来自步骤1的在玉蜀黍序列集合中观察到的每个5碱基序列的计数。将观察到的计数除以观察到的5-碱基序列的总数生成原始频率值。将观察到的原始频率值除以预期的频率值以生成在玉蜀黍序列集合中所有5碱基序列(NLS)的观察预期的比率。使用水平分布模型来定义该实例中的预期频率(即,每个NLS(5碱基序列)在1,024个可能的NLS(5碱基DNA序列)中被认为相同的可能性)。得到的表被称为NLS统计表。观察预期的比率被认为是近似于观察到的5碱基序列中每一个的发生概率。步骤3.用高概率序列替换在细菌δ内毒素基因中的低概率5碱基序列(NLS)。通过滑动窗分析来确定候选的δ内毒素基因(Axmi004;披露于在2003年3月18日提交的美国专利申请10/739,610中)以确定在该基因中每个5碱基序列(NLS其中N=5)的相对相似性。所有的基因序列核苷酸位置是根据它们在玉蜀黍中发生的概率升序排序的,在这种情况下使用来自步骤2的NLS统计表进行近似。从最低概率序列位置开始,通过在不破坏该基因阅读框或向该基因氨基酸序列(SNLS)中引入突变的位置上识别所有可能的NLS(5碱基取代)来生成一个沉默取代的集合。在每个位置上,用具有最高玉蜀黍观察预期比率(在NLS统计表中最高位次)的5碱基沉默取代(SNLS)取代现有的5碱基序列。如在模块C中(以上)所说明的重复该循环并且重复几轮,直至增加该基因序列的净可能性的额外的沉默变化是不可能的。得到的序列被认为是初步优化的基因。步骤4.从该初步优化的基因中去除假0RF。通过用如以上在模块D中所说明的SNLS(5-碱基序列)替换在该初步优化基因(5碱基序列)中的NLS,从该初步优化基因中去除不编码该感兴趣基因的0RF。选出破坏任何识别的假可读框而不中断该初始可读框的取代(在这种情况下,Axmi004蛋白)。重复该循环直至在产生一个“剔除ORF的优化基因”的优化的基因中没有大于75个氨基酸的假可读框被保留。步骤5.从该剔除ORF的初步优化基因中去除不令人希望的短DNA序列。通过用如以上在模块E中所说明的SNLS(5碱基序列)替换在该初步优化基因中的NLS,从该初步优化的基因中去除对不令人希望的特征(包括限制性酶识别序列)进行编码的短DNA序列。不允许引入假的ORF的取代。重复该循环直至没有留下不令人希望的位点,得到一个完全优化的基因。步骤6.生成具有降低的GC含量的变体全优化基因。通过用如以上在模块F中所说明的SNL(5碱基序列)取代在该全优化基因中的NLSs来生成全优化基因的变体。不允许引入假可读框或不令人希望的短DNA序列的取代。评价所有可能的沉默取代,并且鉴定对观察预期的比率具有最小影响同时仍降低净GC含量的那些沉默取代。以这种方式反复进行取代直至使该基因的总GC含量低于50.0%的目标阈值。该序列被认为是低于50%GC的优化基因。实施例2以下算法提供了用于实施本发明的方法的算法的函数集合的一个实例。#Syntheticgenecreationandoptimizationclasses###########################################ThisprogramisthepropertyofAthenixCorp.#Allrightsreserved#DanielJ.Tomso,programmer#Created:07_Mar_06###########################################Modified:07-Mar-06,DJT#Modified:08-Mar_06,DJT#Modified:09-Mar-06,DJT#Modified:10-Apr-06,DJT#Modified:ll-Apr-06,DJT#Modified:12-Apr_06,DJT#Modified:26-Apr_06,DJT#Modified:27-Apr_06,DJT#Modified:28-Apr_06,DJT#Modified:01-May_06,DJT#Modified:17-May_06,DJT#Modified:01-Jun_06,DJT#Modified:18_Sep_07,DJT(Beginningofexperimentalre-writeforprotein-directedopt)#Modified:23_Jan_08,DJT(tweaksforneworfhandlingrequirements)#Modified:16_Apr_08,DJT(cleanoutnon-CATGseqsinkeys)#Modified:12_Aug-08,DJT(beginmajorupgrade)importreimportsysimportpicklefrommathimportlogfromseq—handlerimportSeqHandlerfromorf—classesimportOrfFinderclassSeqStats:"""Basen~ordersequencestatisticsclass."""def—init_(self,order=5):“““Initializebypassinginanorder(oligolength)value.“'丨"self,order=orderself,oligo—count=0self,oligos=self,build—oligos()self·oligo—stats={}defbuild—oligos(self):“““Buildsanemptydictionaryofalln-orderoligos.“““oligo—keys=[“]foriinrange(0,self,order):new—oligos=[]foroligoinoligo—keys:forbasein['A','C','G','T']:noligo=oligo+base.new—oligos.append(noligo)oligo_keys=new—oligosoligos={}foroligoinoligo_keys:oligos[oligo]=0returnoligosdefadd(self,oligo):”””Addsanoligostatsmatrix.”””ifre.search["ACGT]‘,oligo):returnself.oligos[oligo]+=1self,oligo—count+=1defadd—seq(self,sequence):〃〃〃Addsalloligosfromasequencetothestatsmatrix.“!!sequence=sequence,upper()foriinrange(0,Ien(sequence)-self,order+1):oligo=sequence[i:i+self.order]self,add(oligo)defupdate(self):〃〃〃Calculatesthestatisticsmatrixfromthecurrentrawcountvalues.“““notseen=log(1/fIoat(self·oligo—count+1))stats={}expected=0.25“self,orderforoligoinself,oligos:ifself,oligos[oligo]==0:stats[oligo]=notseenelse:observed=self,oligos[oligo]/float(self,oligo—count)stats[oligo]=log(observed/expected,10)self,oligo—stats=statsdefsscore(self,sequence):〃〃〃Returnsalogprobabilityscoreforagivensequence.”””sequence=sequence,upper()score=0foriinrange(0,Ien(sequence)-self,order+1):oligo=sequence[i:i+self.order]score+=self.oligo_stats[oligo]returnscoredefsave(self,filename):"""SimplepickleroutinetosaveN-orderstatdatatofile.“““dataset=[self,order,self.oligo_count,self,oligos,self.oligo_stats]savefile=open(filename,'w')pickle,dump(dataset,savefile)savefile.close()print"Datasavedto%s"%(filename)defload(self,filename):"""SimplepickleroutinetoloadN-orderstatdatafromfile.“““loadfile=open(filename,'r')(self,order,self.oligo_count,self,oligos,self.oligo_stats)=pickle.Ioad(Ioadfile)loadfile.close()classSiteManager():"""ClasstomanagesitedetectionandpreservationoperationsinDNA.“““def_init_(self,tablefile)self,siteset=self,load(tablefile)defload(self,filename):““‘‘Loadsatableofsitesintogroupedsets.““‘‘siteset={}loadfile=open(filename,'rU')forlineinloadfile:line=line.rstripOifre.match('#',line):#commentlinecontinuegroup,sequence=line,split('\t')ifsiteset.has_key(group):siteset[group].append(sequence)else:siteset[group]=[sequence]returnsitesetdeffindsites(self,sequence):”””Findsallinstancesofthesitesetinasequence,returnsadictionarywithpairedsitesandlocations.〃〃〃sitetable={}forgroupinself,siteset.keys():forsiteseqinself,siteset[group]:siteiter=re.finditer(siteseq,sequence)forsitematchinsiteiter:ifsitetable.has_key(group):sitetable[group].append([siteseq,sitematch.start()])else:sitetable[group]=[[siteseq,sitematch.start()]]returnsitetableclassSeqOptimizer(SeqStats):〃〃〃Derivedclassforsequenceoptimizationusingn-ordersequencestatistics.“““def—init_(self,sequence,statfile,order=5):SeqStats.—init—(self,order)self,load(statfile)self,seq=sequenceself,length=Ien(sequence)self,sh=SeqHandler()self,opt—table={}self,changedsites=[]#listofsiteschangedduringoptimizationroundsdefsequence(self,sequence=None):”””Returnsthecurrentsequence,orupdatesthesequence.”””ifsequenceisNone:returnself,seqelse:self,seq=sequencedefscore(self,sequence=None):“““Overridesbasicscore—returnscurrentsequencescoreifnoparameterspecified,otherwisescorespassedsequence.“““ifsequence:score=self,sscore(sequence)else:score=self,sscore(self,seq)returnscoredefsegments(self,oligo,position):“““Returnssegmentsforsubstitutionmethod.“““offset=self,order-1begin=position-offsetbegin=begin-(begin%3)end=position+self.order+offsetend=end+(3_end%3)ifbegin<0:begin=0ifend>self,length:end=self,lengthorg—dna=self,seq[begin:end]prefix=self,seq[begin!position]suffix=self,seq[position+self.order:end]new—dna=prefix+oligo+suffixreturnorg_dna,new_dnadefsegment(self,position):〃〃〃Returnscleanly-translatablesequencesegmentandoffsetcorrectionfordegenerationmethod.〃〃〃offset=self,order-1begin=position-offsetbegin=begin-(begin%3)end=position+self.order+offsetend=end+(3_end%3)ifbegin<0:begin=0ifend>self,length:end=self,lengthorg—dna=self,seq[begin:end]correction=position-beginreturnorg—dna,correctiondefsilent(self,org—dna,new_dna)usewithsubstitutionmethod〃〃〃Returns1ifasilentmutation,0ifanaachangeisintroduced.“““org_aa=self.sh.translate(org_dna)new_aa=self.sh.translate(new_dna)iforg_aa==new_aa:return1else:return0defdelta(self,org_dna,new_dna):“““ReturnsthedeltascorefortwoDNAsegments.“““org—score=self,score(org—dna)new—score=self,score(new—dna)returnnew—score—org—scoredefsubs(self,position,threshold=—100000.0):〃〃〃Degeneration-basedsilentsubstitutionroutine.〃〃〃org—dna,correction=self,segment(position)org_aa=self.sh.translate(org_dna)org—oligo=self,seq[position:position+self.order]degenerates=self.sh.degenerate(org_aa)nsubs={}fordegenerateindegenerates:oligo=degenerate[correction:correction+self.order]ifself,score(oligo)<threshold:continueifnsubs.has_key(oligo):continueelse:prefix=org—dna[:correction]suffix=org—dna[correction+self.order:]new—dna=prefix+oligo+suffixnew_aa=self.sh.translate(new_dna)ifnew_aa<>org_aa:continue#somenon-silentpossibilitiesdependingonpositionandframedelta=self,delta(org_dna,new_dna)nsubs[oligo]=deltasubs=[]foroligoinnsubs.keys():delta=nsubs[oligo]subs,append([delta,oligo])subs,sort(cmp=lambdax,y:cmp(x,y))returnsubsdefold_subs(self,position,threshold=—100000.0):”””Returnsascoredlistofsilentsubstitutionsforthegivenpositionandsequence.“““subs=[]foroligoinself,oligos:org—dna,new—dna=self.segments(oligo,position)ifself,silent(org—dna,new—dna):delta=self,delta(org_dna,new_dna)ifself,score(oligo)<threshold:continuesubs,append([delta,oligo])ifIen(subs)==0:subs,append(])subs,sort(cmp=lambdax,y:cmp(x,y))returnsubs.defupdate—opt—table(self):”””Updatestheoptimizationtableforeverysiteinthechangedsitelist.“““foriinself,changedsites:oligo=self.seq[i:i+self.order]best—delta,best—oligo=self·subs(i)[_1]#defaultthreshold,acceptsallsubsself.opt_table[i]=([best_delta,best_oligo])defsite—collision(self,position):〃〃〃Testsforoverlapbetweentheregionsurroundingpositionandthesitetable.“““offset=self,order-1foriinrange(position-offset,position+self.order+offset):ifiinself,changedsites:returnTruereturnFalse.defupdate_site_table(self,position):〃〃〃Updatesthechangedsitetableforallsiteoverlappingthecurrentposition.”””offset=self,order-1begin=position-offsetend=position+self.order+offsetifbegin<0:begin=0ifend>(self,length-self,order+1):end=(self,length-self,order+1)foriinrange(begin,end):self,changedsites.append(i)defopt—round(self):〃〃〃Performsasingleroundofnon-overlappinglow-positionoptimization.“““self,update—opt—table()self,changedsites=[]skeys=self·opt—table·keys()skeys.sort(cmp=lambdax,y:cmp(self.opt_table[y],self.opt_table[x]))maxdelta=self.opt_table[skeys]#largestobserveddeltaintheopttableifmaxdelta<=0.0:returnFalse#Notchanged,convergedforpositioninskeys:delta,oligo=self.opt_table[position]ifdelta>0.0:ifself,site_collision(position):continueprint"\t\tUpdatingatposition%s,oligois%s,rawscoreis%2.3f,deltascoreis%2.3f.“%\(position,oligo,self,score(oligo),delta)or—gaa=self.sh.translate(self,seq)prefix=self.seqsuffix=self,seq[position+self.order:]var—seq=prefix+oligo+suffixself,seq=var—seqself,update_site_tab1e(position)returnTrue#Changeddefoptimize(self,maxtries=2000):“““Low-position-firstoptimizationroutine.“““self,changedsites=range(0,self,length-self,order+1)round=1whileround<=maxtries:print"\tBeginninground%sofoptimization.”%(round)changed=self,opt—round()print"\tRound%scompleted.Sequencescoreis%4.3f"%(round,self,score())ifnotchanged:print"\t0ptimizationcomplete.“returnTrueround+=1self,changedsites=range(0,self,length-self,order+1)#forcerescannowthatwehaveafasteralgorithmprint〃\t0ptimizationincompleteafter%srounds.〃%(maxtries)returnFalsedeftrace(self,sequence=None):“““Generatesasliding-windowtracesofthesequenceandreturnsn-orderstatscoresforeveryposition.”””ifsequenceisNone:sequence=self,seqtrace=[]foriinrange(0,Ien(sequence)-self,order+1):oligo=sequence[i:i+self.order]trace,append([i,oligo,self,score(oligo)])returntracedeflowscores(self,number=10):〃〃〃Returnsthelowest-scoringpositionsinthesequence.”””trace=self,trace(sequence)trace,sort(cmp=lambdax,y:cmp(x[2],y[2]))lows=[]foriinrange(0,number):lows,append(trace[i][2])returnlowsclassPSeqGenerator(SeqStats):〃〃〃Derivedclassforsequenceoptimizationusingn-ordersequencestatisticsandprotein-basedoperations.〃〃〃def—init_(self,sequence,statfile,order=5,segmentsize=5,st印size=3):SeqStats._init_(self,order)self,load(statfile)self,aseq=sequence#thisisnowanaminoacidsequenceself,length=Ien(sequence)#aminoacidlengthself,sh=SeqHandler()self,seq=self,generate(segmentsize)#generatesstartingoptimalnucleotidesequencefromproteinsequencedefsequence(self,sequence=None):〃〃〃Returnsthecurrentsequence,orupdatesthesequence.”””ifsequenceisNone:returnself,seqelse:self,seq=sequencedefscore(self,sequence=None):“““Overridesbasicscore—returnscurrentsequencescoreifnoparameterspecified,otherwisescorespassedsequence.“““ifsequence:score=self,sscore(sequence)else:score=self,sscore(self,seq)returnscoredefcandidate(self,position,segmentsize):”””Newdegeneration-basedsilentsubstitutionroutine,returnscandidatesilentsequencesofagivena.a.length.“““aa—segment=self,aseq[position:position+segmentsize]print"\tDegeneratingsequence%satposition%s〃%(aa_segment,position)degenerates=self.sh.degenerate(aa—segment)high—degenerate=”high_score=-10.0fordegenerateindegenerates:ifself,score(degenerate)>high—score:high—degenerate=degeneratehigh—score=self,score(degenerate)returnhigh—degenerate,high—scoredefgenerate(self,segmentsize):DNA—seq=“foriinrange(0,self,length,segmentsize):best—DNA,best_score=self,candidate(i,segmentsize)DNA—seq=DNA—seq+best—DNAreturnDNA—seqclassSeqScrubber(SeqOptimizer):“““DerivedclasstohandlescrubbingandGCdrivedownoperationsonoptimizedsequences.“““def—init_(self,sequence,statfile,order=5,orfmax=75,threshold=0.0,\sitetable='/home/python/scrub—sites,table‘,addtable='/home/python/add—sites·table'):SeqOptimizer._init_(self,sequence,statfile,order)self,threshold=threshold#minimumacceptablescoreforarep1acementο1igoself,orfmax=orfmax#maximumacceptablelengthforaspuriousORFself,of=OrfFinder(minlength=self,orfmax)self,stable=self,load—scrubtable(sitetable)self,scrublist=[]#listofsiteschangedduringscrubbingoperationsself,atable=[]self,deadorfs=[]self,origsites={}deforfcount(self,sequence,verbose=False):〃〃〃CountsthenumberofqualifyingORFsinasequence.”””of—orfs=self.of.get_orfs(sequence,require_atg=False,require_stop=False)orfs=[]ifverbose:fororfinof—orfs:orfs.append([orf['length'],orf['start']])ifverbose:returnorfselse:returnIen(of—orfs)defget_orf(self,psequence,start,end):〃〃〃Returnsacleanly-translatableORFfromthecurrentsequence.“““ifstart<end:subseq=psequence[start:end]else:subseq=psequence[end:start]subseq=self.sh.reverse—complement(subseq)returnsubseqdefscrubintervals(self,lowpos,highpos):〃〃〃GeneratesdiscontinousintervalstoattemptORFscrubbing.“““brange=[]fullorfnt=self,orfmax*3maxorfnt=int(fullorfnt*0.8)#use80%ofmaximumforscrubtargetintsize=(fullorfnt-maxorfnt)*2#prettybig,butweneedsometargetslowend=lowpos+maxorfnthighend=highpos-maxorfntiflowend>=highend:#smallorf,needslightlylargerintervalcenter=lowpos+(highpos-lowpos)/2bmax=center+intsize/2bmin=center-intsize/2ifbmax<lowend:bmax=lowendifbmin>highend:bmin=highendbrange=range(bmin,bmax)else:#largerorf,theserangeswillbetoosmallifthereis.onlyoneinterval!multiple=(highend-lowend)/maxorfnt+1#howmanyrangeswewillbepickingfintsize=intsize/multiple#pickthesamenumberoftotalsitesforiinrange(lowend,highend):ifnot(i-lowpos)%maxorfnt:#atamultipleofmaxorfntforjinrange(i+intsize-fintsize,i+intsize):brange.append(j)returnbrangedefpossibles(self,prange):”””Returnsalistofpossiblesilentsubstitutionsinarangeofpositions.“““possibles=[]forpositioninprange:ifpositioninself,scrublist:continue#skippositionsonthe'donotchange'listcoligo=self,seq[position:position+self.order]ρsubs=self,subs(position,threshold=self,threshold)for(pdelta,poligo)inpsubs:ifpoligo==coligo:continue#skiptheexistingoligoatthispositionpossibles,append([pdelta,poligo,position])possibles,sort(reverse=True)returnpossiblesdefvariant(self,position,poligo):“““Returnsthenewvariantsequenceusingpoligoasasubstituteatthecurrentposition.〃〃〃prefix=self.seqsuffix=self,seq[position+self.order:]psequence=prefix+poligo+suffixreturnpsequencedefscrub_orf(self,orf,forcel=False,force2=False):“““BreaksupanORF.PassinanORFinstance.“““iforf['end']>orf['begin']:#forwardstrandscrubrange=self,scrubintervals(orf['begin'],orf['end'])ifforcel:scrubrange=range(orf['begin']+30,orf['end']-30)#maximumrangeelse:#reversestrandscrubrange=self,scrubintervals(orf['end'],orf['begin'])ifforcel:scrubrange=range(orf['end']+30,orf['begin']-30)org—threshold=self,thresholdifforce2:self,threshold-=0.5possibles=self,possibles(scrubrange)self,threshold=org—thresholdfor(pdelta,poligo,position)inpossibles:psequence=self,variant(position,poligo)porfseq=self,get—orf(psequence,orf['begin'],orf['end'])ptrans=self.sh.translate(porfseq)if'*'inptrans:self,sequence(psequence)#updatesequencetomatchthevariantoffset=self,order-1self,scrublist.append(position)#lockdownthepositiontoavoidflipflopsprint"\t\t\tSolutionfound:%satposition%s,deltais%2.3f.“%(poligo,position,pdelta)returnTrue#successfulscrubreturnFalse#failedscrubdeforfcheck(self,variant):”””ComparesORFcountsandpositionsinsequenceandvariant,returnsTrueifvarianthasthesameORFsassequence.”””seq—orfs=self,orfcount(self,seq)var—orfs=self,orfcount(variant)ifseq—orfs==var_orfs:returnTrueelse:returnFalsedefsitecheck(self,variant):〃〃〃Comparesscubsitecountsandpositionsfortheprimarysequenceandavariant,returnsTrueiftheymatch,Falseotherwise.“““seq—sites=self,sitecount(self,seq)var—sites=self,sitecount(variant)ifseq—sites==var—sites:returnTrueelse:returnFalsedefscrub—largest—orf(self):〃〃〃AttemptstoremovethelargestspuriousORFinthesequence.“““orfs=self.of.get._orfs(self,seq,require_atg=False,require_stop=False)orfs.sort(cmp=lambdax,y:cmp(x[rlength'],y['length']),reverse=True)#sortORFsbysizeorfs—max=Ien(orfs)-1cur_orf=1whilecur—orf<=orfs—max:orf=orfs[cur_orf]#nextORFtoworkonprint"\t\tLargestspuriousORFis%saminoacids,fromnucleotide%sto%s."%(orf[!length!],orf[!begin!],orf['end'])orfkey=str(orfbegin'])+"_"+str(orfend'])iforfkeyinself,deadorfs:print"\t\tSkipping—unscrubbableORF.”cur—orf+=1continuescrubbed=self,scrub—orf(orf)ifscrubbed:returnTrueelse:print"\t\tScrubfailed__attemptingagainwithforcelevel1(expandedscrubrange).”scrubbed=self,scrub—orf(orf,forcel=True)ifscrubbed:returnTrueelse:“\t\tForcefailed—attemptingagainwithforcelevel2(reducedsubstitutionthreshold).“scrubbed=self,scrub—orf(orf,forcel=True,force2=True)ifscrubbed:returnTrueelse:print"\t\tForcefailed.ORFnotscrubbed.”self,deadorfs.append(orfkey)returnTrue#achangewasmadereturnFalse#nochangesmadedefscrub—orfs(self):self,deadorfs=[]scrubround=0orfcount=self,orfcount(self,seq)whileorfcount>1:scrubround+=1print"\tRound%s,currentORFcountis%s"%(scrubround,orfcount)scrubbed=self,scrub—largest—orf()ifnotscrubbed:returnIen(self,deadorfs)orfcount=self,orfcount(self,seq)return0#orfcountisnow1,onlyprimaryORFremainsdefcleanup(self):〃〃〃Finalpost-scrubbingcleanuptocheckforoptimizablesites."""prange=range(0,self,length-self,order+1)changed=Trueorg—threshold=self,thresholdself,threshold=-10000.0#allowallchangesthatproduceapositivedeltaself,scrublist=[]whilechanged:print"\tPerformingcleanupscan..."changed=Falsepossibles=self,possibles(prange)for(pdelta,poligo,position)inpossibles:ifpdelta<=0:continueseq—gc=self.sh.gc(self,seq)psequence=self,variant(position,poligo)var_gc=self.sh.gc(psequence)ifvar_gc>seq—gc:continueifnotself,orfcheck(psequence):continueifnotself,sitecheck(psequence):continueself,sequence(psequence)changed=Trueprint"\t\tChangemadeatposition%s,oligois%s,deltais%2.3f/r%(position,poligo,pdelta)breakself,threshold=org—thresholddefdrivedown—gc(self,gc—target):“““ReducesGCcontentbymakingsilentchanges.“““prange=range(0,self,length-self,order+1)print〃\tScanningsequenceforpossiblechanges...〃possibles=self,possibles(prange)saa=self.sh.translate(self,sequence())for(pdelta,poligo,position)inpossibles:seq—gc=self.sh.gc(self,seq)ifseq—gc<=gc—target:returnTrue#thresholdreachedpsequence=self,variant(position,poligo)ifself.sh.gc(psequence)>=self.sh.gc(self,seq):continue#noGCdecreaseifnotself,orfcheck(psequence):continue#changecreatesORFsifnotself,sitecheck(psequence):continue#changecreatessitespaa=self.sh.translate(psequence)ifpaaOsaa:#已mutation,Shouldnrthappen!continueself,sequence(psequence)self,scrublist.append(position)var_gc=self.sh.gc(psequence)gcdelta=var_gc-seq_gcprint"\t\tUpdatingatposition%s,oligois%s,deltais%2.3f,newGCpercentis%3.2f.”%(position,poligo,pdelta,var_gc*100)returnFalsedefsitecount(self,sequence,verbose=False):〃〃〃Countsthenumberofunscrubbedsitesinthecurrentsequence.“““sitecount=0sitelist=[]fornameinself,stable,keys():site,comment=self,stable[name]formatchinre.finditer(site,sequence):sitelist.append([name,match,start()])sitecount+=1ifverbose:returnsitelistelse:returnsitecountdefload_scrubtable(self,tablefilename):“““Loadsatableofsequencestoscrub.“““stable={}tfile=open(tablefilename,'r')forlineintfile:ifre.match#!,line):continueitems=re.split(r'\s+',line)name,site=itemscomments=items[2:]comment=''.join(comments)stable[name]=[site,comment]returnstabledefasegment(self,begin,end,sequence):〃〃〃Returnscleanly-translatablesequencesegment.〃〃〃begin=begin-(begin%3)end=end+(3_end%3)ifbegin<0:begin=0ifend>Ien(sequence):end=Ien(sequence)dna=sequence[begin:end]returndnadefscrub_site(self,site,position):〃〃〃Scubsasinglesitefromadesignatedpositioninthesequence.“““offset=self,order-1scrubstart=position-offsetifscrubstart<0:scrubstart=0scrubend=position+len(site)+offsetifscrubend>self,length:scrubend=self,lengthscrubrange=range(scrubstart,scrubend)possibles=self,possibles(scrubranqe)for(pdelta,poligo,position)inpossibles:psequence=self,variant(position,poligo)pregion=psequence[scrubstart:scrubend]ifre.search(site,pregion):continue#siteisstillpresent,skipthissolutionelse:ifself,orfcheck(psequence):self,sequence(psequence)#updatesequenceself,scrublist.append(position)#lockdownthepositiontoavoidfIipflopsprint"\t\t\t\tSolutionfound:%satposition%S9deltais%2.3f"%(poligo,position,pdelta)returnTrue#changemadeelse:print"\t\t\t\tRejectedsolution%sat%sfor.extraneousORFcreation.”%(poligo,position)continuereturnFalsedefscrub_first_site(self,name):〃〃〃Attemptstoscrubaninstanceofthenamedsitefromthesitetable.“““(site,comment)=self,stable[name]print"\t\tAttemptingtoscrubfirstincidenceofsite%s,sequence%s.“%(name,site)ifnotre.search(site,self,seq):print"\t\tNomatchesfoundforsite%s/r%(site)return〃nomatch"formatchinre.finditer(site,self,seq):print"\t\t\tSitefoundatpositions%sto%s.〃%(match,start(),match,end())scrubbed=self,scrub—site(site,match·start())ifscrubbed:return〃scrubbed"else:print"\t\t\tUnabletoremovesite,advancingtonextposition.“continueprint"\t\tMatchesnotfixablewithcurrentparameters.“return"failed"defscrub—sites(self):“““ScrubsDNAsitesoutofanoptimizedsequence.“““targets=self,sitecount(self,seq)scrubround=0failures=0while(targets>0andfailures<10):scrubround+=1print"\tRound%s,currentsitecountis%s."%(scrubround,targets)fornameinself,stable,keys():scrubbed=self,scrub—first—site(name)ifscrubbedis〃scrubbed":targets=self,sitecount(self,seq)breakelifscrubbedis〃nomatch":continueelse:failures+=1continueif(targets==0andfailures==0):returnTrueelse:returnFalse#Driverforsyntheticgenestatisticscreation###########################################ThisprogramisthepropertyofAthenixCorp.#Allrightsreserved#DanielJ.Tomso,programmer#Created:07-Mar_06###########################################Modified:07-Mar-06,DJT#Modified:09-Mar-06,DJT#Modified:12-Apr-06,DJT#Modified:13_Aug_08,DJT(refinedfornewESTdata,withcomplexityfilters)importfasta—classesimportsyngene_classesimportorf—classesimportsysimportredefcomplexityscore(seq):“““Calculatesacomplexityscoreforanaminoacidstretch,typicallyan0RF.“““score=0foriinrange(0,Ien(seq)-2):ifseq[i]==seq[i+l]:score-=1ifseq[i-l:i]==seq[i+l:i+2]:score-=1adjscore=score/float(len(seq))returnscore,adjscoredefleastcomplexwindow(seq,windowsize=20):〃〃〃Returnsthelowestestscoreforn-lengthsegmentsofthesequence.“““leastscore=Oforiinrange(O,Ien(seq)-windowsize):score,adjscore=complexityscore(seq[i:i+windowsize])ifscore<leastscore:leastscore=scoreadjleastscore=leastscore/float(windowsize)returnleastscore,adjleastscoreinfile=sys.argv[l]#InputinFASTAformatsavefile=sys.argv[2]#Filenametosavestatdataintooorder=int(sys.argv[3])#Oligoorder—lengthofoligotouseinanalysisorfminlength=150of=orf—classes.OrfFinder(minlength=orfminlength)fp=fasta—classes·FastaParser(infile)ss=syngene—classes.SeqStats(order=oorder)orfcount=Ofailed=Opassed=Oforseqinfp:orfs=of.get_orfs(seq.sequence,require_atg=False,require_stop=False)fororfinorfs:iforfstrand']〈>'forward':failed+=1continuescore,adjscore=complexityscore(orf['aa—seq'])leastscore,adjleastscore=leastcomplexwindow(orf['aa—seq'])ifadjleastscore<-O.40oradjscore<-O.20:failed+=1continuepassed+=1print"%s\t%s\t%3.3f\t%s\t%3.3f\t%s\t%s〃%(orf['length'],score,adjscore,leastscore,adjleastscore,passed,failed)ss.add—seq(orf['dna_seq/])ss.update()ss.save(savefile)#Driverforsyntheticgeneoptimization###########################################ThisprogramisthepropertyofAthenixCorp.#Allrightsreserved#DanielJ.Tomso,programmer#Created:07-Mar_06###########################################Modified:07-Mar-06,DJT#Modified:08-Mar-06,DJT#Modified:09-Mar-06,DJT#Modified:13_Apr_06,DJT#Modified:26-Apr-06,DJT#Modified:27-Apr-06,DJT#Modified:28-Apr-06,DJT#Modified:17-May-06,DJTimportfasta—classesimportsyngene_classesimportorf—classesimportsysfromseq—handlerimportSeqHandler######Globals######scrub_orf—size=75#maximumacceptablesizeforalternativeORFsinsequencegc—target=0.50#setto1.00fornodrivedown#####ReportingRoutines#####defshow—sequence(opt—title,opt—seq,seqfile):printprint"Optimizedsequence:%s"%(opt—title)print"Initialscore:%4.2f\t0ptimizedscore:%4.2f,r%(ss.score(org—seq),ss.score(opt—seq))print"ImitialGCpercent:%3.2f\t0ptimizedGCpercent:%3.2f"%(ss·sh·gc(org—seq)*100,ss·sh·gc(opt—seq)*100)printfasta—classes·write(opt—title,opt—seq,seqfile)defcheck—sequence(org—seq,opt_seq,sh):org_aa=sh.tramslate(org_seq)opt_aa=sh.translate(opt_seq)iforg—aa〈>opt_aa:print"Optimizationerror!Mutationintroduced!〃sys.exit()#####MainProgram#####infile=sys.argv[l]#FASTAfileofsequencestooptimizestatfile=sys.argv[2]#Passinastatsfilecreatedbysyngene—builder,pyseqoutfile=sys.argv[3]#Passinafilenametowriteoutputsequencestoseqfile=open(seqoutfile,'a')sh=SeqHandler()fp=fasta—classes·Fastaparser(infile)forseqinfp:org—seq=seq.sequence,upper()ss=syngene—classes·SeqScrubber(org—seq,statfile,order=5)print"\n0ptimizingsequence%s…"%(seq.title)ss.optimize()check—sequence(org—seq,ss.sequence(),sh)print"\nAttemptingtoscrubspuriousORFs…“unscrubbed=ss.scrub—orfs()ifunscrubbed:print“\nWarning:%sunscrubbableORF(s)remain.“%(unscrubbed)check—sequence(org—seq,ss.sequence(),sh)print"\nAttemptingtoscrubdisallowedsites…”scrubbed=ss.scrub—sites()check—sequence(org—seq,ss.sequence(),sh)print"\nFinalcleanupinprogress…“ss.cleanup()check—sequence(org—seq,ss.sequence(),sh)opt—seq=ss.sequence()opt_title=seq.title+r_opt_fulTshow—sequence(opt_title,opt_seq,seqfile)print”\nAttemptingGCdrivedownto%2.3f...”%(gc—target)ss.drivedown—gc(gc—target).[1021]check—sequence(org—seq,ss.sequence(),sh)print"\nFinalcleanupinprogress…“ss.cleanup()check—sequence(org—seq,ss.sequence(),sh)opt—seq=ss.sequence()opt—title=seq.title+r—opt—%s'%(gc—target)show—sequence(opt_title,opt_seq,seqfile)seqfile.close0#Driverforsyntheticgeneoptimization,v2(protein-based)###########################################ThisprogramisthepropertyofAthenixCorp.#Allrightsreserved#DanielJ.Tomso,programmer#Created:18_Sep_07,fromsyngene_optimize.py###########################################Modified:18-S印-07,DJTimportfasta—classesimportsyngene_classesimportsysfromseq—handlerimportSeqHandler######Globals######scrub_orf—size=75#maximumacceptablesizeforalternativeORFsinsequencegc—target=0.50#setto1.00fornodrivedown#####ReportingRoutines#####defshow—sequence(opt—title,opt—seq,seqfile):printprint“Optimizedsequence:%s"%(opt—title)print“Optimizedscore:%4.2f/r%(ps·score(opt—seq))print”OptimizedGCpercent:%3.2f/r%(ps.sh.gc(opt—seq)★100)printfasta—classes,write(opt_title,opt_seq,seqfile)defcheck—sequence(org—seq,opt_seq,sh):opt_aa=sh.translate(opt_seq)iforg—seq〈>opt—aa:print"Optimizationerror!Mutationintroduced!“sys.exitQ[1060]#####MainProgram#####infile=sys.argv[l]#FASTAfileofsequencestooptimize,thisisnowaproteinstatfile=sys.argv[2]#Passinastatsfilecreatedbysyngene—builder,pyseqoutfile=sys.argv[3]#Passinafilenametowriteoutputsequencestoseqfile=open(seqoutfile,'a')sh=SeqHandler()fp=fasta—classes·FastaParser(infile)forseqinfp:org—seq=seq.sequence,upper()print〃\nGeneratinginitialoptimumnucleotidesequence...〃ps=syngene_classes.PSeqGenerator(org—seq,statfile,order=5,segmentsize=7)check—sequence(org—seq,ps.sequence(),sh)print"\n0ptimizingjunctionsandlowspots…“ss=syngene—classes·SeqScrubber(ps.sequence(),statfile,order=5)ss.optimize()reopt—seq=ss.sequence()print"\nAttemptingtoscrubspuriousORFs…“unscrubbed=ss.scrub—orfs()ifunscrubbed:print“\nWarning:%sunscrubbableORF(s)remain.“%(unscrubbed)check—sequence(org—seq,ss.sequence(),sh)print"\nAttemptingtoscrubdisallowedsites…”scrubbed=ss.scrub—sites()check—sequence(org—seq,ss.sequence(),sh)print"\nFinalcleanupinprogress…“ss.cleanup()check—sequence(org—seq,ss.sequence(),sh)opt—seq=ss.sequence()opt—title=seq.title+r—DNA'show—sequence(opt—title,opt—seq,seqfile)seqfile.close()实施例3.使用核苷酸序列生成优化的基因序列以下实施例显示了通过使用实施例2的这些算法以生成一个优化基因序列的一个简化的日志文件。多个日志记录被删除并且用“数据未显示”替换,它简单地指明进行了类似的步骤但没有在这个实施例中列出。在该实施例中显示的序列列于表1中。优化序歹Ijaxmi004_original...开始第1轮优化。在位置1222处更新,寡聚物是TGAGA,初始得分是0.032,delta得分是4.664。在位置403处更新,寡聚物是TGAGA,初始得分是0.032,delta得分是4.134。(数据未显示)在位置1138处更新,寡聚物是ACTTC,初始得分是0.127,delta得分是0.134。第1轮完成。序列得分是70.241(数据未显示)开始第6轮优化。在位置1561处更新,寡聚物是TGAGG,初始得分是0.091,delta得分是0.058。第6轮完成。序列得分是233.679开始第7轮优化。第7轮完成。序列得分是233.679优化完成。尝试剔除假ORFs...第1轮,当前ORF计数是10最大假ORF是354个氨基酸,从核苷酸824到1886。发现的解决方案TGCTG在位置1439处,delta是-0.204。(数据未显示)第31轮,当前ORF计数是2最大假ORF是75个氨基酸,从核苷酸406到631。发现的解决方案TGAGA在位置580处,delta是-0.037。尝试剔除不允许的位置...第1轮,当前位置计数是11。尝试剔除位点hindIII的首次发生,序列AAGCTT。为位置AAGCTT没有发现匹配(数据未显示)尝试剔除位点BbsI_RC的首次发生,序列GTCTTC。在位置1152到1158发现位点。发现的解决方案CGTGT在位置1151处,delta是-0.144最终清除进行中...执行清除扫描...在位置1340处改变,寡聚物是CAAAG,delta是0.636(数据未显示)优化的序列axmi004_original_opt_full初始得分-127.61优化得分=219.30初始GC百分比34.92优化的GC百分比55.59尝试GC下降到0.500···[1134]扫描序列的可能改变...在位置1284处更新,寡聚物是GGATC,delta是-0.012,新GC百分比是55.54。在位置1625处更新,寡聚物是AAGAT,delta是-0.024,新GC百分比是55.48。(数据未显示)在位置155处更新,寡聚物是ATTTG,delta是-0.363,新GC百分比是49.97。最终清除进行中...执行清除扫描...在位置1571处改变,寡聚物是TGGGC,delta是0.387(数据未显示)优化的序列axmi004_original_opt_0.5初始得分-127·61优化的得分202·61初始GC百分比34.92优化的GC百分比49.71实施例4.使用基于氨基酸序列的初步优化步骤生成优化的基因序列以下实施例显示了通过使用实施例2的算法以便通过使用经翻译的氨基酸序列进行初步优化的步骤来生成一个优化的基因序列而产生的简化日志文件。已经删除了多个日志记录并且用“数据未显示”替换,它简单地指明进行了类似的步骤但没有列于这个实施例中。在这个实施例中显示的序列列于表1中。生成初始最佳核苷酸序列...在位置0处简并序列MSELKGK在位置7处简并序列FKKSTNR在位置14处简并序列TCCLLKI(数据未显示)在位置623处简并序列EFIPVE优化结合处以及低点...开始第1轮优化。在位置1213处更新,寡聚物是CCTTC,初始得分是0.227,delta得分是2.248。在位置1048处更新,寡聚物是ACCGC,初始得分是0.027,delta得分是2.066。在位置1111处更新,寡聚物是CCAAC,初始得分是0.188,delta得分是1.600。(数据未显示)在位置1129处更新,寡聚物是GGGAC,初始得分是-0.030,delta得分是0.032。第1轮完成。序列得分是235.396开始第2轮优化。在位置1630处更新,寡聚物是ACAGG,初始得分是-0.049,delta得分是0.270。在位置328处更新,寡聚物是TCGAG,初始得分是0.126,delta得分是0.159。在位置1054处更新,寡聚物是TCACC,初始得分是0.137,delta得分是0.042。第2轮完成,序列得分是235.867开始第3轮优化。在位置1056处更新,寡聚物是ACCTC,初始得分是0.196,delta得分是0.044。第3轮完成。序列得分是235.911[1170]开始第4轮优化。[1171]第4轮完成。序列得分是235.911优化完成。尝试剔除假ORFs.··第1轮,当前ORF计数是11最大假ORF是354个氨基酸,核苷酸从824到1886。发现的解决方案在位置1439处的TGCTG,delta是-0.700。第2轮,当前ORF计数是12最大假ORF是306个氨基酸,核苷酸从1653到735。发现的解决方案在位置1167处的TCAAA,delta是-0.742。(数据未显示)第25轮,当前ORF计数是2最大假ORF是75个氨基酸,核苷酸从406到631。发现的解决方案在位置580处的TGAGA,delta是-0.037。尝试剔除不允许位点...第1轮,当前位置计数是11。尝试剔除位点HindIII的首次发生,序列AAGCTT。对位点AAGCTT没有发现匹配(数据未显示)尝试剔除位点BsmBl的首次发生,序列CGTCTC。在位置194到200发现位点。发现的解决方案在位置196处的TCAGC,delta是-0.439第2轮,当前位置计数是10。尝试剔除位点HindIII的首次发生,序列AAGCTT。对位置AAGCTT没有发现匹配(数据未显示)尝试剔除位置PstI的首次发生,序列CTGCAG。在位置1188到1194发现位点。发现的解决方案在位置1189处的TCCAG,delta是-0.344(数据未显示)第11轮,当前位置计数是1。(数据未显示)尝试位置剔除位点BbsI_RC的首次发生,序列GTCTTC。在位置243到249发现位点。发现的解决方案在位置241处的TCGTG,delta是-0.493最终清除进行中...执行清除扫描...在位置629处改变,寡聚物是AATCA,delta是0.567(数据未显示)[1208]在位置1852处改变,寡聚物是TTTAT,delta是0.112执行清除扫描...优化的序列axmi004_DNA[1211]优化的得分222.40优化的GC百分比57.02表1.在实施例3和4中描述的序列。<table>tableseeoriginaldocumentpage45</column></row><table>在本说明书中提及的所有出版物和专利申请都是表明本发明所属领域内的普通技术人员的水平的。所有出版物和专利申请均通过引用以相同的程度并入本文,就如同每单个的出版物或专利申请是明确地并且单独地指出通过引用并入本文。[1216]尽管出于理解清楚的目的通过阐明和实施例在一定程度上详细地说明了以上发明,但是显而易见的是可以在所附的权利要求的范围内进行某些改变和修饰。权利要求一种优化核苷酸序列的方法,包括a)提供一个感兴趣的核苷酸序列;b)提供多个核苷酸序列的目标数据库;c)汇编给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表,其中N小于在该数据库中最短的核苷酸序列的长度,并且其中对于每个NLS而言N是常数;d)对于在步骤(b)中提供的数据库,为在步骤(c)中所鉴定的每个NLS计算概率得分以生成NLS统计表;e)将该感兴趣的核苷酸序列的每个N长度的区域(NLR)鉴定为相应的一个NLS集合,该NLS集合不改变该感兴趣的核苷酸序列编码的氨基酸序列,其中不改变由该感兴趣的核苷酸序列编码的氨基酸序列的NLS被认为是沉默的NLS(SNLS);并且,f)用SNLS来取代在该感兴趣的核苷酸序列中的一个或多个NLR以生成优化的序列。2.如权利要求1所述的方法,其中所述方法进一步包括g)对在步骤(f)中生成的优化序列进行扫描以鉴定任何假可读框(0RF);h)用破坏该假0RF的相应的SNLS来取代该优化序列中的一个或多个NLR;并且,i)任选地重复步骤(g)和(h)直至将所有假0RF从该序列中去除。3.如权利要求2所述的方法,其中所述方法进一步包括j)对于该优化序列设定目标G:C含量;k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,1)任选地重复步骤(g)和(h)直至达到目标G:C含量。4.如权利要求1所述的方法,其中所述方法进一步包括g)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件;h)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS去除了所述不令人希望的短DNA元件;并且,i)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。5.如权利要求4所述的方法,其中所述方法进一步包括j)对于该优化序列设定目标G:C含量;k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,1)任选地重复步骤(g)和(h)直至达到该目标G:C含量。6.如权利要求2所述的方法,其中所述方法进一步包括j)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件;k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS去除了该不令人希望的短DNA元件;并且,1)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。7.如权利要求1所述的方法,其中所述方法进一步包括g)对于该优化序列设定一个目标G:C含量;h)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,i)任选地重复步骤(g)和(h)直至达到所述目标G:C含量。8.如权利要求6所述的方法,其中所述方法进一步包括m)对于该优化序列设定一个目标G:C含量;η)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,ο)任选地重复步骤(g)和(h)直至达到该目标G:C含量。9.一种优化核苷酸序列的方法,包括a)提供感兴趣的核苷酸序列;b)提供多个核苷酸序列的目标数据库;c)汇编对于给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表,其中N小于在该数据库中最短的核苷酸序列的长度,并且其中对于每个NLS而言N是常数;d)相对于在步骤(b)中提供的数据库,为在步骤(c)中所鉴定的每个NLS计算概率得分以生成NLS统计表;e)将该整个感兴趣的核苷酸序列翻译成氨基酸序列;f)将该氨基酸序列分成多个邻接的肽片段;g)建立对每个片段进行编码的所有核苷酸序列的集合,以便对每个片段生成一个简并序列的集合;h)用在步骤(d)中汇编的NLS统计表对每个简并核苷酸序列打分;i)选择每个肽片段中最高分的核苷酸序列;j)按照在步骤(k)中所选择的序列的顺序进行装配以产生一个初步优化的序列;k)将该初步优化序列的每个N-长度的区域(NLR)鉴定为相应的NLS集合,该NLS集合不改变由该感兴趣的核苷酸序列所编码的氨基酸序列,其中不改变由该感兴趣的核苷酸序列所编码的氨基酸序列的NLS被认为是沉默的NLS(SNLS);并且,1)用SNLS来取代在该感兴趣的核苷酸序列中的一个或多个NLR以生成优化的序列。10.如权利要求9所述的方法,其中所述方法进一步包括m)对在步骤(f)中生成的优化序列进行扫描以鉴定任何假可读框(ORF);η)用破坏该假ORF的相应的SNLS来取代该优化序列中的一个或多个NLR;并且,ο)任选地重复步骤(g)和(h)直至将所有假ORF从该序列中去除。11.如权利要求10所述的方法,其中所述方法进一步包括P)对于该优化序列设定目标G:C含量;q)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,r)任选地重复步骤(g)和(h)直至达到该目标G:C含量。12.如权利要求9所述的方法,其中所述方法进一步包括m)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件;η)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS去除了该不令人希望的短DNA元件;并且,ο)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。13.如权利要求12所述的方法,其中所述方法进一步包括P)对于该优化序列设定目标G:C含量;q)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,r)任选地重复步骤(g)和(h)直至达到该目标G:C含量。14.如权利要求10所述的方法,其中所述方法进一步包括P)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件;q)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS去除了该不令人希望的短DNA元件;并且,r)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。15.如权利要求9所述的方法,其中所述方法进一步包括m)对于该优化序列设定目标G:C含量;n)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,0)任选地重复步骤(g)和(h)直至达到该目标G:C含量。16.如权利要求14所述的方法,其中所述方法进一步包括s)对于该优化序列设定目标G:C含量;t)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含量更接近于该目标G:C含量;并且,u)任选地重复步骤(g)和(h)直至达到该目标G:C含量。17.如权利要求1所述的方法,其中所述目标数据库对感兴趣的生物是特异的。18.如权利要求1所述的方法,其中所述N-长度是在4到10之间。19.如权利要求18所述的方法,其中所述N-长度在5到7之间。20.评价感兴趣的核苷酸序列在感兴趣的生物中表达的适合度的方法,包括a)提供多个核苷酸序列的一个目标数据库,其中所述数据库由对该感兴趣的生物特异的多个序列构成;b)汇编对于给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表,其中N小于在该数据库中最短的核苷酸序列的长度,并且其中对于每个NLS而言N是常数;c)相对于在步骤(a)中提供的数据库,对在步骤(b)中所鉴定的每个NLS计算概率得分以生成NLS统计表;d)鉴定该感兴趣的核苷酸序列中的每个NLR;e)从步骤(d)中鉴定的一个或多个位置读取NLS;f)使用该NLS统计表来鉴定在步骤(e)中所鉴定的一个或多个NLS的概率得分;g)计算该整个核苷酸序列或其一部分的总得分;其中该核苷酸序列或其一部分的得分指示了该序列在感兴趣的生物中表达的适合度。全文摘要本发明是针对用于设计对感兴趣的多肽进行编码的合成的核苷酸序列的方法。这些方法涉及将序列的数据库组织为N-长度的寡聚体序列的集合并且汇编了针对每个N-长度序列的概率得分的列表。使用这些概率得分将一个或多个更高得分的序列替换进入该亲本核苷酸序列之中以生成优化的序列。通过去除无意的可读框或不令人希望的短DNA元件之一或两者、和/或取代寡聚体序列以达到特定的GC含量可以进一步优化所感兴趣的核苷酸序列。这些方法可以在任何生物中、特别是植物中用于优化异源基因的表达。该方法生成了合成序列,其组成类似于目标数据库的组成。例如,这些合成的序列可以用于在生物中、特别是在植物或植物细胞中调节杀虫活性或除草剂耐受性。文档编号G06F19/00GK101821744SQ200880110786公开日2010年9月1日申请日期2008年10月9日优先权日2007年10月9日发明者D·J·汤姆索申请人:阿森尼克斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1