杀虫活性蛋白质和编码所述蛋白质的多核苷酸的新的来源和类型的制作方法

文档序号:431990阅读:326来源:国知局

专利名称::杀虫活性蛋白质和编码所述蛋白质的多核苷酸的新的来源和类型的制作方法杀虫活性蛋白质和编码所述蛋白质的多核苷酸的新的来源和类型相关申请的交互参考本申请要求2005年3月2日提交的美国临时专利申请序列号60/657,965和2005年8月2日提交的美国临时专利申请序列号60/704,533的优先权。背景每年花费数十亿美元用于控制昆虫,并且因为昆虫施加的作物损害损失额外的数十亿美元。合成的有机化学杀虫剂是用于控制昆虫的主要工具,但是生物杀虫剂在一些领域具有重要的作用。用杀虫蛋白质基因如来自苏云金芽孢杆菌(J5fl"7/MS幼Mi7'w^e附,'s)CB丄)的杀虫蛋白质的基因转化的昆虫抗性植物已经彻底改变了现代农业并且提高了杀虫蛋白质和它们的基因的重要性和价值。主要在尸/^to/^fl^/附和致病杆菌属(以及在其他细菌属如沙雷氏菌属、假单胞菌属CP^M^附0"M)和类芽孢杆菌属)的细菌中发现的毒素复合体(TC)蛋白质和基因是杀虫蛋白质和基因的重要的、相对新的来源。至少有三种不同类别的TC蛋白质。天然的A类TC蛋白质大小约为280kDa并且具有杀虫活性。B类TC蛋白质(约170kDa)和C类TC蛋白质(约107kDa)组合增强A类TC蛋白质的杀虫功效,但是在A类TC蛋白质不存在时具有很小的到无杀虫活性。即,B类和C类TC蛋白质组合加强A类TC蛋白质的杀虫活性。关于技术的详细综迷见例如,US-2004-0208卯7和WO2004/067727。A类TC蛋白质具有杀虫活性,但是该活性相对较低。当A类TC蛋白质与B类和C类TC蛋白质组合时,它们形成复合体,该复合体比仅仅C类TC蛋白质有效得多。不像苏云金芽孢杆菌、致病杆菌属和i^Oto/^l^/"S(它们是已知杀虫的和具有杀虫蛋白质的生物),不知道生物如禾本科镰孢(F"^ir/"wgm/m>mer"/w)(现在称作玉蜀黍赤霉(G^&"//"ze"e))和曱烷八叠球菌(Afe狄flfMWWT,Vm)是杀虫的并且不知道其产生杀虫活性蛋白质。概述本发明提供了毒素复合体("TC")蛋白质的新的类别和类型,和TC蛋白质的令人兴奋的新的来源。本发明还包括编码主题蛋白质的多核苷酸。本发明还提供了包含这些多核苷酸的载体和细胞。本发明还提供了控制昆虫的新方法。本发明部分涉及令人惊奇的发现,即可以从多种不同的种系发生范围的生物,包括最值得注意的真核真菌得到新类型的TC蛋白质。附图简述图l给出了搜索的图形输出,该搜索在NCBI非冗余蛋白质数据库的标准蛋白质-蛋白质BLAST搜索中使用SEQIDNO:6的人工融和蛋白质序列,使用下面的默认值滤器设置成低复杂性;期望值10;字长3;矩阵BLOSUM62;缺口代价存在ll,延伸l。图2显示了TVwi/ie"//"中天然BC融合中的氨基酸序列,其中加下划线的氨基酸显示了使用spvB-ls.hmm模型的spvB结构域;具有双下划线的氨基酸显示了使用BModd7.hmm模型的FG-GAP结构域;粗体氨基酸显示了使用PfamrhsJs.hmm模型的RHS结构域;斜体氨基酸显示了由于缺少与其他蛋白质的同源性作图的HVR。图3显示了假定的蛋白质FG10566.1融合的BC毒素蛋白质玉蜀黍赤霉PH-1的氨基紗列,其中加下划线的氨基酸指出使用标准spvB-ls.hmm模型得到的spvB结构域;加双下划线的氨基酸指出用BModels3.hmm模型发现的三个FG-GAP结构域;粗体氨基酸显示了使用Pfamrhs—ls.hmm模型的RHS结构域;斜体氨基酸显示了通过缺少与其他蛋白质的同源性作图的HVR。图4A-D显示了来自TVmwere/to和赤霉属((7幼/^"//")的两种BC融合的毒素蛋白质的总体比对。序列简述SEQIDNO:l是天然基因组DNA序列fc/^&,其编码SEQIDNO:2的蛋白质。SEQIDNO:2显示了TcplGz蛋白质(包括推定的内含子的连读)的天然氨基酸序列。SEQIDNO:3显示了除去推定的内含子的天然的、假定的cDNA序列。该序列编码SEQIDNO:4的蛋白质。SEQIDNO:4是除去内含子编码的序列的Tcpl&蛋白质的天然氨基酸序列。SEQIDNO:5是大肠杆菌(五.co/Z)优化的多核苷酸序列,其编码SEQIDNO:2的Tcplcz蛋白质。SEQIDNO:6是从TcaC(GenBank检索号AAC38625.1)和TccCl(GenBank检索号AAL18473.1)(都来自发光光杆状菌(尸/^to,A"M"s/M附iViesce"s)菌林W-14)的氨基断列产生的融合蛋白的实例。SEQID!^0:7是从噬乙酸甲烷八叠球菌(3"^<1"^^">1"ac"/wm附)菌林C2A得到的基因组序列,其编码两个结构域毒素复合体蛋白。SEQIDNO:8是SEQIDNO:7编码的^J^酸序列。SEQIDNO:9是编码A类TC蛋白质的基因组序列(来自玉蜀黍赤霉PH-1菌林PH-1;NRRL31084染色体1)。SEQIDNO:10是SEQIDNO:9编码的^J^酸序列。SEQID1^0:11是7^朋^^//"/^1!^/^朋&体11<:€43037)中B/C类融合基因的全长序列。SEQIDNO:12是SEQIDNO:ll编码的蛋白质。SEQIDNO:13是用于根据本发明的PCR的引物P1。SEQIDNO:14是用于根据本发明的PCR的引物P2。SEQIDNO:15是用于根据本发明的PCR的引物P3。SEQIDNO:16是用于根据本发明的PCR的引物P4。SEQIDNO:17是用于根据本发明的PCR的引物P5。SEQIDNO:18是用于根据本发明的PCR的引物P6。SEQIDNO:19是融合8884(TcdB2/TcplGzC)的核苷酸序列。核苷酸l-4422编码TcdB2;核苷酸4423-4464编码TcdB2/Tcpl&C接头肽;核苷酸4465-7539编码TcplGzC。SEQIDNO:20是SEQIDNO:19编码的8884TcdB2/TcplGzC融合肽的氨基酸序列。氨基酸1-1474:TcdB2;氨基酸1475-1488:TcdB2/TcplczC接头肽;氨基酸1489-2513:TcplGzC。SEQIDNO:21是融合8883(fc/77&B/fccC3)的核苷酸序列。核苷酸1-4536编码TcplGzB;核苷酸编码TcplGzB/TccC3接头肽;核苷酸4576-7455编码TccC3。SEQIDNO:22是SEQIDNO:21编码的8883融合蛋白TcplGzB/TccC3的氨基酸序列。氨基酸1-1512:TcplGzB;氨基酸1513-1525:接头;#^酸1526-2485:TccC3。SEQIDNO:23是植物优化的核苷酸序列,其编码玉蜀黍赤霉融合的B类/C类TcplGz蛋白质的变体。SEQIDNO:24是SEQIDNO:23编码的玉蜀黍赤霉融合的B类/C类Tepl&蛋白质的变体。SEQIDNO:25是从轮枝样镰刀菌(F"sflriw附veW/"7/,V,V/^)的AContigl2提取的核苷酸序列。作为推定的TCA类蛋白质的第一区段的编码区的可读框开始的苏氨酸密码子(ACG)在核苷酸21-23表示为misc_feature。作为推定的TCA类蛋白质的第二部分的可读框开始的AAA赖氨酸密码子在核苷酸3022-3024表示为misc_feature。SEQIDNO:26是推导的SEQIDNO:25编码的推定的A类蛋白质的第一区段。SEQIDNO:27是推导的SEQIDNO:25编码的推定的A类蛋白质的第二区段。SEQIDNO:28是从轮枝样镰刀菌的Acontig34提取的核苷酸序列。对应于SEQIDNO:29中推定的TCA类编码的蛋白质的第一个天冬酰胺的编码区开始在核苷酸20-22表示为misc_feature。可读框的第二部分在TGA终止密码子的下游4个碱基开始,包含690个碱基,并且编码SEQIDNO:30中显示的230个氨基酸。可读框的第三个部分在TAA终止密码子下游11个碱基开始,包含1122个碱基,并且编码SEQIDNO:31中显示的374个氨基酸。该DNA序列中的大缺口表示为2098个n的字符串,在核苷酸3299-5396处以misc_feature表示。Ns后的DNA序列的部分包含推导的推定A类蛋白质可读框的第四部分,并且编码SEQIDNO:32中显示的1273个氩基酸。推导的推定TCA类蛋白质的该部分的第一个甘氨酸的GGA密码子在核苦酸5451-5453处表示为misc—feature。SEQIDNO:29是SEQIDNO:28编码的推定的TCA类蛋白质的第一部分。SEQIDNO:30是SEQIDNO:28编码的推定的TCA类蛋白质的第二部分。SEQIDNO:31是SEQIDNO:28编码的推定的TCA类蛋白质的第三部分。SEQIDNO:32是SEQIDNO:28编码的推定的TCA类蛋白质的第四部分。SEQIDNO:33是从轮枝样镰刀菌的BCContig12提取的核苷酸序列。对应于SEQIDNO:34中推定的TC融合的B类/C类蛋白质编码的第一个丙氨酸的编码区的开始从核苷酸22-24表示为misc—feature。该DNA序列中的一个大缺口表示为659个n的字符串,从核苷酸5483-6141表示为misc—feature。开始推定的TC融合的B类/C类蛋白质的第二部分的框内组氨酸密码子(CAT)从核苷酸6203-6205表示为misc—feature.SEQIDNO:34是SEQIDNO:33编码的推定的融合的TCB类/C类蛋白质的笫一部分。SEQIDNO:35是SEQIDNO:33编码的推定的融合的TCB类/C类蛋白质的第二部分。SEQIDNO:36是从轮枝样镰刀菌的BCContig6提取的核苷酸序列。对应于推定的TC融合的B类/C类蛋白的第一个谷氨酰胺(CAG)的编码区的开始从核苷酸20-22表示为misc—feature。开始推定的TC融合的B类/C类蛋白的第二部分的天冬氨酸密码子(GAT)在核苷酸619-621指出为misc_feature。SEQIDNO:37是SEQIDNO:36编码的推定的融合TCB类/C类蛋白质的第一个部分。SEQIDNO:38是SEQIDNO:36编码的推定的融合的TCB类/C类蛋白质的第二个部分。SEQIDNO:39是从轮枝样镰刀菌的BCContig46提取的核苷酸序列。对应于推定的TC融合的B类/C类蛋白的第一部分的第一个谷氨酸的编码区的开始(GAG)在核苷酸21-23表示为misc—feature。DNA序列中的大缺口表示为1009n,s,从核苷酸3424-4432指出为misc—feature。指定该n后推定的TC融合的B类/C类蛋白的第二部分的第一个亮氨酸的TTG密码子在核香酸4435-4437表示为misc—feature。SEQIDNO:40是SEQIDNO:39编码的推定的融合的TCB类/C类蛋白的第一部分。SEQIDNO:41是SEQIDNO:39编码的推定的融合的TCB类/C类蛋白的第二部分。详细描述本发明部分涉及令人惊奇的发现,即可以从多种种系发生的生物得到新类型的TC蛋白质,所述生物包括,最值得注意地,真核真菌。这是首次公开在例如玉蜀黍赤霉(以前称作禾本科镰孢)和甲烷八叠球菌属中的抗昆虫毒素。这些生物迄今还未知是杀昆虫的并且没有怀疑具有编码昆虫活性蛋白质的基因组区段。该发现扩宽了发现TC样基因的生物的范围。从而,本发明一般涉及从此类物种可以得到的TC样蛋白质,涉及对这些物种筛选此类蛋白质的方法,等等。考虑一些来源生物在自然界中的"角色,,也可以导致发现额外的TC蛋白质和基因的新方法。例如,玉蜀黍赤霉(以前称作禾本科镰孢)是已知的植物病原体。本发明具有该益处,一种理论是使用农作物,如玉米作为食物来源的微生物进化了抗昆虫毒素,其帮助它们胜过也以所述作物为食的昆虫。从而,本发明可以包括筛选植物-病原性微生物的抗昆虫蛋白质等等的方法。这也是首次已知的发现天然存在的功能活性的两个结构域的毒素复合体("TC")蛋白质,其中一个结构域是有功能的和与"B类"TC蛋白质的一定水平的序列相关性(如下文更详细讨论的),另一个结构域是有功能的和与"C类"TC蛋白质的一定水平的序列相关性(如下文更详细讨论的)。如本文使用的,"B结构域"、"B区段"、"C结构域"和"C区段"指与如在US-2004-0208卯7和WO2004/067727中详细讨论的"B类,,和"C类"TC蛋白质具有结构和功能相似性的多肽结构域或者区段。同样,本发明的"A类"蛋白质一般在例如US-2004-0208907和WO2004/067727中讨论。尽管玉蜀黍赤霉基因组(例如)的序列在GENBANK中公开,但是迄今还没有现有技术提示或者预期主题蛋白质将具有像已知的TC蛋白质的活性。例如,当前鉴定的结构域具有非常低程度的序列相关性和独特构象。这对于本文公开的细菌序列也是这样的。甚至没有动机去检验这些基因组序列对于假定编码的蛋白质的任何活性,因为考虑到例如低程度的序列相关性、蛋白质的特异构象,和具有这些基因组序列的生物。没有理由期望这些来源中的TC,更不用说有活性的、天然"融合的"蛋白质像Tcplcz。当然没有动机将这些基因克隆到例如植物细胞中。也没有动机篩选这些物种分离菌的培养物集合以确定主题基因是否更广泛地存在于这些生物的多种菌林中。一种示例的抗昆虫蛋白质(A类毒素的增强剂)在本文中称作TcplGz。为了容易引用,本发明的这两种结构域蛋白质有时在本文中称作"天然融合"和TcplGz~#蛋白质。本发明从而包括这些新类别和类型的TC蛋白质。本发明还包括编码主题蛋白质的多核苷酸。本发明还提供了包含这些多核苷酸的载体和细胞。在一些优选实施方案中,本发明还提供了使用本发明的新的毒素蛋白质控制昆虫和其他类似害虫的新方法。已经发现和证明本发明的天然存在的(但是迄今不是"分离的")的两个TC结构域是有活性的,现在将有动机测试和使用其他天然存在的两个结构域TC蛋白质。此类实施方案优选甲烷八叠球菌属。除了甲烷八叠球菌属和赤霉属,根据本发明使用的新的来源生物包括密螺旋体属(JV印owem")、钩端螺旋体属(丄印tos/Hni)、M,c/Y>6ii/6^r、伯克霍尔德氏菌属(5"rMo/dmVi)和Atow<w/7om属的物种。本发明还涉及筛选新的来源生物的新的A类型蛋白质和基因的,如本文公开。真核生物、真菌、赤霉属、镰孢属(7^"/7'"^和曲霉属(^印^^///附)是一些优选的来源,如伯克霍尔德氏菌属细菌。本发明的TcplGz-样(天然融合)蛋白质通常是约220kDa到约295kDa范围的分子量,尽管这仅仅是大概的大小范围。优选的重量为例如280-285kDa的大概范围。天然存在的两结构域/BC型毒素复合体蛋白质的另一个实例可从噬乙酸甲烷八叠球菌(Afe沩fl"仍flrd"flflc^wm/w)菌抹C2A得到。天然基因和蛋白质的序列在SEQIDNOs:7-8中给出。示例的TcplGz蛋白质的另一令人惊奇的特征是它具有明显的内含子。从而,本发明包括分离的包含内含子序列的TC蛋白质。本发明还包括搜索、鉴定和/或筛选含有内含子样序列的TC蛋白质。本发明还提供了令人惊奇的新类型的毒素复合体("TC,,)蛋白质的令人惊奇的新来源。从而,本发明一般涉及例如具有活性TC蛋白质的赤霉属、镰孢霉属和甲烷八叠球菌属物种。本发明还包括筛选这些新的和其他物种(它们的一些在本文中鉴定)的这些新类别的TC基因和蛋白质(以及已知的A类、B类和C类型TC蛋白质)的方法。本发明还包括从这些物种分离和/或纯化TC蛋白质并测试它们的如本文公开的毒素活性的方法。本发明还包括从这些生物制备和筛选所克隆的基因(或者其他方法产生的)文库。在一些优选实施方案中,所述生物是真核的。真核生物来源的主题蛋白质和基因对于在植物中高水平表达尤其有希望。这是首次已知报导任一类型的这些具有功能活性TC样蛋白质的生奇。从而,本发明涉及筛选这些物种的TC样基因和蛋白质的方法。这些开拓性观察具有宽的暗示并且使得本领域技术人员能够对合适物种的细菌和真菌筛选本发明的独特的操纵子。本发明的TcplGz-样蛋白质在本文中显示为可用于增强或加强例如"独立的"致病杆菌属(ATerto/^fl6^M力和/或尸/^to/^a6d"s"A类"毒素蛋白质的活性。本发明的一种或多种TC蛋白质可以用作与本领域已知的技术组合的新的成分。见例如,US-2004-0208卯7和WO2004/067727。本发明还提供了新的"A类"型TC蛋白质,其作为一个类别具有"独立的"毒素活性。更详细的解释见例如,US-2004-0208卯7和WO2004/067727。该类型的一个示例的A类基因和蛋白质可以来自本文/^开的赤霉属生物。见SEQIDNOs:9-10。尽管主题TC样蛋白质具有与例如致病杆菌属和/Vwtor/^i^/附的TC蛋白质的一定的序列相关性和特征,但是主题TC样蛋白质的序列与以前已知的TC蛋白质不同。从而,本申请提供了新类别的TC样蛋白质和编码这些蛋白质的基因,其从本文鉴定和提示的细菌和真菌属得到。利用本公开的优点,本发明的其他目的、优点和特征将是本领域技术人员显而易见的。施用主题蛋白质、和其功能、活性和用途.如本文使用的术语各A类、B类和C类TC蛋白质是本领域中已知的。此类蛋白质包括独立的毒素(A类TC蛋白质)和增强剂(B和C类TC蛋白质)。已知产生TC蛋白质的细菌包括下面属的那些细菌JP/^toWiflMMS、致病杆菌属、类芽孢杆菌属(Pflem7"c///ws)、沙雷氏菌属(5^/Tflria)和假单胞菌属(尸ww甴/wow肪)。见例如,丁香假单月包菌CPse"rfo附tmfl5:s戶Vi^ie)pv.5y"Vig"eB728a(GenBank检索号gi:23470933和gi:23472543)。如上面背景部分中提到的,尽管"毒素A"蛋白质单独具有一定的杀昆虫活性,但是"A+B+C"复合体的高杀虫功效对于TC蛋白质的商业应用更优选。然而,TC蛋白质的确切作用机理仍然不清楚。同样,还不确切的知道A、B和C组分的每种怎样(和是否)相互作用。从而,没有先验的方法来预测本发明的蛋白质是否将允许在昆虫内脏中正确发挥功能。令人惊奇的是发现主题蛋白质对于控制昆虫是高度有效的。没有预测被靶昆虫摄入后本天然的融合蛋白质将是有活性的(即,与A类TC蛋白质组合有毒性)。在本文中显示主题蛋白质令人惊奇地在昆虫内脏中相当好地发挥功能。可以以许多不同的方法进行本发明。例如,可以工程化植物以产生一种或多种类型的A类TC蛋白质以及本发明的TcplGz-型蛋白质,后一蛋白质加强A类TC蛋白质的活性。植物的每个细胞或者给定类型组织(如根或叶)中的每个细胞可以设计成具有编码A蛋白质和Tcplcz-型蛋白质的基因。备选地,植物的不同细胞可以仅产生这些蛋白质每一种的一种(或多种)。在该情况下,当昆虫叮咬和食用植物的组织时,它可以吃产生第一种A类TC蛋白质的细胞、产生第二种A类TC蛋白质的另一种细胞,和产生Tcplcz-型蛋白质的另一种细胞。从而,植物(不一定是每种植物细胞)可以产生本发明的一种或多种类型的A类TC蛋白质和Tcplw型蛋白质,从而当害虫吃植物的组织时,它们吃所有这些类型的蛋白质。除了转基因植物外,在本发明的组合中还有多种对靶标害虫施用所述蛋白质的其他方法。喷射应用是本领域中已知的。一些或者所有A类和Tcplcz-类蛋白质可以喷雾(该植物可以产生可以喷雾的一种或多种蛋白质和其他蛋白质)。用于例如土壤应用的多种类型的谦辨粒剂也是本领域中已知的并且可以根据本发明使用。本发明提供了容易施用的功能蛋白质。本发明还提供了递送杀虫蛋白质的方法,所述蛋白质是功能活性的并且有效抵抗许多目的昆虫,优选鳞翅目和/或鞘翅目昆虫。"功能活性"(或者"对...的活性,,)在本文中指蛋白质作为口服活性昆虫控制剂(单独或者与其他蛋白质组合)起作用,该蛋白质具有毒性作用(单独或者与其他蛋白质组合),或者能够^E皮坏或者阻止昆虫生长和/或进食,其可以引起或不引起昆虫死亡。当昆虫接触通过转基因植物表达、配制的蛋白质组合物、可喷雾的蛋白质组合物、诱饰基质或者其他递送系统递送的"有效量,,的本发明的"杀虫蛋白质"时,结果通常是昆虫死亡、昆虫生长和/或繁殖的抑制、和/或防止昆虫进食使得昆虫可获得所述蛋白质的来源(优选转基因植物)。从而,例如,摄入有效量的A类TC蛋白质和Tcplcz-型蛋白质的昆虫可以例如被阻止进食,生长障碍和/或被杀死。本发明的TcplGz-型蛋白质如果当与A类TC蛋白质组合使用时增强A类TC蛋白质的功能活性,那么具有"功能性,,或者毒素活性。对进食昆虫的完全致死率是优选的,但是不是实现功能活性所需的。如果昆虫避免该蛋白质或者停止进食,该避免将可用于一些应用中,即使效果是亚致死的或者致死率延迟或者是间接的。例如,如果希望昆虫抗性转基因植物,那么昆虫不愿以植物为食与对昆虫的致死毒性是一样有用的,因为最终的目的是避免昆虫诱导的植物伤害。功能活性向才直物、细菌或者其他系统的转移通常需要编码毒素的M酸序列的核酸序列整合到适于宿主的蛋白质表达载体中,该载体将存在于该宿主中。得到编码具有功能活性的蛋白质的核酸序列的一种方法是从使用如本文公开的从毒素的氨基酸序列推导的信息,从产生所述毒素的天然来源物种分离天然遗传物质。可以优化天然序列以在植物中表达,如下面更详细讨论。还可以基于蛋白质序列设计优化的多核苷酸。有许多其他方法可以将TC蛋白质整合到昆虫的食物中。例如,可能通过用蛋白质溶液喷雾食物,将毒素蛋白质掺入幼虫食物来源,如本文公开。备选地,纯化的蛋白质可以遗传工程化到其他方面有害的细菌中,其然后培养生长,并应用到食物来源或者允许存在于希望消灭昆虫的地区的土壤中。而且,用于产生该蛋白质的DNA可以直接遗传工程化到昆虫食物来源。例如,许多昆虫幼虫的主要食物来源是植物材料。因此,可以将编码毒素的基因转移到植物材料中,从而所述植物材料产生目的毒素。当说本发明的Tcplcz-型蛋白质具有两个结构域时,将注意到这不排除例如在两个主要结构域的每个结构域中存在多种亚结构域、区域和蛋白质基序。此外,由于两个主要结构域与B类和C类TC蛋白质分别具有同源性,并且考虑到本发明的TcplGz-型蛋白质在本文中显示作用类似于并且可以像B和C类TC蛋白质一样使用,本发明包括使用Tcplcz-型蛋白质的任一个或者两个结构域。即,TcplGz-型蛋白质的像C类的结构域可以例如与致病杆菌属或尸/^tor/^M附B类蛋白质一起使用。对于Tcplcz-型蛋白质的像B类的结构域也是这样。在例如下面标题为"基因和蛋白质的修饰"章节中描述了用于切割蛋白质和对应的DNA以分离和再连接目的片段的多种方法。(此类DNA和蛋白质片段例如在本发明的范围内)。可以设想许多可能的組合和应用。例如,在一些实施方案中,Tcplcz-型蛋白质的片段(优选B结构域片段或者C结构域片段)可以(与剩余的片段)分离、交换(融合或非融合)和4艮据US-2004-0208907和WO2004/067727的教导"混合和匹配"。(如本文/>开的B类和C类序列的任一种也可以用于限定本发明的实施方案。例如,在本文示例的全长序列中,通过与US-2004-0208卯7和WO2004/067727中的序列比较鉴定B类和C类结构域,并因此单独使用)。如下文讨论的,本发明的C类结构域可以通过合成连接到B类TC蛋白质。同样,B类结构域可以通过合成连接到C类TC蛋白质。连接和其他术语和定义.本发明的TcplGz-型蛋白质可以连接到A类TC蛋白质。见例如2004年3月2日提交的美国序列号60/549,516。如上面提到的,其他可能性是本发明的B类和/或C类结构域(对应于本发明的两个结构域蛋白质的片段)可以通过合成连接到另一TC蛋白质。见例如,2004年3月2日提交的美国序列号60/549,502。如本文使用的,可以理解列的多核苷酸的翻译,可以引起通常分离的蛋白质或蛋白质结构域的连接。如本文使用的,术语"接头"和"接头序列"指用于将第一个蛋白质编码区连接到随后紧随的蛋白质编码区的核苷酸,使得第一个和第二个(和/或随后的)蛋白质编码区在如第一个蛋白质编码区的可读框所定义的+l读框内形成一个更长的蛋白质编码区。此类接头或接头序列因此不能包括+1读框中的翻译终止密码子。由于接头或接头序列的翻译,第一个蛋白质编码区编码的蛋白质通过一个或多个氨基酸连接到第二个蛋白质编码区编码的蛋白质。接头是任选的,因为多肽组分可以不用接头序列而直接连接。如本文使用的,对"分离的"多核香酸和/或蛋白质和"纯化的"蛋白质的引用指这样的分子,它们不与它们将在自然中发现结合的其他分子结合。从而,对"分离的,,和/或"纯化的,,引用表明如本文描述的"人手,,的参与。例如,置于植物中的本发明的细菌或真菌多核苷酸(或者"基因")是"分离的多核苷酸"。同样地,本发明的蛋白质当通过植物产生时是"分离的蛋白质"。术语"连接的,,还可以用于表示"人手,,的参与。即,一个多核苦酸组分(如Tcplcz-型蛋白质)可以通过合成结合或"连接,,到另一多肽组分(如A类蛋白质)以形成本发明的融合蛋白。"重组的"分子指已经重组的分子。当涉及核酸分子时,该术语指包含通过分子生物学^^支术连接在一起的核酸序列的分子。术语"重组的"当涉及蛋白质或者多肽时指使用一种或多种重组核酸分子产生的蛋白质分子。术语"同源的"当涉及核列时指核苷酸序列,其连接到或者经操作而变得连接到它在自然中不连接的核酸序列,或者连接到它在自然中连接在不同位置的核M列。术语"同源的"因此指出已经使用遗传工程,即通过人的干预操作了核酸分子。从而,本发明的基因可以有效连接到异源启动子(或者"转录调节区",其指当转录调节区有效连接到目的序列时,能够介导或者调节目的核苷酸序列的转录的核苷酸序列)。优选的异源启动子可以是植物启动子。当序列功能连接以便允许目的序列的转录受到转录调节区的介导或调节时,启动子和/或转录调节区和目的序列是"有效连接的"。在一些实施方案中,为了有效连接,转录调节区可以位于与目的序列相同的链上。在一些实施方案中,转录调节区可以位于目的序列的5,。在此类实施方案中,转录调节区可以直接在目的序列的5,或者在这些区域之间可以存在间插序列。转录调节区和目的序列的有效连接可以需要合适的分子(如转基因激活蛋白)结合到转录调节区,本发明因此包括这样的实施方案,其中在体外或者体内提供此类分子。有多种方法可得到根据本发明使用的蛋白质。例如,针对本文公开的蛋白质的抗体可以用于从混合物鉴定和分离其他蛋白质。特别地,可以针对最恒定并且与其他蛋白质最不同的蛋白质部分产生抗体。然后这些抗体可以用于通过免疫沉淀、酶联免疫吸附测定(ELISA)、或者免疫印迹特别鉴定具有特征性活性的等同蛋白质。针对本文公开的蛋白质、或者针对等类抗体是本发明的方面。可以从多种来源/来源微生物得到本发明的蛋白质。(和基因)。"来自"或"得自"本文涉及的或者提到的任一种主题分离菌的蛋白质指蛋白质(或者相似的蛋白质)可以从示例的分离菌或者一些其他来源,如另一种真菌或者细菌菌林或者植物(例如,工程化以产生所述蛋白质的植物)得到。"来自"也具有该含义,并且包括可以从给定类型的真菌或者细菌得到的多核苷酸(和蛋白质),其中修饰该多核苷酸以在例如植物中表达。本领域技术人员将容易认识到,考虑到微生物基因和蛋白质的公开,可以工程化植物以产生蛋白质。使用本文公开的多核苷酸和/或Mi^f列可以制备抗体制剂、核酸探针(DNA和RNA),并用于从其他(天然)来源筛选和发现其他蛋白质基因。鉴定本发明的蛋白质和基因.根据本发明使用的蛋白质和基因可以通过使用例如寡核苷酸探针鉴定和得到。这些探针是可以检测到的核苷酸序列,其可以通过合适的标记检测到或者可以如国际申请号WO93/16094中描述的使得内在地发荧光。探针(和本发明的多核苷酸)可以是DNA、RNA、或者PNA。除了腺嘌呤(A)、胞嘧啶(C)、鸟噤呤(G)、胸腺嗜啶(T)和尿嘧啶(U;用于RNA分子)、合成探针(和多核苷酸)还可以具有次黄苷(能够与四种碱基配对的中性碱基;有时用于代替合成探针中的所有四种碱基的混合物)。从而,当在本文中提及合成的简并寡核苦酸,并且"N"或"n,,一般性使用时,"N"或"n"可以是G、A、T、C或者次黄苷。本文使用的不明确代码在提交本申请时是根据标准IUPAC命名惯例(例如,R指A或者G,Y指C或者T,等等)。如本领域公知的,如果探针分子与核酸样品杂交,那么可以有理由假定该探针和样品具有实质的同源性/相似性/同一性。优选地,通过本领域中公知的技术首先进行多核苷酸的杂交,然后在低、中或者高严格条件下洗涤,如Keller,G.H.,M.M.Manak(1987)Z)AC4尸roto,StocktonPress,NewYork,NY,pp.169-170中所述。例如,如本文陈述,通过在室温下首先用2xSSC(标准柠檬酸盐盐7jC)/0.1。/。SDS(十二烷基硫酸钠)洗涤15分钟实现低严格条件。通常进行两次洗涤。通过降低盐浓度和/或通过升高温度可以实现更高的严格性。例如,上述洗涤后可以接着进行用0.1xSSC/0.1%SDS进行两次洗涤,每次在室温下进行15分钟,接着用0.1xSSC/0.1。/。SDS在55。C洗涤,每次30分钟。这些温度可以用于本文给出的其他杂交和洗涤方案并且是本领域技术人员已知的(例如SSPE可以用作盐代替SSC)。通过向445ml水加入50ml20xSSC和5ml10%SDS,可以制备2xSSC/0.1%SDS。通过组合NaCl(175.3g/0.150M),柠檬酸钠(88.2g/0.015M),和水,用10NNaOH调节pH到7.0,然后调节体积到1升,可以制备20xSSC。通过将10gSDS溶解在50ml高压灭菌水中,然后稀释到lOOml,可以制备10%SDS。探针的检测提供了以已知方式确定是否保持杂交的手段。这种探针分析提供了快速鉴定本发明的毒素编码基因的方法。用作根据本发明的探针的核苷酸区段可以用DNA合成仪和标准方法合成。这些核苷酸序列还可以用作PCR引物扩增本发明的基因。与给定多核苷酸的杂交是可以用于鉴定、发现、和/或定义本发明的蛋白质和基因的技术。如本文使用的,杂交的"严格"条件指实现与本申请人使用的条件相同的或者基本相同程度的杂交特异性的条件。特别地,通过标准方法在DNA印迹上进行用"P-标记基因特异探针与固定化DNA的杂交(见例如,Maniatis,T.,E.F.Fritsch,J.Sambrook[1982Mo/"w/"rC7w"g:力丄d6omto/^Af朋做/,ColdSpringHarborLaboratory,ColdSpringHarbor,NY)。通常,在允许检测耙序列的条件下进行杂交和随后的洗涤。对于双链DNA基因探针,在DNA杂交分子的解链温度(Tm)下20-25。C在6xSSPE,5xDenhardt溶液,0.1%SDS,0.1mg/ml变性DNA中过夜进行杂交。解链温度如下面的公式描述(Beltz,G.A.,K.A.Jacobs,T.H.Eickbush,P.T.Cherbas,和F.C.Kafatos[1983Af"/iofife五wz戸o/ogy,R.Wu,LGrossmanandK.Moldaveeds.jAcademicPress,NewYork100:266-285):1)Tm=81.5。C+16.6Log[Na++0.41(%G+C)-0.61(%甲酰胺)-600/双链体的长度(>^对)。2)通常如下进行洗涤3)在lxSSPE,0.1%SDS中室温下两次(低严格洗涤)。4)在Tm-20。C下0.2xSSPE,0.1%SDS中洗涤一次(中等严格洗涤)。对于寡核苷酸探针,在低于杂种分子的解链温度(Tm)10-20。C下在6xSSPE,5xDenhardt溶液,0.1%SDS,0.1mg/ml变性DNA中进行过夜杂交。通过下面的公式确定寡核苷酸探针的Tm:Tm(°C)=2(T/A碱基对数目)+4(G/C碱基对数目)(Suggs,S.V.,T.Miyake,E.H.Kawashime,M丄Johnson,K.Itakura,andR.B.Wallace[1981/C/V-f/CXJ5>附/.Dev.(Zsi"g尸Mnyet/(7e/ies,D.D.Brown[ed.,AcademicPress,NewYork,23:683-693)。通常如下进行洗涤1)室温下lxSSPE,0.1%SDS中15分钟两次(低严格洗涤)。2)在lxSSPE,0.1%SDS中杂交温度下洗涤一次15分钟(中等严格条件)。通常,可以改变盐和/或温度以改变严格性。对于长度>大约70碱基的标记的DNA片段,可以使用下面的条件低1或2xSSPE,室温低1或2xSSPE,42。C中等0.2x或lxSSPE,65。C高0.1xSSPE,65。C。双链体形成和稳定性取决于杂交分子双链之间的实质互补性,并且如上面提到,可以忍受一定程度的错配。因此,本发明的探针序列包括所述序列的突变(或者单个或多个)、缺失、插入,和其组合,其中所述突变、插入和缺失允许与目的靶标多核苷酸的稳定杂交分子的形成。可以以多种方法在给定的多核苷酸序列中产生突变、插入和缺失,并且这些方法是普通技术人员已知的。其他方法可以在将来变得已知。PCR技术.聚合酶链式反应(PCR)是核酸序列的重复的、酶促引发的合成。该方法是本领域冲支术人员>^知和常用的(见Mullis,美国专利号4,683,195,4,683,202,和4,謂,159;Saiki,RandallK.,StephenScharf,FredFaloona,KaryB.Mullis,GlennT.Horn,HenryA.Erlich,NormanArnheim[1985"EnzymaticAmplificationof卩-GlobinGenomicSequencesandRestrictionSiteAnalysisforDiagnosisofSickleCellAnemia,"5We"ce230:1350-1354)。PCR;L^于目的DNA片段的酶促扩增,所述片段的侧翼是与靶序列的相反链杂交的两种寡核苷酸引物。引物的3'末端相互相对。才莫板的热变性、引物与它们的互补序列的退火和退火的引物用DNA聚合酶延伸的重复循环导致PCR引物的5,末端定义的区段的扩增。每种引物的延伸产物可以用作其他引物的模板,从而每轮基本上倍增前一轮中产生的DNA片段的量。这导致特定靶片段的指数积累,在几小时内高达几百万倍。通过使用热稳定的DNA聚合酶如从嗜热细菌水栖嗜热菌(77ie/7M附fl《"""c"s)分离的rfl《聚合酶,可以完全自动化扩增方法。可以使用的其他酶是本领域技术人员已知的。本发明的DNA序列可以用作PCR扩增的引物。在进行PCR扩增中,在引物和模板之间可以耐受一定程度的错配。因此,示例引物的突变、缺失和插入(特别向5,末端加入核苦酸)落入本发明的范围内。可以通过普通技术人员已知的方法在给定引物中产生突变、缺失和插入。基因和蛋白质的修饰.根据本发明使用的基因和蛋白质不仅包括特别示例的全长序列,而且包括这些序列的部分、区段和/或片段(包括与全长分子相比的内部和/或末端缺失)、其变体、突变体、嵌合体和融合。用于本发明的蛋白质可以具有替代的氨基酸,只要它们保留本文示例的蛋白质的特征性杀虫/功能活性。"变体"基因具有核苷餅列,其编码相同蛋白质或具有与示例的蛋白质功能等同的等同蛋白质。术语"变体蛋白质"和"等同蛋白质"指具有与示例的蛋白质相同或者基本上相同的生物学/功能活性的蛋白质。如本文使用的,对"等同"序列的引用指具有提高或者不会不利地影响功能性的氛基酸替代、缺失、加入或者插入的序列。保留功能性的片段也包括在该定义中。保留与示例的蛋白质的对应片段相同或相似功能的片段和其他等同物也在本发明的范围内。为了多种目的,如增加(或降低)蛋白质的蛋白酶稳定性(不实质的/大量降低蛋白质的功能性),可以做出改变,如氣基酸替〗戈或加入。使用如进行点突变的标准技术,可以容易地构建基因的变异。此外,如美国专利号5,605,793描述了通过在随机片段化后使用DNA重新组装产生额外的分子多样性的方法。变体基因可以用于产生变体蛋白质;重组宿主可以用于产生变体蛋白质。使用这些"基因改组,,技术,可以构建等同的基因和蛋白质,其包含本文示例的任一序列的5、10、或者20个连续残基(氨基酸或核苷酸)。使用可通过商业途径获得的外切核酸酶或者内切核酸酶,根据标准方法可以制备全长基因的片段。例如,可以用酶如勛m或者位点定向诸变从这些基因的末端系统地切除核苷酸。而且,可以使用多种限制酶得到编码活性片段的基因。蛋白酶可以用于直接得到这些蛋白质的活性片段。在如本文公开的本发明的范围内,TC蛋白质可以截短并且仍然保持功能活性。"截少豆的蛋白质,,是指蛋白质的一部分可以切割并且在切割后仍然显示出活性。通过在昆虫内脏内或外的蛋白酶可以实现切割。此外,使用分子生物学技术可以产生有效切割的蛋白质,其中编码所述蛋白质的DNA碱基通过限制f山L—"""-、丄""*A"丄''s-.、,很除去。截短后,所述蛋白质可以在异源系统如大肠杆菌、杆状病毒、基于植物的病毒系统、酵母等等中表达,然后置于如本文公开的昆虫测定法中以确定活性。本领域公知,可以成功地产生截短的蛋白质,从而它们保留功能活性,而具有小于完整的全长序列。本领域中公知5丄毒素可以以截短的(核心毒素)形式使用。见例如,Adang"fl/"Gerte36:289-300(1985),"Characterizedfull-lengthandtruncatedplasmidclonesofthecrystalproteinofjBfl"7/"s决iifiVig/ews/ssubspA:MrWaA:/HD-73andtheirtoxicitytoAfam/"c"^xto."。有其他截短的蛋白质的实例,其保留杀虫活性,包括昆虫保幼激素酯酶(RegentsoftheUniversityofCalifornia的美国专利号5,674,485)。如本文使用的,术语"毒素"还包括功能活性截短。因为遗传密码的简并性/冗余性,多种不同的DNA序列可以编码本文公开的氨基,列。产生编码相同或基本上相同毒素的备选DNA序列在本领域技术人员的能力范围之内。这些变体DNA序列在本发明的范围内。本发明包括例如1)从野生型生物得到的蛋白质;2)突变产生的变体;3)通过产生保守氨基酸替代设计的变体;和4)通过编码主题TC蛋白质的多种不同序列的随机片段化和重新组装产生的变体(DNA改组)。见例如美国专利号5,605,793。编码主题蛋白质的DNA序列可以是野生型序列、突变序列或者设计用于表达预定蛋白质的合成序列。尤其有用的是例如通过避免多聚腺苷酸化信号和使用植物优选的密码子设计成在植物中高水平表达的DNA序列。在本文中已经特别示例了某些蛋白质和基因。由于这些蛋白质和基因仅仅是示例性的,所以将容易明白的是本发明包括使用具有与示例的蛋白质相同或相似功能性的变异或者等同蛋白质(和编码其等同物的核苷酸序列)。等同蛋白质将与示例的TC蛋白质具有^酸相似性(和/或同源性)。本发明的优选多核苷酸和蛋白质可以按照较窄的同一性和/或相似性范围限定。例如,A、B和/或C类TC蛋白质与本文示例或提到的序列相比的同一性和/或相4以寸生可以为40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、卯、91、92、93、94、95、96、97、98或99%,并且C类TC蛋白质与本文示例或提到的序列相比的同一性和/或相4以小生可以为35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99%。上面列出的任一数字可以用于限定上限和下限。例如,可以将本发明的蛋白质定义为例如与示例的蛋白质具有50-90%同一性。如本文使用的,除非另外指出,使用Karlin和Altschul(19卯),iVW/.爿c"(/.87:2264-2268,在Karlin和Altschul(1993),C/5^490:5873-5877中改进的算法确定两个核酸的百分比序列同一性和/或相似性。这种算法整合到Altschul"a/.(1990),/Afo/.5,》/.215:402-410的NBLAST和XBLAST程序中。用NBLAST程序,得分=100,字长=12进行BLAST核苷酸搜索。可以用如Altschul"/.(1997),7V"c/.及d25:3389-3402中描述的缺口BLAST(GappedBLAST)。当利用BLAST和缺口BLAST程序时,使用各自程序(NBLAST和XBLAST)的默认参数。见NCBI/NIH网站。使用如上面的背景部分中描述的Crickmore等人的方法和算法,也可以计算得分。为了得到用于比较目的的缺口比对,使用VectorNTISuite8(InforMax,Inc.,NorthBethesda,MD,U.S.A.)的AlignX函数,使用默认参数。这些为缺口打开罚分15,缺口延伸罚分6.66,缺口分开罚分范围8。列。通过分析此类比对,可以鉴定主题多肽的相对保守和非保守的区域。这可以例如用于评估通过修饰或者替代一个或多个氨基酸残基改变多肽序列是否可以预期被耐受。氨基酸同源性/相似性/同一性将在蛋白质的负责其活性或者参与决定最终负责其活性的三维构型的区域中通常(但不一定是必须的)是最高的。在该方面,某些氨基酸替代是可以接受的并且可以预期被耐受。例如,这些替代可以在对于活性不关键的蛋白质区域内。分析蛋白质的晶体结构和基于软件的蛋白质结构建模,可以用于鉴定可以修饰(使用位点定向诱变、改组等等)以实际上改变蛋白质的性质和/或增加功能性的蛋白质区域。还可以改变蛋白质的多种性质和三维特征而不会不利地影响蛋白质的毒素活性/功能性。可以预期保守絲酸替代将被耐受/不会不利地影响分子的三维构型。可以将M酸放入下面的类别非极性的、不带电的极性的、碱性的和酸性的。借以将一个类别的氨基酸用相同类型的另一氨基酸替代的保守替代落入本发明的范围内,只要该替代对于化合物的生物活性不是不利的。表l提供了属于每个类别的氨基酸的实例。_表l.氨基酸类别_M酸类别_氨基酸实例_非极性的Ala,Val,Leu,lie,Pro,Met,Phe,Trp不带电极性的Gly,Ser,Thr,Cys,Tyr,Asn,Gln酸性的Asp,Glu_碱性的_Lys,Arg,His_在一些情况中,还可以进行非保守替代。关键因素是这些替代不显著减小该蛋白质的功能性/生物学/毒素活性。使用本文提供的教导,从野生型或重组细菌和/或从其他野生型或重组生物可以得到等同的TC蛋白质和/或编码这些等同蛋白质的基因。多种物种的真菌和细菌现在可以用作如本文公开的来源分离菌。用于在异源生物中表达的序列的优化.为了得到异源基因在植物中的高表达,例如,可以优选再次工程化所述基因,从而它们在植物细胞中更有效表达。玉米是一种此类植物,其中可优选在转化前重新设计异源基因以增加其在所述植物中的表达水平。因此,在编码细菌或真菌毒素的基因的设计中的额外步骤例如是再次工程化异源基因以在不同类型的生物中最佳表达。关于产生经优化用于植物表达的合成基因的教导可以见例如美国专利号5,380,831。也示例了经优化用于在大肠杆菌中表达的序列,如下面实施例中讨论。转基因宿主.可以将编码本发明的毒素复合体蛋白质的基因导入多种微生物或植物宿主中。在优选实施方案中,使用转基因植物细胞和植物。优选的植物(和植物细胞)是玉米、棉花、油菜、向日葵和大豆。在优选实施方案中,所述基因的表达直接或间接导致蛋白质的细胞内产生(和保持)。可以以这种方式使得植物是昆虫抗性的。当转基因/重组/转化/转染的宿主细胞(或者其内含物)被害虫摄入时,害虫将摄入该毒素。这是优选的方式,以这种方式导致害虫接触该毒素。结果是害虫的控制(杀死或者使得生病)。以相似的方式也可以控制吸吮害虫。备选地,在存在目标害虫的地方可以应用合适的微生物宿主,如假单胞菌,如荧光假单胞菌(尸.微生物可以在那里增殖,并且被目标害虫摄食。可以在延长毒素的活性和稳定细胞的条件下处理含有毒素基因的;^生物。所处理的细胞保留毒性活性,然后可以应用于目标害虫的环境。本发明还包括施用细胞的组合,一些细胞表达一种或多种类型的蛋白质,其他细胞表达其他类型的蛋白质(如一些细胞产生A类毒素蛋白质,其他细胞产生本发明的"加强性"Tcplcz-型蛋白质)。当通过合适的载体将毒素基因导入微生物宿主,并且将所述宿主以活的状态应用于环境时,将使用某些宿主微生物。选择已知占据一种或多种目的作物的"植物圏"(叶面、叶圏、根际和/或根面)的孩i生物宿主。选择这些微生物以便能够在特定环境(作物和其他昆虫栖息地)与野生型微生物成功地竟争,提供表达多肽杀虫剂的基因的稳定保持和表达,和如希望,提高保护杀虫剂免于环境降解和失活。已知多种微生物栖息在多种重要的作物的叶面(植物叶子的表面)和/或根际(植物根周围的土壤)。这些微生物包括细菌、藻类和真菌。尤其重要的是孩il生物,如细菌,如假单J包菌属CPse"rfo/mwflw)、欧文氏菌属(五riWm'")、沙雷氏菌属、克雷伯氏菌属(IT/e"Ze/to)、黄单胞菌属(JVfl"沩(/m"fls)、链霉菌属(S&e/^mj;ces)、根瘤菌属(i/ii'zo6i'iim)、红假单胞菌属(及/to甴/we"^iwo"氾)、嗜甲基菌属(Afe幼j;/o^/rz7"s)、土壤杆菌属(/^6fl"eWM附)、醋杆菌(Jc^6fl"er)、乳杆菌(Z^cto6flci7/附)、节杆菌属(J/"幼n6""er)、固氮菌属(JzotoMcfeiO、明串珠菌属(丄ewcow仍toc)、和产碱菌属04/0!//^^";真菌,尤其酵母,例如酵母属OSflccAflro/^c^)、隐球酵母属(O"tococcMS)、克鲁维酵母属(JT/ionwwwj;c^)、掷孢酵母属(S/wn6o/o附yces)、红酵母属(//i(wto似i"M/fl)、和短梗霉属(y4"r^7AawV/iw附)。尤其重要的是这样的植物圏细菌种,如丁香假单胞菌(尸w"^m卵fls5^W"gflC)、荧光假单月包菌(尸5^Wfifo附tf""s/7MWe5reMS)、粘质沙雷氏菌(Se/T"&Vl附direscews)、木醋杆菌(yice似6a"er;iqv/,7iMwi)、才艮瘤土i裒杆菌(/lgfo6a"er,7i附,謂e/flc/e"s)、球形红假单胞菌(i/^o/^i^to卿"fls5/)/^朋Vfey)、野油菜黄单月包菌(Xa/i说o/Mwiascfl附/;^^Ws)、苜蓿才艮瘤菌(/W^zo6/w附附e/i/ori)、真养产碱菌(^4/(7"//《《"^ew^Y^/rws)、和棕色固氮菌(^4zo似6fl"erv/we/(iw必/);和植物圏酵母种,如深红酵母(及/^Ato/""/fl/"w6m)、红酵母(兄g/"riw/s)、海滨红酵母(i.Amw7"fl)、橙黄红酵母(i.flrwmwritfcfl)、浅白隐球酵母(CV^ptococcws"/^/iw)、流散隐球酵母(C^//7"e朋)、变黄罗伦隐球酵母(C./awmiri/)、罗斯酵母OStfcc/^iY附j^Mnwei")、普地酵母(S./)/^to/7ewsis)、酉良酒酵母(51.ce/*ev/siW)、掷孑包酵母(iS/w/Y6o/o附yces/Ywews)、香气掷孢酵母(51.、4弗地克鲁维酵母(A7MyveiY附ycesverowae)、和出芽短梗霉(JwreoAflwWiTi/ii/^//M/flM)。还重要的是着色的微生物。插入基因以形成转基因宿主.本发明的一方面是用表达本发明的蛋白质的本发明的多核苷酸转化/转染植物、植物细胞和其他宿主细胞。可以使得以这种方式转化的植物抗目标害虫的攻击。多种方法可以用于在允许基因的稳定维持和表达的条件下向目标宿主种导入编码蛋白质的基因。这些方法是本领域技术人员公知的并且描述于例如美国专利号5,135,867。例如,包含大肠杆菌中复制系统和允许选择转化的细胞的多种克隆栽体可以用于制备以将外源基因插入到高等植物中。载体包括例如,pBR322、pUC系列、M13mp系列、pACYC184等等。因此,可以将编码毒素的序列插入到载体中合适的限制性位点上。所得的质粒用于转化到大肠杆菌中。在合适的营养培养基中培养大肠杆菌细胞,然后收获并裂解。回收质粒。通常如分析方法进行序列分析、限制性分析、电泳,和其他生物化学-分子生物学方法。每次操作后,可以切割使用的DNA序列并连接到下一个DNA序列。可以在相同或者其他质粒中克隆每种质粒序列。取决于将目的基因插入植物的方法,其他DNA序列可以是必要的。如果,例如,用Ti或者Ri质粒转化植物细胞,那么Ti或者Ri质粒T-DNA的至少右边界,但是通常右边界和左边界必须连接作为待插入基因的侧翼区。T-DNA用于转化植物细胞的用途已经深入研究并且在EP120516;Hoekema(1985)在:肌wcrrj;/Vflwf5^ste附,Offset-durkkerijKantersB.V.,Alblasserdam,Chapter5;Fraleyefa/"CWtJev.5"c/.4:1-46;和An"fl/.(1985)£7kfB6>/.4:277-287中描述。多种技术可以用于将DNA插入植物宿主细胞。那些技术包括用T-DNA转化(使用根癌土壤杆菌(JgiY^tfcteW"w似/we/tfde附)或者发根土壤杆菌(Jgr^flctef/i/m/7^oge"^))作为转化剂)、融合、注射、生物射弹(孩M立轰击),或者电穿孔以及其他可能的方法。如果用土壤杆菌转化,那么将插入的DNA必须蜂皮克隆到特定的质粒,即,插入到中间载体中或者双元栽体中。由于与T-DNA中序列同源的序列,中间载体可以通过同源重组整合到Ti或者Ri质粒中。Ti或者Ri质粒还包含转移T-DNA必要的vir区。中间栽体不能在土壤杆菌中自身复制。可以通过辅助质粒(接合)将中间载体转移到根癌土壤杆菌中。双元载体可以在大肠杆菌和土壤杆菌中自身复制。它们包含选择标记基因和接头或多接头,其周围是右和左T-DNA边界区。可以将它们直接转化到土壤杆菌中(Holsters"d[1978Af(/.(7饥G"^i"163:181-187)。用作宿主细胞的土壤杆菌将包含携带vir区的质粒。vir区是将T-DNA转移到植物细胞中必要的。可以含有额外的T-DNA。这样转化的细菌用于转化植物细胞。植物外植体可以有利地与根癌土壤杆菌或发#>土纟泉杆菌培养以将DNA转移到植物细胞中。然后在可以含有用于选择的抗生素或杀生物素的合适的培养基中,从转染的植物材料(例如,叶片、茎、根的段,以及原生质体或者悬浮培养的细胞)再生完整植物。然后可以对这样得到的植物测试所插入的DNA的存在。对于注射和电穿孔,对质粒没有特别要求。可能使用普通的质粒,如pUC衍生质粒。以常规方式在植物内生长转化的细胞。它们可以形成胚细胞并将转化的性状传递到子代植物中。此类植物可以以正常方式生长并与具有相同的转化遗传因子或者其他遗传因子的植物杂交。得到的杂种个体具有对应的表型性质。在本发明的一些优选的实施方案中,从插入到植物基因组的转录单位表达编码毒素的基因。优选地,所述转录单位是重组栽体,其能够稳定整合到植物基因组中并且能够选择表达编码所述蛋白质的mRNA的转化的植物品系。一旦插入的DNA已经整合到基因组,它在那里就相对稳定(并且不再次出来)。它通常含有选择标记,其赋予转化的植物细胞对杀生物剂或抗生素的抗性,如对卡那霉素、G418、博来霉素、潮霉素或者氯霉素的抗性。各使用的标记将因此允许选择转化的细胞而不是不含有插入的DNA的细胞。优选通过组成型或诱导型启动子在植物细胞中表达目的基因。一旦表达,将mRNA翻译成蛋白质,从而将目的氨基酸掺入蛋白质中。编码植物细胞中表达的毒素的基因可以处于组成型启动子、组织特异的启动子或者诱导型启动子的控制下。存在一些技术可用于将外源重组质粒导入植物细胞,和用于得到稳定保持和表达所导入基因的植物。此类技术包括将包被在微粒上的遗传物质直接导入细胞中(Cornell的美国专利号4,945,050和DowElanco,现在DowAgroSciences,LLC的5,141,131)。此外,可以使用土壤杆菌技术转化植物,见UniversityofToledo的美国专利号5,177,010,TexasA&M的5,104,310;欧洲专利申请0131624B1;Schilperoot的欧洲专利申请120516,159418B1和176,112;MaxPlanck的欧洲专利申请116718,290799,320500;JapanTobacco的欧洲专利申请604662和627752,和美国专利号5,591,616;CibaGeigy,现在Novartis的欧洲专利申请0267159和0292435,和美国专利号5,231,019;Calgene的美国专利号5,463,174和4,762,785;Agracetus的美国专利号5,004,863和5,159,135。其他转化技术包括颈须技术。见Zeneca的美国专利号5,302,523和5,464,765。电穿孔才支术已经用于转4匕植物。见BoyceThompsonInstitute的WO87/06614;Dekalb的美国专利号5,472,869和5,384,253;和PlantGeneticSystems的WO92/09696和WO93/21335。此外,还可以使用病毒载体产生转基因植物,该植物产生目的蛋白质。例如,可以用属于MycogenPlantScience和Ciba-Giegy,现在Novartis的美国专利号5,569,597,以及Biosource的美国专利号5,589,367和5,316,931中描述的方法,用病毒载体转化单子叶植物。如以前提到的,DNA构建体导入植物宿主的方式对于本发明不是关键的。可以使用提供有效转化的任何方法。例如,用于植物细胞转化的多种方法在本文中描述并且包括使用Ti或者Ri质粒等等进行土壤杆菌介导的转化。在许多情况下,将希望有用于转化的构建体,其在一边或两边边界上是T-DNA边界,更具体地右边界。当构建体使用根癌土壤杆菌或者发根土壤杆菌作为转化方式时这尤其有用,尽管T-DNA边界可以发现用于其他转化方式。当土壤杆菌用于植物细胞转化时,可以使用载体,其可以导入宿主中用于与宿主中存在的T-DNA或Ti或Ri质粒同源重组。栽体的导入可以通过电穿孔、三亲本交配和本领域技术人员已知的用于转化革兰氏阴性细菌的其他技术进行。载体转化到土壤杆菌宿主的方式对于本发明不是关键的。含有用于重组的T-DNA的Ti或Ri质粒可以能够或不能引起菌瘿形成,并且对于所述发明不是关键的,只要在所述宿主中存在vir基因。在将土壤杆菌用于转化的一些情况中,将T-DNA边界内的表达构建体插入到广语载体如pRK2或者其衍生物中,如DittaCfl/.,(PNASUSA(1980)77:7347-7351和EPO0120515中描述,将其引入本文作为参考。表达载体和T-DNA中将包括如本文描述的一种或多种标记,其允许选择所转化的土壤杆菌和转化的植物细胞。使用的具体标记对于本发明不是关键的,优选的标记取决于使用的宿主和构建。为了使用土壤杆菌转化植物细胞,可以将外植体合并并与转化的土壤杆菌培育足够的时间以允许其转化。转化后,通过用合适的抗生素选择杀死土壤杆菌并将植物细胞与合适的选择培养基培养。一旦形成愈伤组织,根据植物组织培养和植物再生领域中公知的方法,使用合适的植物激素刺激枝条形成。然而,愈伤组织中间阶段不总是必须的。枝条形成后,可以将植物细胞转移到刺激根形成的培养基,从而完成植物再生。然后可以培养植物到结实并将所述种子用于建立将来的世代。不管转化技术,优选将编码毒素的基因掺入适于在植物细胞中表达所述基因的基因转移载体,这可如下实现在载体中包括植物启动子调节元件,以及3,非翻译的转录终止区,长口Nos等等。除了用于转化植物的多种技术,与外源基因接触的组织的类型也可以改变。此类组织将包括但是将不限于胚发生组织、I、II和III型愈伤组织、下胚轴、分生组织、根组织、用于在韧皮部表达的组织,等等。在脱分化期间可以使用本文描述的合适的技术转化几乎所有植物组织。如上面提到的,如果希望,可以使用多种选择标记。对特定标记的选择由技术人员决定,但是可以使用任一种下面的选择标记以及本文中没有列出的可以作为选择标记的任一种其他基因。此类选择标记包括但不限于转座子Tn5的氨M苷磷酸转移酶基因(Aph11),其编码对抗生素卡那霉素、新霉素和G418的抗性,以及编码对草甘膦、潮霉素、氨甲蝶呤、膦丝菌素(bialaphos)、咪唑啉酮、磺脲类和噻唑并嘧啶除草剂如氯磺隆(chlorsulfuron)、溴草腈、茅草枯等等的抗性或者耐受性的那些基因。除了选择标记外,可以希望使用报道基因。在一些情况中,可以使用报道基因与或不与选择标记。报道基因是通常不存在于受体生物或组织并且通常编码导致某些表型改变或者酶促性质的蛋白质的基因。此类基因的实例在K.Wising""/Ann.Rev.Genetics,22,421(1988)中提供。优选的报道基因包括大肠杆菌的"/JJ基因座的p-葡糖醛酸糖苷酶(GUS)、来自大肠杆菌Tn9的氯霉素乙酰转移酶基因、来自生物发光的水母(y^《"o""v/ctoWfl)的绿色荧光蛋白,和来自萤火虫(尸/^riw附/y^fl/Z)的愛光素酶基因。将所述基因导入受体细胞后,可以在合适的时间进行检测报道基因表达的测定。一种优选的此类测定必需使用如JeffersonW(1987Biochem.Soc.Trans.15,17-19)所述的编码大肠杆菌的基因座的卩-葡糖醛酸糖苷酶(GUS)的基因来鉴定转化的细胞。除了植物启动子调节元件外,来自多种来源的启动子调节元件可以在植物细胞中有效4吏用以表达外源基因。例如,可以使用细菌来源的启动子调节元件,如章鱼碱合酶启动子、胭脂氨酸合酶启动子、甘露碱合酶启动子;病毒来源的启动子,如花椰菜花叶病毒启动子(35S和19S)、35T(其是再次工程化的35S启动子,见美国专利号6,166,302,特别是实施例7E),等等。植物启动子调节元件包括但不限于核酮糖-1,6-二磷酸(RUBP)羧化酶小亚基(ssu)、(5-conglycinin启动子、卩-茱豆蛋白启动子、ADH启动子、热休克启动子,和组织特异性启动子。可以存在其他元件,如基质附着区、支架附着区、内含子、增强子、多腺苷酸化序列等等,并且从而可以提高转录效率或者DNA整合。此类元件可以是或不是DNA功能必需的,尽管它们可以通过影响转录、mRNA稳定性等等提供DNA的更好的表达或者功能。如需要可以在DNA中包括此类元件以得到植物中转化的DNA的最优性能。典型的元件包括但不限于Adh内含子1、Adh内含子6、苜蓿花叶病毒外壳蛋白前导序列、玉米条紋病毒外壳蛋白前导序列,以及技术人员可以得到的其他元件。还可以使用组成型启动子调节元件,从而指导在所有细胞类型中和在所有时间连续的基因表达(例如,肌动蛋白、泛蛋白、CaMV35S等等)。组织特异性启动子调节元件负责在特定细胞或者组织类型,如叶子或种子中的基因表达(如玉米醇溶蛋白、油质蛋白、油菜籽蛋白、ACP、球蛋白等等)并且也可以使用这些元件。织和器官中是有活性的。此类元件的实例包括但不限于花粉特异的、胚特异的、玉米穗丝特异的、棉花纤维特异的、根特异的、种子胚乳特异的启动子调节元件等等。在一些情况下,可以希望使用诱导型启动子调节元件,其负责基因响应特定信号的表达,所述信号为诸如物理刺激(热休克基因)、光(RUBP羧化酶)、激素(Em)、代谢物、化学品,和胁迫。可以使用在植物中有功能的其他希望的转录和翻译元件。许多植物特异的基因转移载体是本领域中已知的。序。额外的信息可以见Sambrook,J.,Fritsch,E.F.,和Maniatis,T.(1989),MolecularCloning,ALaboratoryManual,ColdSpringHarborPress,将其引入本文作为参考。抗性控制.随着转基因植物中对杀虫蛋白质的商业使用的增加,一种者虑是抗性控制。即,有许多公司在它们的产品中使用苏云金芽孢杆菌毒素,并且担心昆虫产生对苏云金芽孢杆菌毒素的抗性。昆虫抗性控制的一种策略将是组合致病杆菌属、尸/^tor/m^/附、赤霉等等产生的TC杀虫蛋白质与毒素如苏云金芽孢杆菌结晶毒素、来自芽孢杆菌菌抹的可溶性杀虫蛋白质(见例如WO98/18932和WO99/57282)或者其他昆虫毒素。该组合可以配制用于喷雾应用或者可以是分子组合。可以用产生两种或多种不同的昆虫毒素的基因转化植物(见例如,Gould,385!Vwde"ce26-33(1988)和美国专利号5,500,365;同样地,欧洲专利申请0400246Al和美国专利5,866,784;5,908,970;和6,172,281也描述了用两种苏云金芽孢杆菌结晶毒素转化植物)。另一种产生含有一种以上的昆虫抗性基因的转基因植物的方法将是首先产生两种植物,每一种植物含有一种昆虫抗性基因。然后可以使用传统植物育种技术将这些植物杂交以产生含有一种以上的昆虫抗性基因的植物。从而将显而易见的是,本文使用的短语"包含一种多核苷酸,,除非植物相反,指包含至少一种多核苷酸(和可能地更多种多核苷酸,它们是连续或不连续的)。制剂和其他递送系统.含有本发明的细胞和/或蛋白质的配制的诱斜粒剂(包括包含本文描述的基因的重组微生物)可以应用于土壤。还可以将配制的产品作为种子涂布或者根处理或者总的植物处理在作物周期的以后的阶段应用。细胞的植物和土壤处理可以通过与多种惰性材料如无机矿物质(层状硅酸盐、碳酸盐、硫酸盐、磷酸盐等等)或者植物材料(如粉状玉米芯、谷壳、核糖壳等等)混合作为可湿性粉剂、粒剂或者粉剂使用。制剂可以包括散布黏着佐剂、稳定剂、其他杀虫添加剂或者表面活性剂。液体制剂可以是基于水的或者非水的并且用作泡沫剂、凝胶剂、混悬剂、可乳化的浓缩物,等等。成分可以包括流变剂、表面活性剂、乳化剂、M剂或者聚合物。如本领域技术人员将理解的,杀虫剂浓度将取决于具体制剂的性质,尤其它是浓缩物还是直接使用而有很大变化。杀虫剂将以按重量计至少1%存在并且可以为按重量计100%。干燥制剂将具有按重量计约1-95%的杀虫剂,而液体制剂将通常具有按重量计约1-60%的处于液相的所述固体。制剂将通常具有约102到约l(^个细胞/mg。这些制剂将每公项施用约50mg(液态或干燥的)到lkg或以上。可以将制剂通过喷雾、撒粉、喷洒等等应用于害虫的环境,如土壤和叶子。另一种递送方案是将毒素的遗传物质掺入到杆状病毒载体。杆状病毒感染特定昆虫宿主,包括希望用所迷毒素靶定的那些宿主。可以将含有毒素的表达构建体的感染性杆状病毒引入昆虫出没的区域,从而使受感染的昆虫中毒。已知昆虫病毒或者杆状病毒感染并不利地影响某些昆虫。病毒对昆虫的效果是緩慢的,并且病毒不立即中止昆虫的进食。从而,不认为病毒是最佳的害虫控制剂。然而,将毒素基因组合到杆状病毒载体可以提供传递毒素的有效途径。此外,因为不同的杆状病毒对不同的昆虫是特异的,所以可能使用特定毒素选择性靶定特定损害性虫害。毒素基因的尤其有用的载体是核型多角体病毒。使用该病毒转移载体已经被描述并且现在是用于向昆虫中转移外来基因所选的载体。可以以可经口传递的形式构建病毒-毒素基因重组体。杆状病毒通常通过中肠肠粘膜感染受害昆虫。插入强病毒外壳蛋白启动子后的毒素基因将被表达并且将快速杀死受感染的昆虫。除了本发明的蛋白质毒素的昆虫病毒或杆状病毒或者转基因植物递送系统外,还可以使用苏云金芽孢杆菌包裹技术包裹蛋白质,所述技术为诸如但不限于美国专利号4,695,455;4,695,462;4,861,595,将它们都引入本文作为参考。本发明蛋白质毒素的另一种递送系统是将蛋白质配制到诱斜基质中,其然后可以在地上和地下昆虫诱辨站中使用。此类技术的实例包括但不限于PCT专利申请WO93/23998,将其引入本文作为参考。还可以用基于植物RNA病毒的系统产生抗昆虫毒素蛋白质。这样,可以将编码毒素的基因插入到合适的植物病毒的外壳启动子区中,该病毒将感染目的宿主才直物。然后毒素可以表达,提供对植物免于昆虫损害的保护。基于植物RNA病毒的系统在MycogenPlantSciences,Inc.的美国专利号5,500,360和BiosourceGeneticsCorp的美国专利号5,316,931和5,589,367中描述。除了产生转化的植物外,还有其他递送系统,其中可以希望工程化编码毒素的基因。例如,通过将作为食物来源的昆虫的分子引诱物与毒素融合在一起,可以构建蛋白质毒素。在实验室中纯化后,这种具有"内建,,诱饰的毒性剂可以包装在标准昆虫捕获室内。突变体.通过本领域中公知的方法可以制备细菌和真菌分离菌(和其他生物)的突变体。例如,通过分离菌的甲基磺酸乙酯(EMS)诱变可以得到突变体。使用紫外线和亚硝基胍通过本领域中公知的步骤可以产生突变体。多种特定实施方案的实例.(如该说明书中使用的,术语"一个"指至少一个,除非特别指出相反)。本发明可以包括但不限于包含B结构域和C结构域的分离的真核生物蛋白质,其中所述蛋白质加强A类毒素复合体蛋白质的杀虫活性,其中所述B结构域包含spvB亚结构域,接着是至少一个FG-GAP亚结构域,并且所述C结构域包含至少一个RHS亚结构域,接着是高变区。(将指出这些亚结构域在本文中有时称作"结构域"。将理解此类"结构域"是本发明的融合蛋白的亚部分,该融合蛋白具有两个主要结构域-B和C结构域,每个主要结构域具有它们自身的结构域)。在一些实施方案中,所迷蛋白质可以还包含跨膜结构域(或者亚结构域)。在一些实施方案中,所述蛋白质是真菌蛋白质,包括赤霉(^&/^//")蛋白质。一些优选的蛋白质具有约200-300kDa的分子量。在一些其他实施方案中,所述蛋白质具有如上述的结构域但是是原核或太古代(不是真核的)生物的,可以从选自甲烷八叠球菌属、密螺旋体属、钩端螺旋体属、r朋/iere〃a和属的天然存在的生物得到。在本文中还描述了新的细菌来源(与致病杆菌属,i,/^tor/^M"s等不同)。天然存在的M酸序列的变异(如保守替代)也是可能的。本发明包括编码这些蛋白质的任一种的分离的多核苷酸。一些优选的多核苷酸具有经优化以在植物中表达的密码子组成。本发明包括包含这些多核苷酸任一种的转基因细胞。在一些优选实施方案中,转基因细胞还包含编码A类毒素的核酸分子。本发明还包括对多核苷酸序列筛选编码上述(和/或提到的)蛋白质的多核苷酸,其中所述方法包括提供参考序列,将所述参考序列与序列数据库使用算法进行比较,对所述数据库中的序列分配得分,选择最小值,鉴定所述数据库中的具有高于所述最小值的所述得分的所述多核苷酸,产生所迷多核苷酸编码的蛋白质,并测定所述蛋白质加强A类毒素复合体蛋白质活性的能力。还包括对天然存在的真核细胞的培养物筛选选自A类毒素复合体蛋白质和上述BC融合蛋白的蛋白质的方法。选自甲烷八叠球菌属、密螺旋体属、钩端螺旋体属、r朋"e/^/a、和^^^/6^/的属的天然存在的生物可以替代此类篩选方法中的真核生物。本发明还包括从天然存在的生物鉴定上述BC融合蛋白的方法,其中本发明还包括对多种天然存在的(微生物)分离菌筛选约220kDa到约295kDa蛋白质的方法,所述蛋白质加强A类毒素复合体毒素蛋白的抗昆虫毒素活性,其中所述方法包括从所述分离菌得到蛋白质并篩选所述蛋白质的所述加强活性,所述蛋白质包含B结构域和C结构域,其中所述B结构域和所述C结构域包含上文和本文别处讨论的亚结构域。所述孩i生物可以是真菌。所述微生物也可以选自赤霉属、曱烷八叠球菌属、密螺旋体属、钩端螺4t体属、r"nw"e//fl、和M/"06M/61y^。本发明还包括对多种赤霉属分离菌筛选一种基因的方法,所述基因编码约220kDa到约295kDa蛋白质,所述蛋白质加强A类毒素复合体毒素蛋白的抗昆虫毒素活性,其中所述方法包括从所述分离菌得到核酸分子并将所述核酸分子与和所述基因杂交的多核苷酸接触。从所述培养物得到DNA的步骤可以包括从所述DNA产生克隆文库并测定至少一个所述克隆中所述基因的存在。测定所迷克隆中所迷多核苷酸存在的步骤可以包括测定所述克隆的鳞翅目毒素活性,从而指出所述多核苷酸的存在。测定所述DNA的步骤可以包括用设计成指出所述基因存在的至少一种引物进行聚合i^涟式反应。测定所述DNA的步骤可以包括将核酸:J笨针与所述DNA杂交,其中将所述探针设计成指出所述基因的存在。该方法还可以包括测定所述蛋白质,包括(例如)将所述蛋白质的抗体与蛋白质样品免疫反应,其中将所述抗体设计成指出所述蛋白质的存在。本发明还提供了控制昆虫或者类似害虫的方法,其中所述方法包括将所述昆虫与上述BC融合蛋白和A类毒素复合体毒素蛋白质接触的步骤。还包括加强A类毒素复合体毒素蛋白质的毒素活性的的方法,其中所述方法包括为昆虫提供上述BC融合蛋白供;f聂入。来自这些新颖融合蛋白的新的B和/或C结构域也可以单独使用(不是融合的形式)。本发明还包括合成的BC融合蛋白,其包含从上述新来源(天然存在的)生物可以得到(或矛汙生)的B或C结构域,其中所述B结构域或者所迷C结构域融合到异源C结构域或者B结构域。多种组合是可能的。此类合成的融合物还可以融合到A类毒素复合体毒素蛋白质。在一些其他实施方案中,本发明包括产生转基因细胞的方法,其中所述方法包括向所述细胞中插入多核苷酸,其中所述多核苷酸编码约220kDa到约295kDa赤霉(或者其他主题生物)蛋白质,其中所述蛋白质加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性。本发明还包括转基因细胞,其包含来自赤霉(或者其他主题生物)分离菌的培养物的异源多核苷酸,其中所述多核苷酸编码约220kDa到约295kDa蛋白质,其中所述蛋白质加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性。本发明包括对多种赤霉分离菌筛选加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性的约220kDa到约295kDa蛋白质的方法,其中所述方法包括从所述分离菌得到所述蛋白质并筛选所述蛋白质的所述加强活性。本发明还包括对多种赤霉分离菌筛选编码加强A类毒素复合体毒素蛋白质的抗昆虫毒素活性的约220kDa到约295kDa蛋白质的基因的方法,其中所述方法包括从所述分离菌其他生物、蛋白质和基因可以在上述方法和实施方案中替代。例如,根据上述方法可以鉴定和使用甲烷八叠球菌属抗昆虫蛋白质和基因。同样,可以根据上迷方法鉴定或使用来自赤霉的A类TC蛋白质和基因。使用主题方法鉴定的新的菌林也在本发明的范围内。多种方法可以用于进行上面的方法。例如,在进行一些上述方法中可以构建克隆文库。这些方法的一些可以包括用设计成指出目的基因存在的至少一种引物进4亍聚合酶链式反应的步骤。上面的方法可以包括将核酸探针与目的DNA杂交的步骤,其中将所述探针设计成指出所述基因的存在。将抗体与所述蛋白质免疫反应可以测定所述蛋白质,其中将所述抗体设计成指出所述蛋白质的存在。本发明还包括分离的蛋白质,其加强A类毒素复合体毒素的抗昆虫毒素活性,其中编码所述蛋白质的多核苷^列在严格条件下与选自SEQIDNOs:l、3、5、7、9和11的序列的互补序列杂交。在一些优选实施方案中,该蛋白质包含选自SEQIDN0:2、SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10和SEQIDNO:12的氨基酸序列。编码这些蛋白质任一种的分离的多核苷酸也在本发明的范围内,包含所迷多核苷酸的转基因细胞(如^:生物的和植物细胞)也在本发明范围内。本发明还包括控制虫害的方法,其中所述方法包括将所述害虫与本发明的蛋白质接触的步骤。再次,其他生物、蛋白质和基因可以在上述方法和实施方案中替代。这包括例如,甲烷八叠球菌属抗昆虫蛋白质和基因,和来自赤霉属的A类TC蛋白质和基因。本文提到和引用的所有专利、专利申请、临时申请和出版物都完整引入本文,直到它们与本说明书的明确教导不一致的程度。下面是阐明实施本发明的步骤的实施例。不应将这些实施例理解为限定。除非另外指出,所有百分数都是按重量计,并且所有溶剂混合物比例都是按体积计。实施例1在玉米赤霉(G/55五/^ZX4Z五^E)中发现B类和C类基因同源物通过玉蜀黍赤霉基因组的tblastn分析,发现了编码与发光光杆状菌毒素复合体TcaC(B类)和TccCl(C类)蛋白质(GenBank搜索号分别为AAC38625.1和AAL18473.1)相似的假定蛋白质的DNA序列。使用NCBI(NationalCenterforBiotechnologyInformation)基因组BLAST算法在万维网网站(ncbi.nlm.nih.gov/sutils/genom—table.cgi)J吏用下面的默i人值进4亍分析期望10;滤器默认值。使用tblastn在GenBank搜索号AACM01000442内发现了每种蛋白质的一个命中。这些命中都映射成单个假定的蛋白质,其注释如下CDS;join(52114..56781,56863..59514);locus_tag="FG10566.1";codon—start=l;product-"hypotheticalprotein";protein_id="EAA68452.1";db_xref="GI:42545609"。使用DNATranslator(—种程序,允许用户选择蛋白质编码区的开始和停止参数)翻译了AACM01000442的DNA序列。所得预测的翻译产物用于使用blastp搜索非冗余的局部蛋白质数据库。用GenBank中注解的所有蛋白质在AACM01000442序列内进行相似的blastp分析。在两种情况下,鉴定了一种多肽(EAA68452.1),其与TcaC和TccClP/wtor/niMf/s毒素复合体蛋白质具有显著同源性。用程序"Blast2s叫uences',进行EAA68452.1蛋白质和TcaC和TccCl蛋白质之间关系的进一步分析,该程序含有blastp比较算法TatianaA.Tatusova,ThomasL.Madden(1999),"Blast2sequences-anewtoolforcomparingproteinandnucleotidesequences",FEMSMicrobiolLett.174:247-250。使用下面列出的默认搜索/比较参数矩阵Blosum62;打开缺口11;延伸缺口1;缺口xdropoff50;期望值10;字长3;滤器关。下面给出了TcaC蛋白质的"Blast2sequences"比较结果长度=24394寻分=318比特(814);期望=9e-85;同一性=333/1291(25%);正的=527/1291(40%),缺口=187/1291(14%)在该搜索中鉴定的蛋白质-蛋白质比对的分析揭示TcaC和玉蜀黍赤霉EAA68452.1假定蛋白质之间同源性区域包含EAA68452.1的氨基酸72-1266。TccCl蛋白质的"Blast2sequences"比较结果在下面给出长度=2439;得分=192比特(489);期望=3e-47;同一性=198/723(27%);正的=317/723(43%);缺口=89/723(12%)该搜索中鉴定的蛋白质-蛋白质比对的分析揭示TccCl和玉蜀黍赤霉EAA68452.1假定蛋白质之间的同源性区域包含EAA68452.1的氨基酸1557-2239。从而,显然,玉蜀黍赤霉EAA68452.1假定蛋白质包含两个连续的结构域,第一个与B类TcaC蛋白质具有一定的同源性,第二个结构域与C类TccCl蛋白质具有一定的同源性。GenBank搜索号AACM01000442是通过玉蜀黍赤霉菌林PH1(NRRL31084)1号染色体的完整基因组鸟枪法测序得到的95095个碱基的线性DNA序列,并且保藏日期为2004年2月13日。应注意上面的CDS注释提示在基因组序列内存在内含子(间插)序列,包含碱基56782到56862。尽管注释为内含子序列,但是应该指出包含推定的内含子的所有M都在相对于该内含子前的外显子1的+1读框内(即,搜索号AACM01000442的碱基52114到56781)。因此,未中断的可读框从搜索号AACM01000442的碱基Ml"延伸到碱基59514。通过DNATranslator程序提供并且用于上面的搜索和比较中的预测的翻译产物大于在AACM01000442内注解的产物,因为没有除去推定的框内内含子。在SEQIDNO:l中显示了玉蜀黍赤霉DNA的序列,其编码与毒素复合体增效蛋白具有同源性的推定的蛋白质,以翻译的内含子结束。该序列在本文中也称作^p7ft(玉蜀黍赤霉的毒素复合体增效剂1)。SEQIDNO:l的翻译在SEQIDNO:2中显示,并且称作TcplGz。fc/;/Gz的没有内含子的DNA序列在SEQIDNO:3中显示。SEQIDNO:3的翻译在SEQIDNO:4中显示。根据本发明的一些实施方案,Tcplcz蛋白质可以加强TCA类蛋白质TcdA和XptA2对它们各自的靶标昆虫的活性。该观察是令人惊奇的并且是以前未预料到的,因为TcplGz蛋白质具有真核生物来源,并且TcdA和XptA2蛋白质来自细菌来源。实施例2设计和合成用于在细菌中表达的Tcplcz-编码基因该实施例教导新的DNA序列的设计,该序列编码SEQIDN0:2的TcplGz蛋白质,但是经优化用于在大肠杆菌细胞中表达。表2的D和H栏给出了每种氨基酸的同义密码子的分布(以该氨基酸的所有密码子用法%表示),如在大肠杆菌的II类基因的编码区中发现。[II类基因是在大肠杆菌细胞的指数生长期期间高度表达的那些基因,如在Henaut,A.andDanchin,A.(1996)Esc/im'cA/fl朋d妙A/附w/w附ce〃w/flr/m/"/flrr61》/ogy,v</.2,pp.2047—2066中净艮导[Neidhardt,F.,CurtissIII,R"Ingraham,J"Lin,E.,Low,B.,Magasanik,B.,Reznikoff,W.,Riley,M.,Schaechter,M.andUmbarger,H.(eds.).AmericanSocietyforMicrobiology,Washington,DC。显然,一些氨基酸的一些同义密码子在那些高度表达的基因中仅仅很少存在(例如,亮氨酸密码子CTA和精氨酸密码子CGG)。在产生接近高度表达的大肠杆菌基因的密码子分布的编码蛋白质的DNA序列的设计方法中,不包括相对于该氨基酸的其他同义密码子不经常使用的密码子(通过表2的C和G栏中的NA指出)。通常,如果一种密码子在II类基因中以约18%或更少的次数编码相关的氨基酸,那么认为该密码子很少使用。为了平衡氨基酸的剩余密码子选择的分布,使用下式计算每种密码子的加权平均代表CI的加权%=1/(%C1+%C2+%C3+爭爭)x%C1x100其中Cl是所讨论的密码子,C2、C3等等代表剩余的同义密码子,相关密码子的%值从表2的D和H栏得到(忽略粗体的稀有密码子值)。每个密码子的加权%值在表2的C和G栏中给出。使用从表2的C和G栏构造的密码子偏倚表,通过SEQIDNO:2的蛋白质序列的反向翻译启动大肠杆菌优化的DNA序列的设计。然后通过补偿密码子改变(而保留总体加权平均表示)修饰最初的序列,以除去或者增加限制酶识别位点,除去高度稳定的链内二级结构,和可能对工程化的基因的克隆操作或者表达有害的其他序列。将在编码区内避免的此类有害序列的一个实例是16S核糖体RNA结合序列("SD序列"),如AGGAGG,其可以编码例如两个连续的精氨酸M酸,但是也可以作为基因内(因此不希望的)翻译起始信号。编码SEQIDNO:2的蛋白质的大肠杆菌偏倚的DNA序列作为SEQIDNO:5的碱基23-7420给出。为了方便克隆和确保有效的翻译起始,将5,末端JWflI限制酶识别序列(TCTAGA)和SD序列(AAGAAGGAG)置于ATG翻译起始密码子的上游(SEQIDNO:5的碱基1-22)。还为了方便克隆,和确保正确的翻译终止,在编码区的3,末端包括编码两个TAA翻译终止密码子和X/^1限制酶识别位点(CTCGAG)的碱基(SEQIDNO:5的碱基7421-7440)。由供应商(EntelechonGmbH,Regensburg,Germany)进行包含SEQIDNO:5的DNA片段的合成。当前注意到如在GenBank搜索号AACM01000442中注解的,在SEQIDNO:1中公开的玉蜀黍赤霉基因组DNA序列fc/^Gz包含推定的内含子序列(SEQIDNO:l的碱基4669-4749)。SEQIDNO:l的可读框的分析揭示所述包含推定的内含子的g保持由威基1-3处的ATG起始密码子启动的+1可读框。换句话说,SEQIDNO:l包含7398个碱基的单个可读框,其编码2466个氛基酸的理论蛋白质。从而,如果来自SEQIDNO:l的DNA的初级转录物不被剪接(即,内含子序列不从mRNA切割),那么翻译将产生在SEQIDNO:2中公开的Tcpl&蛋白质。另一方面,如果初级转录物被剪接(即内含子序列被除去),那么mRNA将具有对应于SEQIDNO:3的序列,并且翻译将产生公开为SEQIDNO:4的2439个氩基酸的蛋白质。为了该实施例的目的,设计并合成编码来自SEQIDNO:l的整个7398碱基可读框的理论上的蛋白质的大肠杆菌偏倚的DNA序列。所编码的2466个氨基酸的蛋白质的序列与SEQIDNO:2(TcplGz,)相同,从而包括在基因组序列中鉴定的推定的内含子编码的氨基酸。如在其他实施例中看到的,来自真核生物的该蛋白质具有令人惊奇的加强细菌来源的A类TC蛋白质的昆虫毒性的活性。表2.大肠杆菌的高度表达的基因中同义密码子表示,和为大肠杆菌优化的合成基因设计设置的偏倚密码子表示的计算。<table>tableseeoriginaldocumentpage46</column></row><table><table>tableseeoriginaldocumentpage47</column></row><table>实施例3编码Tcplcz的合成的细菌DNA的工程化通过将编码蛋白质Tcpl&的合成的细菌偏倚的DNA(SEQIDNO:5)插入到两种不同的大肠杆菌表达载体中将其工程化以辅助优化表达条件。第一种栽体是载体pBT(美国申请序号10/754,115,2003年1月7日提交),其使用标准的大肠杆菌启动子。将基于pBT的质粒称作pDAB8828。第二种是pET表达载体(Novagen,MadisonWI),其利用喧菌粒T7启动子。将基于pET的表达质粒称作pDAB8829。使用标准分子生物学技术构建这些表达质粒的每一种。以这样的方式进行工程化以保持合适的细菌转录和翻译信号。质粒pDAB8828和pDAB8829都编码蛋白质TcplGz,然而在启动子、选择标记和载体骨架的其他特征中不同。实施例4pDAB8828的表达条件和裂解物制备使用标准方法将表达质粒pBT(2003年l月7日提交的美国临时申请号10/754,115中描述的空载体对照)和pDAB8828转化到大肠杆菌表达菌林BL21(Novagen,Madison,WI)中。用置于含有50照/mL抗生素和75pMIPTG(异丙基-a-D-硫代吡喃半乳糖苷)的250mLLB培养基中的10-200个新鲜转化的菌落启动表达培养物。培养物在180-200rpm(转/分钟)28。C下生长48小时,通过4。C下以5,000xg离心20分钟收集细胞。将细胞沉淀悬浮在4-4.5mLButterfield,s磷酸盐溶液(HardyDiagnostics,SantaMaria,CA;0.3mM磷酸钾pH7.2)中,转移到带有lmLO.lmm直径玻璃珠(Biospec,Bartlesville,OK,目录号1107901)的50mL聚丙烯螺旋盖离心管中,然后在冰上冷却。使用2mm探头用BransonSonifier250(DanburyCT)以~30的输出用两次45秒的爆发通过超声处理裂解细胞,在爆发之间完全冷却。将裂解物转移到2mLEppendorf管中并在16,000xg下离心10分钟。收集上清液并测量蛋白质浓度。将Bio-RadProteinDyeAssayReagent用H20以l:5稀释并将lmL中加入10nL1:10稀释度的每种样品和浓度为5、10、15、20和25Hg/mL的牛血清白蛋白。在SpectraMaxPlus分光光度计(Sunnyvale,CA)中595nm波长下读出样品的光密度。新鲜测定裂解物。实施例5pDAB8829的表达条件和裂解物制备使用标准方法将表达质粒pET(空栽体对照)、pDAB8920和pDAB8829转移到大肠杆菌T7表达菌林BL21(DE3)STAR(Invitrogen,Carlsbad,CA)中。质粒pDAB8920用作阳性加强对照。它含有融合的增效剂基因,其由通过14个氨基酸接头融合的发光光杆状菌基因,a仿2和tecC组成。质粒pDAB8920是单独申请的主题(2004年3月2日提交的美国序号60/549,516)。用置于含有50pg/mL抗生素和75pMIPTG(异丙基-a-D-硫代吡喃半乳糖苷)的10-200个新鲜转化的菌落起始表达培养物。如上面实施例4中描述的生长、裂解培养物和进行其他处理。实施例6pDAB8828和pDAB8829裂解物的生物测定条件在特别设计用于昆虫生物测定的128孔托盘(C-DInternational,Pitman,NJ)中用新生幼虫以人工々欠食进行昆虫生物测定。测定的物种是南部玉米才艮虫(D/a6raricaww^"附j9iiiic似faAmv(mf/(Barber)),和玉米穗夜蛾(/^//coverpflzea(Boddie))。在受控的环境条件(28。C,40V。相对湿度,16h:8h光:暗)下温育生物测定5天,此时记录处理中昆虫的总数、死亡昆虫数目和存活昆虫的重量。如下测定仅粗裂解物或者与加入的毒素复合体A类蛋白质TcdA或XptA2^的生物学活性。对生物测定托盘的8孔中人工饮食的表面应用对照培养物或者那些表达增效剂蛋白质的培养物的粗的大肠杆菌裂解物(40fiL)(3-21mg/mL)。每孔中处理的饮食的平均表面积为-1.5cm2。加入TcdA或XptA2^蛋白质作为从异源表达各蛋白质的细菌培养物高度纯化的级分。用该饮食得到的XptA2xwi和TcdA的终浓度分别为250ng/cm2和50ng/cm2。在这些剂量下,这些蛋白质对受试昆虫幼虫的生长基本上没有显著影响。实施例7pDAB8828裂解物的生物测定结果表3显示了与对照细胞裂解物相比,经程序化以从质粒pDAB8828表达TcplGz蛋白质的细胞的裂解物的生物测定结果。数据的检查表明TcdA(鳞翅目活性的)和XptA^wi(鳞翅目活性的)当与仅载体对照裂解物混合时具有可忽略的影响。应注意到调节加入裂解物的TcdA和XptA2xwi的量以突出增效剂编码基因的加强作用。来自含有pDAB8828的细胞的裂解物没有杀死昆虫。然而,当与TcdA或XptA2xwi蛋白质混合时,注意到显著的生长抑制,具有预期的活性谱。通过SDS-PAGE对多种裂解物的分析表明在pDAB8828样品中存在280kDa的带,但是在对照样品中不存在该带。带的迁移与Tcplcz的理论大小(即277.7kDa)—致。这些结果表明质粒pDAB8828产生蛋白质Tcplcz并且该蛋白质显示出加强A类蛋白质TcdA和XptA2对它们的目标昆虫的活性的令人惊奇的功能。表3.鳞翅目和鳞翅目物种对大肠杆菌裂解物和纯化的蛋白质的应答。每个一式两份使用7到9只昆虫。数据为两个独立的一式两份的数据。生长抑制标尺0=0-20%;+=21-40%;++=41-60%;+++=61-80%;++++=81-100%;nt-未检测到。样品<table>tableseeoriginaldocumentpage50</column></row><table><table>tableseeoriginaldocumentpage51</column></row><table>实施例8生物测定结果pDAB8829裂解物表4显示了与对照细胞裂解物相比,经程序化以从质粒pDAB8829表达裂解物的生物测定结果。数据的检查显示当与仅载体对照裂解物混合时,TcdA(鞘翅目毒素)和XptA入wi(鳞翅目毒素)具有可忽略的影响。应该注意到调节加入裂解物的TcdA和XptA2xwi的量以突出TcdB2和TccC3编码基因的增效作用。仅来自含有pDAB8920的细胞的裂解物不杀死昆虫。然而,当与TcdA或XptA2^i混合时,注意到显著的昆虫抑制,其具有预期的抑制范围。令人惊奇地,经程序化以产生Tcplcz蛋白质的细胞的裂解物显示出与8920增效剂相似的活性-潜。通过SDS-PAGE对多种裂解物的分析显示与载体裂解物相比在pDAB8829样品中存在280kDa。带的迁移与Tcplcz的预期的分子量一致。这些结果表明质粒pDAB8829产生蛋白质Tcplcz并且该蛋白质加强昆虫活性A类TcdA和XptA2蛋白质的活性。表4.鞘翅目和鳞翅目物种对大肠杆菌裂解物和纯化的蛋白质的应答。每>1^一式两份使用7到9只昆虫。数据为两个独立的一式两份的数据。生长抑制0=0-20%;+=21-40%;++=41-60%;+++=61-80%;++++=81-100%;nt=未测试。<table>tableseeoriginaldocumentpage51</column></row><table><table>tableseeoriginaldocumentpage52</column></row><table>实施例9鉴定其他天然存在的融合的B类/C类蛋白质该实施例提供了方法的进一步阐明,该方法可以用于从蛋白质数据库搜索与B类和C类TC蛋白质具有同源性的候选蛋白质。首先使用DNA/蛋白质分析程序[VectorNTI(Informax,Inc.)j构建人工产生的融合蛋白质序列。本领域技术人员将认识到可以备选使用一些其他DNA/蛋白质分析程序。从TcaC(GenBank检索号AAC38625.1)和TccCl(GenBank检索号AAL18473.1)(都来自发光光杆状菌菌林W-14)的氨基酸序列产生的此类融合蛋白的实例公开在SEQIDNO:6中。该人工融合蛋白序列用于NCBI非冗余蛋白质数据库的标准蛋白质-蛋白质BLAST搜索,使用下面所列的默认值过滤器设置成低复杂度;期望10;字长3;矩阵BLOSUM62缺口代价存在11,延伸1图l给出了这种搜索的图示输出。[计算机搜索的实际输出在计算机监-f见器上以彩色给出;可以理解打印的图与计算冲几监^L器输出不完全相同。这并不限制本文给出的解释。在图形顶部具有不同阴影段的条形用来代表比对得分(AlignmentScores),该比对得分从查询序列与搜索中鉴定的序列的不同量的氨基酸序列同源性计算得到。所示的值为<40,40-50,50-80,80-200-和>=200。比对得分条形下的下一个水平线代表2858个氩基酸的人工融合查询序列的4^酸序列,以500个氨基酸分区。用作查询序列的该人工融合蛋白由从残基l到1485的TcaC氨基酸和从1486到2858的TccCl氨基酸组成。图l的数据部分中水平线代表各蛋白质,其通过BLAST算法鉴定为具有与查询序列相关的氨基酸序列(在搜索的参数内)。为了清楚和容易引用,已经对某些界标线添加了数字;此类数字不是最初输出的部分。图l的检查揭示有64条线,它们代表鉴定为与查询序列具有显著同源性区域的蛋白质序列。注意到一些水平线不代表单个蛋白质。例如,线l的较大的左手部分被输出鉴定为"gi|3265037|gb|AAC38625.1|杀虫毒素复合体蛋白TcaC[发光光杆状菌]"(即,查询序列的部分),而线l的右手较小部分被鉴定为">gi|53693249|ref|ZP—00127870.2|COG3209:Rhs家族蛋白质[Pseudomonassyringaepv.syringaeB728a.,,线l中该线的左手和右手部分之间的缺口指出属于单独编码的蛋白质的两个同源性区域。然而,在一些实例中,同源性线代表一种蛋白质。例如,线53具有通过斜杠连接的左手和右手同源性区。BLAST输出将该蛋白质鉴定为本发明的主题">gi|42545609|gb|EAA68452.1|推定的蛋白质FG10566.玉蜀泰赤霉PH-1"。与查询序列具有同源性区域的其他单一蛋白质在表5中鉴定。尽管通过它们与B类和C类蛋白质的同源性发现,但是可以理解推定的蛋白质的生物功能/活性还没有被证实。然而,考虑到本公开(但不是它之前),现在有动机评估这些蛋白质的功能性以评估它们加强A类毒素复合体蛋白质活性的能力。<table>tableseeoriginaldocumentpage54</column></row><table>表5.通过NCBI非冗余蛋白质数据库的BLAST搜索鉴定的推定的融合蛋白<table>tableseeoriginaldocumentpage55</column></row><table>表5.通过NCBI非冗余蛋白质数据库的BLAST搜索鉴定的推定的融合蛋白<table>tableseeoriginaldocumentpage56</column></row><table>实施例IO从7M7VA^^Iiw4/^/Wir好^V57S克隆编码毒素复合体增效剂的B/C类融合蛋白的基因Pfam模型分析和可公共得到的DNA和蛋白质序列数据库(NCBI和TIGR]\1^1*01)131)的扫描鉴定了7^"^^//"/oz^幼e"^s基因组中编码候选融合的B/C类毒素复合体(TC)增效剂蛋白质的基因和另外四种潜在的C类TC基因。(也称作福赛斯拟杆菌(fi""m^Vto/oi^幼附)。到申请日时,未知该基因组可以从Entrez得到,并且在TIGRMicrobial数据库中,它被列为未完成的,没有完成的目标数据)。这些C类TC基因位于编码融合的B/C类TC蛋白质的基因下游。克隆了编码融合的B/C类TC蛋白质的推定基因。r"/mce//tf(ATCC43037)的基因组DNA从美国典型培养物保藏中心(ATCC,Manassas,VA)购买。基于公共数据库中的序列设计用于扩增融合的B/CTC基因的多个区域和其侧翼序列的引物。在最初PCR^应中,使用引物Pl和P2(表6)用尸/"r"Mo热启动DNA聚合酶(Stratagene,LaJolla,CA)得到了4541bp的产物,其对应于从B/C类融合基因上游431bp到推定的起始密码子(ATG)下游4110bp的区域。将该PCR产物插入到pCRIIBluntTOPO栽体(Invitrogen,Carlsbad,CA)中并测定插入DNA的DNA序列。测序结果显示PCR片段和公共数据库中融合的B/C类基因的对应区域之间的同源性仅为97.1%。这暗示公共数据库中序列所基于的细菌菌林可能与我们从ATCC得到的菌林(即,菌林43037)不同。进行了多次尝试以基于公开数据库中的序列扩增融合的B/C类基因的3,末端。设计备选引物用于扩增DNA片段,其在经证实的序列区域的3,末端开始并且延伸到B/C类融合基因下游的多个区域(基于公布的序列)。使用引物P3和P4(表6)用r"A:tfra£Xr"/MDNA聚合酶(FisherScientific,Pittsburg,PA)得到了约6.5kbPCR片段。将该DNA片段克隆到pCR2.1-TOPO载体(Invitrogen,Carlsbad,CA)中并部分测序。对该PCR产物的两端测序的结果显示,尽管正向引物(P3)与B/C类融合基因中的预期位置退火,但M向引物(P4)已经附着到B/C类融合基因下游第四个C类TC相关基因的5,末端。此外,PCR产物的大小(6.5kb)小于从公布的基因组序列预测的大小(11201bp),其指出在该区域中存在DNA序列的缺失或重排。以6.5kbPCR产物代表的B/C类融合基因的3,末端的完整序列通过从证实区域的5,末端逐步行走一直到达第一个框内终止密码子得到。rfirrnie/r//ff/or矽幼eM^s(ATCC43037)中B/C类融合基因的全长序列在SEQIDNO:11中公开。平4亍地,通过用4/^1、5saBI和5"似I限制酶消化7:/o/^幼e附/s(ATCC43037)的基因组DNA并使用BDGenomeWalkerTMUniversalKit(BDBiosciences,SanJose,CA)构建三个GenomeWalking"文库"。使用引物P5(表6)和AP1(随试剂盒提供)进行第一轮PCR。使用一对嵌套引物P6(表6)和AP2(试剂盒提供)进行第二轮PCR。在两轮PCR反应中使用7Mflm丄jra/〃DNA聚合酶。从5saBI和&"I消化产生的文库得到特异扩增。将这些PCR产物克隆到pCR2.1TOPO载体中并测序。测序结果与SEQIDNO:ll的对应的区域匹配,只是存在在PCR过程中可能引入的一些单核苷酸突变。这些结果证实SEQID0:11中公开的序列是7>1""^//"/wsj;幼e"A(ATCC43037)中B/C类融合基因的实际序列,具有非常小的差异。为了进一步证实该结果,使用用/fi'm/in和BsaBr消化的r./ors^幼e"s&基因组DNA在单独的反应中进行DNA印迹分析。用1030bpDNA片段探测印迹,该片段代表B/C类融合基因中B类TC相关蛋白质的编码区的部分。通过使用引物P2/P2从r./^w,狄eiw/s(ATCC43037)PCR扩增基因组DNA得到该探针。来自DNA印迹分析的结果揭示该探针与r./w矽狄e"^(ATCC43037)基因组DNA的历Vw/III和5mBI片段杂交,与从SEQIDNO:ll预测的那些具有相同的大小[2792bp为III消化所得,3598为5^i必I所得。注意到以SEQIDNO:ll公开的r./w^幼e附is(ATCC43037)B/C类融合基因的DNA序列从扩增自基因组DNA的PCR产物得到。本领域公知此类PCR扩增可以引入少数碱基掺入错误。从而,可能在r./o/^^ew^(ATCC43037)基因组中存在的该基因的实际序列与SEQIDNO:ll中公开的稍有不同。考虑到从多个PCR产物确定SEQIDNO:ll中公开的序列,有理由期望B/C类融合基因的基因组拷贝将与SEQIDNO:ll具有至少99。/。同一性。SEQIDNO:ll与公共数据库中B/C类融合基因的对应序列的比较揭示在5,末端包含约5.2kb的区域中两个序列共有97%同源性,所述区域对应于与B类TC蛋白质相关的M酸序列的整个编码区加上C类TC蛋白质的核心区。在5,2kb区域下游,有约460bp序列,其与B/C类融合基因下游的第三个C类TC相关基因的高变区具有高度同源性,然后在3,末端具有额外的420bp,其同时显示出比公布的77|"^^//"/0#^^《附&(ATCC43037)部分基因组序列数据库的任何其他部分相对更低的同源性(小于60%)。这表明编码从7^!^/^//"/<,5^^附&(ATCC43037)的基因组DNA克隆的融合的B/C类TC蛋白质的推定基因的序列(SEQIDNO:1l)与公共数据库中的不同。<table>tableseeoriginaldocumentpage58</column></row><table><table>tableseeoriginaldocumentpage59</column></row><table>实施例ll鉴定其他多结构域TC蛋白质鉴于该天然融合的"BC"毒素复合体蛋白质的活性的公开,本领域技术人员现在有动机发现其他此类融合蛋白,预期它们可以加强A类毒素复合体毒素蛋白质的杀虫活性。本领域公知蛋白质数据库的标准BLAST搜索可以用于鉴定通过氨基酸序列同源性与相互相关的蛋白质。该实施例教导可列,所述结构预测它们的功能为B类或C类毒素复合体(TC)增效剂。B类和C类TC基因家族编码相对较大并且具有不同的蛋白质结构域结构的蛋白质。这两个因素可以联合使用以从大的蛋白质数据库提取各自B类和C类TC蛋白质的序列。类似地,当B和C类TC蛋白质融合到单个多肽时,它们的大的尺寸和蛋白质结构域的不同的组合可以用于设置特定搜索来从蛋白质数据库提取相关结构和功能的序列。这因为;$^>开而是可能的。用Pfam搜索算法(E丄丄.Sonnhammer,S.R.Eddy,和R.Durbin),在Pfam网站(http:〃pfam.wustl.edu/),"镜<象"站点(辨如http:〃ww.sanger.ac.uk/Software/Pfam/),il本地安装数据库常规地进行蛋白质结构域搜索。尽管这些Pfam模型非常有帮助,但是它们可以错失现有的结构域,特别如果这些结构域与该模型存在合理的分歧。因此,为了增加结构域检测的灵敏性,希望建立对研究的基因家族特异的蛋白质结构域模型。这可以用与用于产生Pfam家族相同组的分析工具(即,HMMER;R.Durbin,S.R.Eddy,A.Krogh,和G.Mitchison)进行并且将通常允许筌定更一般的模型错失的蛋白质结构域。工作流在概念上是简单的。首先,对蛋白质数据库进行搜索以提取数据库序列的子集。其次,使用HMMER对产生的HMM模型测试该子集。对该模型产生的并且具有合适的显著性水平的命中将包括可以为实验表征选择的蛋白质集合,或者可以作为更小的数据库的蛋白质集合,将其对第二个HMM模型篩选。如果需要,可以重复该筛选直到得到所希望水平的分辨率。下面的实施例示例该方法对于四个不同集合的TC蛋白质家族的效用来自真核和原核太古代来源的单一B类TC蛋白质、单一C类TC蛋白质,和融合的B/C类TC蛋白质。B类TC蛋白质.迄今发现的所有B类TC基因都来自原核生物;因此,最初的研究集合局限于原核生物蛋白质序列。使用搜索术语"1400:1600[SLEN1ANDProkarvota,,在http:〃www.ncbi.iilm.nih.gov/进行蛋白质搜索。这些术语将搜索局限于长度为1400到1600个氨基酸并且具有原核生物来源的那些蛋白质。鉴定了总共3522个蛋白质序列并且作为可搜索的数据库下载。应该指出,尽管这些限制在本上下文中有用,但是序列的间隔长度和搜索的领域可以修饰以满足将检查的个体蛋白质集合的参数。迄今检查的所有已知的B类TC蛋白质都含有两个不同集合的结构域。(本文使用的结构域术语来自Pfam站点并且通过该站点的名称可以搜索结构域)。在氨基末端是高度保守的spvB结构域。该结构域如此保守以至于没有必要构建更特异的HMM结构域模型,并且直接从Pfam网站下栽一般模型(spvB—ls,hmm)。也见M丄.Lesnick,N.E.Reiner,J.Fierer,和D.G.Guiney,Afo/.Af/croA"/.March2001,39(6):1464-70。spvB结构域后是多个FG-GAP结构域。见例如,T.A.Spring,"FoldingoftheN-terminal,ligand-bindingregionofintegrinalpha-subunitsintoabeta-propellerdomain,"TVflrf.(7.5^.1997,94:65-72。当使用默认的Pfam收集阈值时,一般的Pfam模型利用的FG-GAP结构域模型在单个蛋白质内错失了许多结构域,并且在一些蛋白质内错失了所有结构域(例如,GenBank检索号66047263、28871479和48730377,其通过我们的模型鉴定,见下文)。如果使用更松弛的截断值,[E-值=1.0],那么发现更多结构域,包括在上面蛋白质的那些结构域,但是不能发现一些结构域。因此,必须产生定制的FG-GAPHMM模型。产生蛋白质家族的HMM模型通常需要三步。首先,选择结构域的一个集合作为"种子",使用ClustalX产生多序列比对。其次,将该多序列比对用作hmmbuild的输出,hmmbuild是产生HMM模型的程序。最后,用hmmcalibrate校正特定模型的统计学(hmmcalibrate、hmmbuild和hmmsearch是HMMER包的组件)。用于产生HMM模型的种子结构域集合是该模型成功的关键成分。它必须足够分散以便捕获相关结构域的所有多样性。然而,种子集合不能含有所有已知的结构域成员,因为测试该模型的预测能力需要它能够鉴定含有该种子集合中不包括的成员的结构域。使用GenBank检索号16416891(来自发光光杆状菌的TcaC)的BLink来源获得作为FG-GAP结构域来源的B类TC蛋白质集合。该提取产生15种相关的非冗余的原核生物蛋白质,其具有高于2000的得分。通过任何给定蛋白质的BLink可得到的相关蛋白质数目可以随着时间改变,因为GenBank可以是动态列表j。提取的蛋白质的GenBank检索号为16416891、37524951、16416930、37524959、27479675、51597844、22124105、45443595、50956508、14041732、32699986、10956817、66047263、28871479、和48730377。使用一般的Pfam模型,补充来自GenBank检索号16416891(^/^TcaC)的已知的FG-GAP结构域,通过提取上面蛋白质中发现的FG-GAP结构域产生中间HMM冲莫型。通过从两个蛋白质序列提取结构域得到最终模型中使用的结构域,所述蛋白质序列具有含有6个FG-GAP结构域的最佳和最差的得分(分别为GenBank检索号16416891和66047263)。[注意到6代表多数含有FG-GAP的蛋白质中FG-GAP结构域的规范数。l并不令人惊奇的是,GenBank检索号16416891是最佳的命中,因为它是该模型自身的部分。下面显示了这两种蛋白质中6个FG一GAP结构域的ClustalX多序列比对。这些比对可以用于hmmbuild产生用于该实施例中的FG-GAPHMM才莫型。<table>tableseeoriginaldocumentpage62</column></row><table>该多序列比对用于hmmbuild和hmmcalibrate以产生BModels3.hmm。然后将BModels3.hmm模型对上面的15种蛋白质样品集合测试并且能够鉴定所有预期的FG一GAP结构域。相反地,当对20种随机选择的蛋白质测试BModels3.hmm模型时,没有发现FG—GAP结构域。然后将BModels3.hmm模型用hmmsearch对含有1400到1600个氨基酸的所有原核生物蛋白质的3522个成员的数据库测试,产生下面的结果。hmmsearch-用profielHMM搜索序列数据库HMMER2.3.1(2003年6月)Copyright(C)1992-2003HHMFWashingtonUniversitySchoolofMedicine根据GNUGeneralPublicLicense(GPL)自由传播HMM文件FinalTest/BModels3.hmm[BDomainsModel3Sequences]序列数据库FinalTest/Prokaryoticl400-1600.fasta每序列得分截断[无l每结构域得分截断[无l每序列Eval截断<=10每结构域Eval截断[无IQueryHMM:BDomainsModel3SequencesAccession:[无描述[无序列数据库FinalTest/ProLargeModel7Hits.fasta每序列得分截断无每结构域得分截断[无每序列Eval截断<=10每结构域Eval截断无QueryHMM:RHS—repeatAccession:PF05593.3描述RHSRepeat完整序列得分(得分包括所有结构域)序列__得分E-值N199159681gb1AAM05447.1|hypotheticalp153.03.5e-459gil200908921ref1NP—616967.1ihypotheticalp153.03,.5e-459gil45656716|refiYP—000802.1|cytoplasmicme151.79e-451gil45599952|gb|AAS69439.1|cytoplasmicme151.79e-4511giI241972621:gblAAN50531.1IAE011493—4conservedhypo145.66.3e-431g幻124216032|ref|NP—713513.11hypotheticalp145.66.3e-4311gi140264561dbj1BAB53053.1|mll6838[Mesor133.23,.4e-397gi1134757001ref1NP—107267.1|hypotheticalp133.23.4e-397gi1456011371gb1AAS70619.1Icytoplasmicme125.56.,8e_378gi145657896irefiYP—001982.11cytoplasmicme125.56』e_378gi1241954161gblAAN48964.11AE011353—4Rhsfamilypro122.84.5e_36;gi1242144651refiNP—711946.1|Rhsfamilypro122.84.5e-368gi167739010iref|ZP—00489616.11COG3209:Rhsf116.43'.8e-349gi153718233lrefiYP_107219.1|putativemembr116-43.8e-34952208647|emb1CAH34583.1|putativemembr116.43.8e-349gi1677136311ref1ZP—Q0482992.1!COG3209:Rhsf11643.8e-349giI67683974ref1ZP一00478003.11COG3209:Rhsf11643.8e-349gi1676532191ref1ZP一00450636.11COG3209:Rhsf11402e-339gi67636722ref1ZP—00435666.11COG3209:Rhsf11402e_339gi67642373ref1ZP—00441130.11COG3209:Rhsf11402e_339gi53724907ref|YP101869.1FG-GAP/YDrepe114.02e-339gi52428330gb1AAU48923.1|FG-GAP/YDrepe114.02e-339gi67762147ref|ZP0050085011COG3209:Rhsf113.42.9e-339gi67648765ref|ZP0044699311COG3209:Rhsf113.43.le-339gi67629702ref1ZP—0042956011COG3209:Rhsf113.43.le-339gi67670205ref1ZP—0046701511COG3209:Rhsf113.33.2e_339gi27359176gb1AAO08121.liAEO16812103Rhsfamilypro95.57.1e_288gi27367604refINP—763131.1Rhsfamilypro95.7le-288gi48863870ref|ZP003177631COG3209:Rhsf67.61.8e_199gi19915968gb1AAM05447.1|hypotheticalp63.03.6e-166gi24216032ref|NP713513.1hypotheticalp59.639e_157qi48862345reflZP0031624211COG3209:Rhsf53.33.6e-1511gi48833214ref|ZP0029023611COG2931:RTXt_2.4CK411gi20089734reflNP615809.1cellsurfacep-350.571gi19914667gb|AAM04289.1|cellsurfacep-3.50.57gi67860476gb1EAM55523.1|Integrinsalph-611.21gi67932250ref1ZP—00525397-11Integrinsalph_6.11.21gi1336326881emb1CAE07500.1|conservedhypo_9.53.31gi133865519|ref|NP—897078.11hypotheticalp_953.31gi1679193461ref1ZP—00512927.11Integrinsalph-IO.241gi167783058|gb|EAM42456.1|Integrinsalph-IO241gi1395766311emb1CAE80795.1|hypotheticalp-1267.61gi1425244221ref1NP一969802.1hypotheticalp-12.67.61gi1488934751ref1ZP—00326711-11COG3391:Uncha-12.67,71注意到在gil488623451(E-值e-lS)和别488332141(E-值0.41)之间存在E值的非常清楚的中断(为了清楚加双下划线)。下面是蛋白质的去重复的列表完整序列得分(得分包括所有结构域)序列描述得分E-值gi|20090892|ref|NP—616967.1|giI45656716Iref|YP—000802.11gi|24197262|gb|AAN50531.11AE011493—4giI14026456idbj|BAB53053.ilgiI456011371gbiAAS70619.11giI24195416Igb|AAN48964.1IAE011353—4gi1677390101refiZP一00489616.1IgiI67653219IrefIZP—00450636.1|hypotheticalp153.0cytoplasmicme151.7conservedhypo145.6m116838[Mesor133.2cytoplasmicme125.5Rhsfamilypro122.8COG3209:Rhsf116.4COG3209:Rhsf114.03.5e-4599e_4516.3e-43113.4e-3976.8e_3784.5e-3683.8e-3492e-339giI677621471refIZP一00500850.1ICOG3209:Rhsf113.42.9e-339giI67648765IrefIZP_0O446993.1ICOG3209:Rhsf113.43.1e_339giI67670205IrefIZP—00467015.1ICOG3209:Rhsf113.33.2e-339giI27359176IgbIAAO08121.1IAE016812—103Rhsfamilypro95.57.1e-288giI48863870IrefIZP一00317763.1ICOG3209:Rhsf67.61.8e-199giI48862345irefIZPJ30316242.1ICOG3209:Rhsf53.33.6e_1511从而,该实例表明在除了长度外不存在其他M酸序列信息的情况下,大数据集内融合的B/C类TC蛋白质序列可以从它们共有的蛋白质结构域结构鉴定。真核生物融合的B/C类TC蛋白质.以与原核生物/古细菌模型稍微不的模型。来自玉蜀黍赤霉的唯一已知的实例具有spvB结构域(很少在真核生物蛋白质中发现),其密切拟合Pfam模型。玉蜀黍赤霉融合的B/C类TC蛋白质还具有FG-GAP结构域,其可以使用上面为了非融合的B类TC蛋白质开发的FG-GAPBModels3.hmm模型发现。当一起使用时,这两种模型足够强大以从数据库选择玉蜀黍赤霉蛋白质,因此没有开发RHSHMM模型。本领域技术人员将认识到使用这些教导可以容易地开发这种RHS模型。例如,如果将搜索所有GenBank蛋白质而不是下面测试的子集,那么可以使用这种额外的RHS模型。4吏用搜索术语"1700:2800SLENANDEukaryota,,在httD:〃www.ncbi.nlm.nih.gov/进行了蛋白盾搜索。这些术语将搜索限制千长度为1700到2800个氨基酸并且具有真核生物来源的那些蛋白质。鉴定了共19550个蛋白质序列并且作为可搜索的数据库下载。应该指出,尽管这些限制可用于本上下文,但是可以改变序列的间隔长度和搜索的界以满足将检查的各蛋白质集合的参数。首先对FG-GAP模型测试数据集。认为该模型是使用的两种模型中分辨力较低的一种,因为已知存在含有FG-GAP结构域的真核生物蛋白质。然而,如下面显示的,搜索集合的19550种蛋白质的仅仅一个成员具有显著命中。[GenBank检索号gil461381031和gij42545609l是双重入口。该结果表明FG-GAP模型对于1700到2800序列长度范围内的已知蛋白质具有明显的分辨力。hmmsearch—用profileHMM搜索序列数据库HMMER2.3.1(2003年6月)Copyright(C)1992-2003HHMI/WashingtonUniversitySchoolofMedicine根据GNUGeneralPublicLicense(GPL)自由传播HMM文件FinalTest/BModels3.hmm[BDomainsModel3Sequences序列数据库FinalTest/EukaryoticGenBankl700-2800.fasta每序列得分截断[无每结构域得分截断[无l每序列Eval截断<=10每结构域Eval截断[无]QueryHMM:BDomainsModel3SequencesAccession:[无l描述[无l查询HMM:SpvB获得PF03534.3描述沙门氏菌毒性质粒65kDaB蛋白质[HMM已经校准;E-值是经验估计l完整序列得分(得分包括所有结构域)序列_il_得分E-值NgiI46138103IrefIXP—390742.1IhypotheticalproteinFG1159.71.7e-481g:LI42545609IgbIEAA68452.1IhypotheticalproteinFG1159.1.7e-481因为迄今已经发现了真核B/C类TC融合蛋白的仅仅一个实例,所以不可能提供该搜索策略的严格检验。然而,很清楚两模型搜索策略将可以用于区分在序列长度范围内具有FG-GAP结构域但是不是融合的B/C类TC蛋白质的蛋白质。此外,必要时,本文提供的模型可以用于从更宽的序列范围提取B/C类TC融合蛋白质。如使用前面的阐明,使用模型的顺序不改变最终的结果。还重要的是注意到如果必须得到进一步的区分,还可以向上面的搜索中加入RHS模型。上面的实施例教导(l)序列长度过滤和(2)结构域搜索的组合提供了从蛋白质序列数据库提取B类、C类和融合的B/C类TC蛋白质的有用的方法。结构域来自spvB、FG-GAP和RHS结构域家族,使用一般的PfamHMM才莫型或者对特定蛋白质类别剪裁的具体的HMM结构域模型。这些实例中使用的序列长度间隔被选择以包括这些蛋白质的已知范围,并且表明这些蛋白质不仅可以与所有其他蛋白质分离,而且可以与这些蛋白质家族的其他成员分离。因为相同的HMM模型用于原核B类TC蛋白质和真核融合的BC类TC蛋白质,所以如果对搜索最初没有设置序列长度或者界限制,那么将一起提取两个结果集合。任选地,可以容易地开发RHS模型以区分这些蛋白质集合。如果此类区分是不希望的或者不必要的,那么可以将整个GenBank蛋白质数据集作为输入。然而,考虑到GenBank数据库的巨大和不断增长的大小,这将使得搜索显著更慢。关于进一步的教导,见E丄丄.Sonnhammer,S.R.Eddy,和R.Durbin.尸/Yte/"s28:405-420,1997(描述了多序列比对和HMM的Pfam数据库,和它在大规模基因组分析中的用途),和RichardDurbin,SeanEddy,AndersKrogh,和GraemeMitchison(CambridgeUniversityPress,1998),BiologicalSequenceAnalysis:ProbabilisticModelsofProteinsandNucleicAcids。实施例12spvB、FG-GAP、RHS和HVR亚结构域在7M7VA^7^ZZ^和赤霉属的BC融合蛋白质中的定位图2和3阐明了上面的亚结构域分别在7VmwerWto和赤霉属的BC融合蛋白的B和C结构域中的位置。对于7^!#^"//"(见图2),图解了spvB结构域(标准spvB-ls.hmm模型),从残基51-374(图2的以及SEQIDN0:12的)加下划线。FG-GAP结构域(使用BModel7.hmm模型;在该分子中有六个)用双下划线指出并且发生在残基392-421、453-486、502-531、552-581、604-625和650-681。前面的特征在B结构域中可以观察到。过渡到C结构域后,8个RHS结构域(4吏用Pfamrhsjs.hmm模型)可以在C结构域中在残基1048-1085、1168-1201、1207-1243、1248-1285、1290-1326、1331-1369、1447-1482和1620-1652处确定。这些在图2中以粗体指出。在"C类,,TC蛋白质中共同的高变区(HVR)也在该分子的C末端(残基1733-2027)鉴定。这在图2中以斜体指出。类似地,在关于赤霉属的图3(和SEQIDNO:4)中,在残基51-374可观察到B结构域中的spvB亚结构域(以图3中的下划线显示)。据此确定三个FG-GAP结构域/亚结构域在残基570-609、630-669和685-700处发生。这些在图3中以双下划线指出。(SEQIDNO:2的内含子:残基1557-1583在图3中未显示)。两个RHS结构域位于C结构域中残基1738-1774和1972-2002(在图3中以并且体显示),在残基2154-2439(C末端区)处为HVR,其在图3中以斜体显示。对于上面讨论的赤霉属模型,使用标准的pvB-ls.hmm模型确定spvB结构域。用BModels3.hmm模型发现三个FG-GAP结构域。由于当前已知仅仅一种真核生物蛋白质,所以难以测试最佳的模型。随着更多的真核生物融合的BC毒素蛋白质被发现,该模型将可能改进。用Pfamrhsjs.hmm模型发现了RHS结构域。如使用FG-GAP结构域,发现了两个RHS结构域。随着更多的真核生物实例蜂皮发现,预期该模型将改进。在稍孩史不同的结构域搜索-NCBI的CD(保守结构域)搜索中-从氨基酸残基1493-2153的部分标记为RHSAIMarchler-BauerA,BryantSH(2004),"CD-Sewr/i:p/Y^/"do廳/"朋朋她》似幼e你",NucleicAcidsRes.32:W327-331.J如使用7^me/^/a模型,将HVR作图为缺少与其他蛋白质的同源性。然而,HVR在其他"C类,,蛋白质中可被识别。由于如上述多种天然蛋白质长度的不同,不能为将来的蛋白质预测每个亚结构域的确切的残基位置。然而,本发明包括天然存在的蛋白质,其中Spv结构域位于该分子的前半部分,接着是至少一个F-Gap结构域,接着是蛋白质的后面三分之二中的至少一个RHS结构域,接着是蛋白质末端的高变区。一些软件程序还可以预测跨膜结构域。对于程序TMAP就是这样。从而,可能的是主题蛋白质还包含跨膜结构域。实施例13来自7MiVA^/^ZJW和赤霉属的BC融合的毒素蛋白质的比对和进一步比较用needle进行来自7^1/^"//"和赤霉属的两种BC融合的毒素蛋白的全局比对,needle是一种EMBOSS程序(五MJ05^:77^E"iyv^朋Mo/ec"/w必io/ogy6>/7eSc;/hi^ife5"w/te(2000),Rice,P.,Longden,I.,andBleasby,A.,TrendsinGenetics16(6):276-277),使用Needleman誦Wunsch算法(与GCG的GAP相同)。见图4。使用的额外设置为Align—format:srspair;Report—file:outfile;Matrix:EBLOS画62;Gap—penalty:10.0;Extendpenalty:0.5。对于2894个氩基酸残基的长度,得到下面的得分同一性517/2894(17.9%);相似性796/2894(27.5%);缺口1322/2894(45.7%);得分:441.0。实施例14构建编码8884融合蛋白(TcdB2/TcplczC)的基因融合蛋白8884由与玉蜀黍赤霉Tcplcz蛋白的部分融合的整个尸/^toiV^Af/"sTcdBV—种B类蛋白质)组成。8884融合蛋白中存在的Tcplcz蛋白质的区段在本文中称作TcplczC,以反映它与其他C类蛋白质的功能相似性。为了构建8884融合蛋白的编码区,使用标准分子生物学技术修饰TcdB2编码区的3,末端。同样地,以多步方法修饰TcplGz的C样区域的编码区的5,末端,并将两个修饰的编码区与接头片段连接以产生单个可读框。编码8884基因融合的新的DNA在SEQIDNO:19中公开并且编码多肽8884(在SEQIDNO:20中给出)。8884融合蛋白编码区的核苷酸l-4422对应于发光光杆状菌菌林W-14fcJ丑2基因(Genbank检索号AFS"SO(U)的相同数目的碱基并且编码整个TcdB2蛋白质。该序列接着是42个碱基的接头序列(编码14个氨基酸),其接着是对应于编码Tcpl&蛋白质的DNA序列的核苷酸4346-7423的经优化用于在大肠杆菌细胞中表达的DNA序列(SEQIDNO:5)。将由TcdB2和TcplGzC的编码区組成的融合基因(公开为SEQIDNO:19)克隆到pET表达质粒载体(Novagen,MadisonWI)中。以这样的方法进行构建使得保持合适的细菌转录和翻译信号。该质粒称作pDAB8884。SEQIDNO:19中的表达盒长度为7542个核苷酸并且含有TcdB2的编码区(nts1-4422)、TcdB2/TcplGzC接头肽的编码区(nts4423-4464)和Tcpl(^C的编码区(nts4465-7539)。SEQIDNO:19中融合基因编码的多肽在SEQIDNO:20中显示。预测该融合蛋白含有2,513个氨基酸,具有代表TcdB2(残基1-1474),TcdB2/TcplGzC接头肽(残基1475-1488),和TcplGzC(残基1489-2513)的区段。实施例15pDAB8884的表达条件和裂解物制备A类TC蛋白质XptA2xwi以从异源表达该基因的萤光假单胞菌(T^w^/M0"肪y7Moresce"s)的培养物制备的纯化形式使用。使用标准方法将表达质粒pET280(空载体对照)、pDAB8920(编码TcdB2/TccC3融合蛋白)、pDAB8829(编码TcplGz蛋白)和pDABSSM转化到大肠杆菌T7表达菌抹BL21(DE3)(Invitrogen,Carlsbad,CA)中。用10-200个新鲜转化的菌落在含有50ng/mL抗生素和75IPTG(异丙基-a-D-硫代吡喃半乳糖苷)的250mLLB中启动表达培养物。培养物在28。C下以180-200rpm(转/分钟)生长24小时。通过在500mLNalgene瓶中以5,000xg在4。C离心20分钟收集细胞。将沉淀物悬浮在4-4.5mLButterfield,s磷酸盐溶液(HardyDiagnostics,SantaMaria,CA;0.3mM磷酸钾pH7.2)中。将悬浮的细胞转移到具有lmLO.lmm直径玻璃珠(Biospec,Bartlesville,OK,目录号1107901)的50mL聚丙烯螺旋帽离心管中。在水上冷却细胞玻璃珠混合物,然后通过用2mm探头用BransonSonifier250(DanburyCT)以30的输出,通过超声处理以两次45秒猝发裂解细胞,在猝发之间完全冷却。将裂解物转移到2mLEppendorf管中并以16,000xg离心5分钟。实施例168884裂解物的生物测定条件在特别设计用于昆虫生物测定的128孔托盘(C-DInternational,Pitman,NJ)中用新生玉米穗夜蛾幼虫以人工饮食进行昆虫生物测定。在受控的环境条件(28。C,~40%相对湿度,16h:8h[光:暗〗)下温育生物测定5天,此时记录处理中昆虫的总数、死亡昆虫数目和存活昆虫的重量。如下测定仅津且裂解物或者与加入的XptA2xwi毒素蛋白质的生物学活性。对生物测定托盘的8孔中人工饮食的表面应用对照培养物或者那些表达毒素复合体蛋白质的培养物的粗的大肠杆菌裂解物(40jiL)。每孔中处理的饮食的平均表面积为1.5cm2。应用来自含有空的载体对照的细菌培养物的裂解物、或者产生8920TcdB2/TccC3融合蛋白、8829Tcplcz蛋白和8884TcdB2/TcplGzC融合蛋白的培养物的裂解物与和不与XptA2Xwi。加入的XptA2^蛋白质为从异源表达该蛋白质的细菌培养物高度纯化的制备物。此外,没有任何粗裂解物的纯化的XptA2xwi与作为对照的Butterfield,s磷酸盐溶液混合。饮食上XptA2xwi的终浓度为250ng/cm2。实施例17构建编码8883融合蛋白(Tcpl&B/TccC3)的基因融和蛋白8883由与整个P/iotoi^iM附TccC3蛋白(C类蛋白质)融合的玉蜀黍赤霉TcplGz蛋白质的部分组成。8883融合蛋白中存在的Tcplcz蛋白质的区段在本文中称作TcplGzB,以反映它与其他B类蛋白质的功能相似性。为了构建8883融合蛋白的编码区,使用标准分子生物学技术以多步方法修饰TcplGzB样区域的编码区的3,末端。同样地,以多步方法修饰TccC3编码区的5,末端,并将两个修饰的编码区与接头片段连接以产生单个可读框。编码8883基因融合的新的DNA在SEQIDNO:21中公开并且编码多肽8883(在SEQIDNO:22中给出)。对应于TcplczB蛋白的玉蜀黍赤霉蛋白TcplGz的部分由编码TcplGz蛋白的DNA序列的戚基2S4SS8编码,其经优化用于在大肠杆菌细胞中表达(在SEQIDNO:5中公开)。该序列包含SEQIDNO:21的碱基l-4536。这些碱基接着是39个碱基(编码13个M酸)的接头片段,然后;lJl光光杆状菌菌抹W-14TccC3蛋白(C类蛋白质;Genbank检索号AF346500.2)的整个编码区。[在SEQIDNO:21中,碱基号12(天然序列的T)改变成C以容纳C7fiI限制酶识别位点。该沉默威基改变不改变TccC3蛋白质的编码的^J^酸序列1。该新的融合基因称作8883(SEQIDNO:21)并且编码多肽8883(SEQIDNO:22)。Tcpl&B和TccC3的编码区组成的融合基因工程化为pET表达质粒栽体(Novagen,MadisonWI)中的单个可读框。以这样的方式进行构建使得保持合适的细菌转录和翻译信号。将该质粒称作pDAB8883。融合的编码区盒的DNA序列在SEQIDNO:21中显示。该盒长为7458个核苷酸并且含有TcplGzB的编码区(nts1-4536)、TcplczB/TccC3接头肽(nts4537-4575)的编码区和TccC3的编码区(nts4576-7455)。SEQIDNO:21中融合基因编码的多肽在SEQIDNO:22中显示。预测该融合蛋白含有2,485个氨基酸,具有代表TcplczB(残基1-1512)、TcplczB/TccC3接头肽(残基1513-1525)和TccC3(残基1526-2485)的区段。如下面的实施例中阐明的,含有8883融合蛋白的裂解物表现出优良的功能活性。从而,本发明阐明了当与毒素复合体蛋白XptA2^组合使用时,真核基因产物TcplczB肽和原核基因产物TccC3之间融合的所保留的协同活性。实施例18pDAB8883的表达条件和裂解物制备A类TC蛋白质XptA2xwi以从异源表达该基因的萤光假单胞菌的培养物制备的纯化形式利用。使用标准方法将表达质粒pET280(空载体对照)、pDAB8920(编码TcdB2/TccC3融合蛋白),pDAB8829(编码Tcplcz蛋白)和pDAB8883转化到大肠杆菌T7表达菌抹BL21(DE3)(Invitrogen,Carlsbad,CA)中。用10-200个新鲜转化的菌落在含有50]ng/mL抗生素和75jiMIPTG(异丙基-a-D-硫代吡喃半乳糖苦)的250mLLB中启动表达培养。培养物在28。C下以180-200rpm(转/分钟)生长24小时。通过在500mLNalgene瓶中以5,000xg在4。C离心20分钟收集细胞。将沉淀物悬浮在4-4.5mLButterfield,s磷酸盐溶液(HardyDiagnostics,SantaMaria,CA;0.3mM磷酸钾pH7.2)中。将悬浮的细胞转移到具有lmLO.lmm直径玻璃珠(Biospec,Bartlesville,OK,目录号1107卯1)的50mL聚丙烯螺旋帽离心管中。在冰上冷却细胞玻璃珠混合物,然后通过用2mm探头用BransonSonifier250(DanburyCT)以30的输出,通过超声处理以两次45秒猝发裂解细胞,在幹发之间完全冷却。将裂解物转移到2mLEppendorf管中并以16,000xg离心5分钟。实施例198883裂解物的生物测定条件在特别设计用于昆虫生物测定的128孔托盘(C-DInternational,Pitman,NJ)中用新生玉米穗夜蛾幼虫H^'ave,/m(Boddie)以人工饮食进行昆虫生物测定。在受控的环境条件(28。C,~40%相对湿度,16h:8h光:暗)下温育生物测定5天,此时记录处理中昆虫的总数、死亡昆虫数目和存活昆虫的重量。如下测定仅粗裂解物或者与加入的XptA2xwi毒素蛋白质的生物学活性。对生物测定托盘的8孔中人工饮食的表面应用对照培养物或者那些表达毒素复合体蛋白质的培养物的粗品大肠杆菌裂解物(40pL)。每孔中处理的饮食的平均表面积为1.5cm2。与和不与XptA2xwi—起,应用来自含有空的栽体对照的细菌培养物的裂解物、或者产生8920TcdB2/TccC3融合蛋白、8829Tcplcz蛋白和8883TcplczB/TccC3融合蛋白的培养物的裂解物。加入的XptA2w蛋白质为从异源表达该蛋白质的细菌培养物高度纯化的制备物。此外,没有任何粗裂解物的纯化的XptA2xwi与作为对照的Butterfield,s砩酸盐溶液混合。饮食上XptA2x^的终浓度为250ng/cm2。实施例208883TcplGzB/TccC3融合裂解物的生物测定结果表7显示了对照裂解物、经程序化以表达8920TcdB2/TccC3融合蛋白的细胞的裂解物、经程序化以表达8829Tcplcz蛋白的细胞的裂解物和经程序化以表达8883TcplGzB/TccC3融合蛋白的细胞的裂解物的生物测定结果。所有裂解物为生物测定的加上和减去纯化的XptA2xwi。数据表明有和没有XptA2xwi的对照裂解物对昆虫的影响很小。仅含有8920TcdB2/TccC3融合蛋白的裂解物不加入XptA2xwi时没有作用。然而,加入XptA2^i后,8920裂解物是昆虫生长的有效抑制剂。仅含有8829Tcpl&蛋白质的裂解物没有加入XptA2xwi时没有作用。然而,加入XptA2^时,8829裂解物是昆虫生长的有效抑制剂。经程序化以表达8883TcplczB/TccC3融合蛋白的裂解物没有加入XptA2xwi时没有作用。然而,加入XptA2xwi时,8883裂解物是昆虫生长的有效抑制剂。这些数据表明当TcplczB和TccC3肽融合在一起时,它们与XptA2xwi组合时保留协同作用。表7.玉米穗夜蛾(^^//c0ve/7m(Boddie)新生幼虫对表达毒素复合体蛋白质的大肠杆菌裂解物的应答<table>tableseeoriginaldocumentpage93</column></row><table>每个测试使用24只昆虫。生长抑制标尺0=0-20%;+=21-40%;++=41-60%;+++=61-80%;++++=81-100%.实施例21用于在植物中表达的编码Tcplcz的植物优化基因的设计和合成为了得到真菌基因在植物中更高的表达水平,可以优选重新工程化该基因的蛋白质编码序列使得它在植物细胞中更有效表达。该实施例教导编码SEQIDNO:2的Tcpl&蛋白质但是没有优化用于在植物细胞中表达的新的DNA序列的设计。重新工程化编码真菌蛋白质的基因以在植物中表达的一个动机是由于异源基因的非最佳的G+C含量。例如,许多天然真菌基因的低的G+C含量(和因此倾向于高的A+T含量)导致产生模拟或者复制植物基因控制序列的序列,已知所述基因控制序列高度富含A+T。导入植物中基因的DNA内一些富含A+T序列(例如通常在基因启动子中发现的TATA盒区)的存在可以导致该基因的异常转录。另一方面,在转录的mRNA中其他调节序列(例如,多腺苷酸化信号序列(AAUAAA),或者与参与前-mRNA剪接的小核RNA互补的序列)的存在可以导致RNA不稳定性。因此,在用于植物表达的编码真菌蛋白质的基因、更优选称作植物优化的基因的设计中的一个目标是产生具有与植物基因编码区的平均G+C含量接近的G+C含量的DNA序列。在编码真菌蛋白质的植物优化基因的设计中的另一目标是产生DNA序列,其中该序列修饰不阻碍翻译。由于遗传密码的冗余性/简并性(即,一些氨基酸被一个以上的密码子指定)提供的灵活性,在不同的生物或者不同纲的生物中基因组的进化已经导致冗余密码子的差别用法。该"密码子偏倚,,反映在蛋白质编码区的平均碱基组成中。例如,具有相对低G+C含量的生物利用在冗余密码子的第三位具有A或者T的密码子,而具有较高G+C含量的那些密码子利用在第三位具有G或者C的密码子。然而在mRNA内"次要,,密码子的存在可以减小该mRNA的绝对翻译速率,特别当对应于该次要密码子的负荷tRNA的相对丰度很低时。该概念的延伸是通过个体次要密码子减小翻译速率将对于多个次要密码子至少是累加的。因此,具有次要密码子的高的相对含量的mRNA将具有对应的低翻译速率。该速率将通过随后低水平的编码蛋白质反映。为了帮助工程化编码真菌蛋白质的基因以在植物中表达,可以确定植物基因的密码子偏倚。通过在植物基因的蛋白质编码区中发现的统计学密码子分布代表特定植物基因的密码子偏倚。在表8中,C、D、I和J列给出了如在玉米(Z^w"")和双子叶植物基因的编码区中发现的每种氨基酸的同义密码子的分布(以该氨基酸的所有密码子的用法%表示)。每种植物类型最优选的密码子以粗体指出,当存在多个选择时,可以鉴定优选密码子的第二种、第三种或第四种选择。显然,一些氛基酸的一些同义密码子在植物中^U艮少发现,并且,玉米和双子叶植物的密码子选择不同(例如,丙氨酸密码子GCG在玉米基因中更频繁地发现,而精氨酸密码子AGA更通常地用于双子叶植物基因中)。设计编码真菌Tcplgz蛋白质的氨基酸序列的新的DNA序列以在玉米和双子叶植物中最佳表达。新的DNA序列与编码Tcplgz蛋白质的天然的真菌DNA序列的差别是植物(第一优选的、第二优选的、第三优选的或者第四优选的)密码子的替代以在蛋白质氨基酸序列内的每个位置指定合适的氨基酸。在产生接近玉米和双子叶植物基因的平均密码子分布的编码真菌蛋白质的DNA序列的设计过程中,不包括相对于任一类型植物中该氨基酸的其他同义密码子不频繁使用的任一密码子(通过表8的F和L列中的DNU表示)。通常,如果密码子在约10%或者更少的时间被代表编码任一植物类型的基因中相关氨基酸(通过表9的E和K列中的NA指出),那么认为该密码子被很少使用。为了平衡氨基酸的剩余密码子选择的分布,使用下式计算每个密码子的加权平均表示Cl的加权<formula>formulaseeoriginaldocumentpage95</formula>其中C1是所讨论的密码子并且C2、C3等代表表8的剩余同义密码子沐关密码子的平均y。值来自E和K歹'J)的玉米和双子叶植物的%值的平均值。每种密码子的加权。/。值在表8的F和L列中给出。使用从表8的F和L列构造的平衡的玉米-双子叶植物密码子偏倚表,通过SEQIDNO:2的蛋白质序列的反向翻译启动植物优化的DNA序列的设计。通过补偿密码子改变修饰初始序列(而保持总体加权的平均密码子代表)以除去或者加入限制酶识别位点,除去高度稳、定的链内二级结构,和对植物中工程化基因的克隆操作或者表达有害的其他序列。然后对新序列再次分析通过修饰已经产生的限制酶识别位点。通过用第一、第二、第三或者第四选择优选的密码子替换相关的密码子进一步修饰所鉴定的位点。序列中可以影响目的基因的转录或翻译的其他位点包括外显子内含子接点(5,或者3,)、多聚A加入位点,或者RNA聚合酶终止信号。对经修饰的序列进一步分析和进一步修饰以降低TA或者CG双联体的频率,和增加TG或者CT双联体的频率。除了这些双联体外,具有大于约5个[G+C或[A+T]的连续残基的序列块可以影响该序列的转录或者翻译。因此,通过将第一或第二选择等的密码子用其他优选选择的密码子替换也可以修饰这些序列块。在基因设计中不在实质的程度上包括很少使用的密码子,其仅在当必须容纳除了密码子组成本身(例如,加入或者缺失限制酶识别位点)外的不同设计标准时使用。上述方法使得本领域技术人员可以设计经修饰的基因,其对于具体植物是外源的,从而在植物中最佳表达所述基因。该方法在美国专利号5,380,831和专利申请WO97/13402中进一步描述。从而,为了设计编码真菌蛋白质的植物优化的基因,设计DNA序列以编码所述蛋白质的氨基酸序列,该设计利用从密码子偏倚表建立的冗余遗传密码,所述密码子偏倚表从特定一种或多种植物的基因序列编辑。所得的DNA序列具有较高程度的密码子多样性、所希望的碱基组成,可以含有在策略上放置的限制酶识别位点,并且缺少可以千扰基因转录的序列,或者产物mRNA的翻译。从而,功能上等同于本发明的蛋白质/基因的合成基因可以用于转化宿主,包括植物。关于合成基因的产生的额外教导可以见例如美国专利号5,380,831。一旦已经在纸上或者在计算机芯片上(Z"w7Zco)设计了所述DNA序列,就可以在实验室合成实际的DNA分子以在序列上与所设计的序列精确对应。可以克隆和在其他方面精确操作此类合成的DNA分子,就好像它们来自天然的或者自然来源。编码SEQIDNO:2的Tcplp融合蛋白的变体的植物优化的、密码子偏倚的DNA序列以SEQIDNO:23的碱基3-7403给出(在本文中称作8842基因)。为了方便克隆和确保有效的翻译起始,将5,末端iV"I限制酶识别序列(CCTAGG)工程化以包括ATG翻译起始密码子(SEQIDNO:23的碱基l-6)。该设计特征引入指定丙氨酸的GCT密码子作为所编码蛋白质的第二种氨基酸。从而,SEQIDNO:23编码的蛋白质(如在SEQIDNO:24中公开(在本文中称作8842蛋白质)通过在第二个残基加入丙氨酸而与SEQIDNO:2的天然Tcplgz蛋白质不同。而且,为了确保正确的翻译终止和方便克隆,在编码区(SEQIDNO:23的碱基7404-7432)的3,末端包括编码双链DNA的6个可读框的翻译终止密码子的碱基加上5Vid限制酶识别位点(GAGCTC)。由供应商(PicoScript,Houston.TXUSA)进行包含SEQIDNO:IO的DNA片段的合成。将注意到如以Genbank检索号AACM01000442注解的在SEQIDNO:1中公开的玉蜀黍赤霉基因组DNA序列fc/;/Gz包含推定的内含子序列(SEQIDNO:l的碱基4669-4749)。编码Tcplgz融合蛋白的变体并且在SEQIDNO:23中公开的植物优化的、密码子偏倚的DNA序列已经以这样的方式设计使得除去植物内含子剪接位点识别序列。从而,SEQIDNO:23编码并且在SEQIDNO:24中公开并且预期通过植物细胞产生的蛋白质包括推定的真菌内含子序列编码的氨基酸。表8.706种玉米基因(C和I列)和154种双子叶植物基因(D和J列)的编码区中同义密码子表示。为植物优化的合成基因设计设置的平衡偏倚的密码子表示的值在F和L列中。<table>tableseeoriginaldocumentpage97</column></row><table><table>tableseeoriginaldocumentpage98</column></row><table>*Murray,E,E.,Lotzer,J.,&Eberle,M.(1989)Codonusageinplantgenes.Nucl.AcidsRes.17:477-498.**NA=不适用***DNU=不4吏用实施例22构建含有表达8842蛋白质(变体Tcplcz)的基因的第一个版本的双元植物表达载体蛋白质8842由完整玉蜀黍赤霉TcplGz蛋白质(融合到C类蛋白质的B类蛋白质)的变体组成。如SEQIDNO:23中公开的编码8842基因融合的DNA已经经优化用于在植物中表达。SEQIDNO:23的核苷酸3-7403编码如SEQIDNO:24中公开的完整TcplGz蛋白质变体。通过标准分子生物学技术将8842基因在iVcoIASVicIDNA片段上克隆到中间质粒。中间载体中的8842基因表达盒由如下组成(5,到3,方向)木薯叶脉花叶病毒(CsVMV)启动子(基本上为Genbank检索号CVU58751的碱基7160到7678)、烟草(iV/c^flw"tokcww)渗透蛋白5,稳定序列(见美国专利申请乂^布US20050102713Al)、8842变体基因编码区、烟草渗透蛋白3,稳定序列(见美国专利申请z^布US20050102713Al),和来自才艮癌土i泉杆菌04groMcteWM附,m附e/ac/e/w)pTi-15955的ORF243,非翻译区(基本上为Genbank检索号ATACH5的碱基18621到19148的互补序列组成)。然后通过GatewayLR克隆酶(clonase)(Invitrogen,Carlsbad,CA)将8842基因植物表达盒移动到根癌土壤杆菌植物转化双元栽体中,并将所得的质粒命名为pDAB8842。来自烟草的RB7基质附着区(MAR)(Hall,Gerald,Jr.;Allen,GeorgeC.;Loer,DeborahS.;Thompson,WilliamF.;Spiker,Steven.7Vmc/^wsoij^他scfl加W-fl加cA舰wfiViA/g/rei*//朋te.Proc.Natl.Acad.Sci.USA(1991)88:9320-9324.)直接位于pDAB8842中8842基因植物表达盒的前面。为了提供所转化细胞的植物中(/"/;/awto)选择,该双元载体在紧接8842基因植物表达盒后包括拟南芥04n^V/o戸/s幼<|//"朋)泛蛋白10启动子(Genbank检索号L05399)形式的选择标记基因、膦丝菌素乙酰基转移酶的编码区(PAT;Genbank检索号143995),和来自根癌土壤杆菌pTi-15955的ORF1的3,非翻译区(3,UTR)(基本上为Genbank检索号ATACH5的碱基2180到2887)。双元质粒pDAB8842中元件和表达盒的最终顺序如下pTi15955T-DNA边界B、烟草RB7MAR、基因8842表达盒、PAT基因表达盒、pTi-15955T-DNA边界A的三个串联拷贝。以这样的方式进行构建以便保持合适的植物转录和翻译信号。对于植物转化,通过电穿孔向根癌土壤杆菌菌抹LBA4404的细胞中导入pDAB8842质粒。实施例23构建含有表达8842蛋白质的基因的第二种形式(变体Tcpl&)的双元植物表达栽体通过标准分子生物学技术将SEQIDNO:23的8842蛋白质编码区在7VcoIASVcIDNA片段上克隆到中间质粒。中间载体中的8842基因表达盒由如下组成(5,到3,方向)拟南芥肌动蛋白2启动子(Act2;Genbank检索号U41998)、8842变体基因编码区,和来自根癌土壤杆菌(Jg/Y^a"eWw附似/we/fl"e"s)pTi-15955的ORF243,非翻译区(基本上为Genbank检索号ATACH5的威基18621到19148的互补序列组成)。然后通过GatewayLR克隆酶(Invitrogen,Carlsbad,CA)将8842基因植物表达盒移动到根癌土壤杆菌植物转化双元载体中,并将所得的质粒命名为pDAB8844。在载体DAB8844中,所有元件和表达盒都以实施例22中关于质粒pDAB8842所述的相同顺序存在,只是pDAB8842中存在的CsVMV启动子控制下的8842基因表达盒^皮Act2启动子控制下的8842基因的该版本替代。为了植物转化,将pDAB8844质粒通过电穿孔导入根癌土壤杆菌菌林LBA4404的细胞中。实施例24棉花细胞的转化将棉花品种Coker310的种子用95%酒精表面消毒1分钟,用无菌蒸馏水冲洗,用50%商业漂白剂消毒20分钟,然后再次用无菌蒸馏水沖洗3次。经处理的种子在MagentaGA-7容器中G-培养基Murashige和Skoog,1962(MS)基本盐与B5维生素(Gamborg""/.,1965)和3。/。蔗糖l上28。C下萌发,所述容器在40-60nE/n^的高光强度下保持,具有16小时光照和8小时黑暗的光周期。从7-IO天龄的幼苗分离子叶细裂片(5mm"到培养i中的液体M培养基(基于MS的培养基,含有l-5nM2,4-二氯苯氧基乙酸和1-5)aM激动素)。对于每种构建体(即,pDAB8842和pDAB8844),将200个切割的细裂片用重组根癌土壤杆菌菌林LBA4404悬浮液(约l(^个细胞/mL)处理,然后转移到半固体M-培养基中并共培养2-3天(在该步骤和随后的步骤中,在28。C光照下进行培养)。共培养后,将细裂片转移到MG5培养基中,该培养基含有5mg/L草铵膦(以选择含有所转移基因的植物细胞)和500mg/L羧千青霉素(以除去残留的根癌土壤杆菌细胞)。3周后,从子叶细裂片分离愈伤组织并转移到新鲜的MG5培养基中,然后在3周后再次转移到MG5培养基。再过3周后,将愈伤组织转移到如上含有草铵膦和羧爷青霉素的C-培养基(含有10-20^M萘乙酸和5-10jaM激动素的基于MS的培养基),并在3周后再次转移到新鲜的选择培养基。对于pDAB8842构建体,得到26个愈伤组织林系,对于pDAB8844构建体得到25个愈伤组织株系。实施例25棉花愈伤组织中变体Tcplcz的表达用构建体pDAB8842和pDAB8844转化后分离的愈伤植物组织(200mg)在一80'C冷冻。将冷冻的植物材料置于含有0.188英寸直径钨珠与450提取緩冲液[磷酸緩冲盐水,含有0.1%TritonX-IOO,10mM二硫苏糖醇和5nL/mL蛋白酶抑制剂混合液(SigmaChemicalCompany,St.Louis,MO;目录号P9599)l的1.2mL聚丙烯管中并使用KlecoPulverizer玻珠研磨机(Kleco,Visalia,CA)以最大速度匀浆4分钟。将所得匀浆物以4,000xg在4。C离心10分钟,并使用移液器除去上清液。通过Bradford的方法[Bradford,M.M.,(1976)m/wV/swis/ftVe/wC/rod/o/*f/re《""w故a/iVwWrnZ/wg.Anal.Biochem.:72:248-254.j测定上清液的蛋白质浓度。将提供2-5pg总蛋白质所需的上清液的体积以4:1与4XTris-HCl,SDS,2-巯基乙醇样品緩冲液(由0.125MTrisHC1,10%蔗糖,0.02%溴酚蓝,2.0%SDS,和5%2-巯基乙醇组成)混合。将溶液加热到90。C保持4分钟,装入4-20。/oTris-甘氨酸聚丙烯酰胺凝胶(BioRad,Hercules,CA)的孔中,并使用Laemmli的方法[Laemmli,U.K:,(1970)C7effv"geW/7/"wm//irotoVis^/""Vig幼eflwe附6fyo/幼eZieflrf。/6actef/o;p/iage7V.Nature:227:680-685.1通过应用100伏电压60分钟分离蛋白质。通过免疫印迹分析Towbin,H.,Staehelin,T.,andGordon,J.,(1979)s/ie"s:做rfso附eapp/i'caftVms.Proc.Natl.Acad.Sci.USA76:4350-4354.进行所表达的变体Tcpl&蛋白质的表征。简言之,通过SDS-聚丙烯酰胺凝胶电泳分离的蛋白质样品(上文)通过100V电泳1小时转移到硝酸纤维素上,用1%脱脂乳封闭,并用从Tcplcz蛋白质的不同序列制备的两种不同的一级单克隆抗体之一的1:3,000稀释液检测。使用17氨基酸合成肽得到一种抗体(1184),该肽含有对应于"B"蛋白质的区域中TcplGz的残基1184-1200的序歹'J(如SEQIDNO:2中公开的SKTASAAEELKEARKSF)。另一种抗体(1929)来自合成的22M酸肽,其含有位于对应于"C"蛋白质的蛋白质区域中的从残基1929-1950的序列(如SEQIDNO:2中公开的YHYDEKSLLSDDPRVKSNRLSR)。将含有转移的蛋白质的硝酸纤维素膜与1184或者1929抗体在4。C过夜温育,并轻微摇动。充分洗涤硝酸纤维素膜后,使用抗小鼠ECL-缀合的二级抗体(BioRad)检测愈伤组织产生的与TcplGz有关的蛋白质,并使用ECL试剂(AmershamBiosciences,ArlingtonHeights,IL)才艮据供应商的寸吏用i兌明显色。通过在凝胶的一个孔中包括SeeBlueTM预染的蛋白质分子量标记(Invitrogen)检测蛋白质带的相对分子量。阴性对照由以与上述相同方式处理的非转化的愈伤组织的植物组织组成。阳性对照由从用大肠杆菌优化的基因(构建体pDAB8829)转化的大肠杆菌细胞提取物得到的可溶性蛋白质组成。分析来自构建体pDAB8842的15个棉花愈伤组织和来自构建体pDAB8844的13个愈伤组织。将蛋白质提取物以一式两份染色并用抗体1184(B-区肽)和1929(C-区肽)分别检测。两种抗体都揭示了相似的但不相同的带型。完整的变体Tcplcz蛋白质(2467个氨基酸;SEQIDNO:24)的理论大小为约278kDa。在所有分析中,阳性对照样品显示出与抗体反应的蛋白质的成片条带,其刚好在250kDa分子量标准位置下开始,而从非转化的棉花愈伤组织提取的蛋白质的阴性对照样品没有观察到信号。在15个pDAB8842构建体样品(其中8842变体Tcpl&表达由CsVMV启动子驱动)中,ll个显示出阳性应答,刚好在250kDa下的表观分子量处显示出强烈的蛋白质带,和148kDa分子量标准之上的一般较低强度的第二种蛋白质带。从用pDAB8844构建体转化的棉花愈伤组织制备的样品(其中8842变体Tcplcz表达由Act2启动子驱动)与pDAB8842构建体相比显示出明显更少的阳性应答(13个样品的仅两个显示出阳性应答)。表达8842变体fcp7&基因的棉花愈伤组织当用两种肽特异性抗体1184(B-区肽)和1929(C-区肽)检测时显示出不同的带型。抗体1184结合到具有大于148kDa但是小于250kDa的表观分子量的一种蛋白质种类。抗体1929结合到一种或两种蛋白质(取决于愈伤组织样品),这两种蛋白质都具有大于148kDa但是小于250kDa的表观分子量。从而,这些结果表明这些植物组织产生这样的蛋白质,这些蛋白质被针对变体TcplGz蛋白质的肽片段制备的抗体识别。考虑到该蛋白质的非常大的大小,和凝胶分析分辨率的技术限制,预期在对照样品和植物样品中观察到的高分子量、免疫反应带代表全长Tcpl&蛋白质。实施例26轮枝样镰刀菌的毒素复合体A类和融合的B/C类基因该实施例教导发现在轮枝样镰刀菌(有性型GiW^/to腳"i/一牆)的基因组中存在的新的A类基因和新的融合的B类/C类基因的方法。注意到将玉蜀黍赤霉的一个生命阶段(无性型)分类为禾谷镰刀菌(F"^m'"附真菌轮枝样镰刀菌基因组的DNA序列的测定在BroadInstitute(Cambridge,MA)正在进^f亍中并且7^众从网站(broad.mit.edu/annotation/fgi/)可以获得部分基因组。玉蜀黍赤霉A类TC基因(SEQIDNO:9)和玉蜀黍赤霉&/;/&基因(8£0IDNO:l)的DNA序列分别作为轮枝样镰刀菌基因组的部分序列的TBLASTN分析中的查询序列(TBLASTNver.2.2.10;Oct.19,2004)。这些分析揭示存在对应于A类TC基因的两种序列、对应于融合的B类/C类TC基因的两种序列,以及部分A类TC基因和部分B类TC基因。提取包括这些推定的TC基因并且在这些TC基因侧翼的重叠群序列并进一步分析。为了方便命名提取的重叠群序列AContig12、AContig34、BCContig12、BCContig6和BCContig46。在计算^L芯片上翻译每个重叠群的序列以鉴定100个氨基酸或者更长的肽的编码区(终止子到终止子),并且每种这样的推定蛋白质用作Genbank非冗余蛋白质数据库(NationalCenterforBiotechnologyInformation;Database:db/nr.01;Posteddate:Jan18,20064:00PM;数据库中字母数111,166,549;数据库中序列数目325,447)的BLAST分析(BLASTPver.2.2.3;Apr.24,2002)中的查询序列。将对TCA类、B类或者C类基因具有显著BLAST得分的蛋白质反向作图到来源重叠群的编码DNA。从属于单个TCA类或者TCBC类基因的每个重叠群提取包含编码该蛋白质的区域加上任一边上的20bp的完整DNA序列。在一些情况下,必须颠倒和补足天然重叠群中存在的DNA4^序列以侵z得到标准的5,到3,有义方向上的蛋白质编码区。从AContig12提取的DNA序列以SEQIDNO:25给出。该DNA序列编码两个重叠区段中推定的TCA类蛋白质,这两个区段的推导的序列在SEQIDNOS:26和27中公开。作为推导的推定TCA类蛋白质的第一个区段的编码区的可读框开始的苏氨酸密码子(ACG)是SEQIDNO:25中的残基21-23。在碱基3000周围存在可能的测序错误(在大规模基因组测序计划如本计划中并不罕见),因为编码推定的TCA类蛋白质的前1002个氨基酸的可读框以TGA终止密码子结束。然而,作为推导的推定TCA类蛋白质的第二个部分的可读框开始的AAA赖氨酸密码子(SEQIDNO:25中的残基3022-3024)在TGA密码子上游5个碱基处开始。通过连接包含1002个M酸(SEQIDNO:26)和2057个氨基酸(SEQIDNO:26)的两个编码的肽,并且通过与玉蜀黍赤霉基因组序列类比,可能SEQIDNO:25是完整可读框的部分,所述完整可读框编码约3000个氨基酸的TCA类蛋白质。该推导的FVTCA类蛋白质与玉蜀黍赤霉TCA类蛋白质的高度相关性通过前1002个氨基酸的e-146的BLAST得分和第二个2057M酸的0.0的BLAST得分反映出来。从Acontig34提取的DNA序列作为SEQIDNO:28给出。该DNA编码第二个推定的TCA类蛋白质。编码推定的TCA类蛋白质的DNA序列包含3298个碱基的第一部分。该序列接着是DNA序列中的大缺口,其表示为2098N字符串。最后,TC编码序列包含额外的3773个威基。在SEQIDNO:28中编码区开始处的残基20-22(AAT)对应于SEQIDNO:29中推定的TCA类编码的蛋白质序列的第一个天冬酰胺。在所述Ns之前的DNA序列的该第一个部分含有两个测序错误,其将推导的推定TCA类蛋白质可读框中断成3个部分。可读框的第一个部分包含1452个碱基并且编码484个氨基酸(SEQIDNO:29)。可读框的该部分以TGA终止密码子结束。可读框的第二个部分在TGA终止密码子下游4个碱基处开始,包含6卯个碱基并编码230个氩基酸(SEQIDNO:30)。可读框的该部分以TAA终止密码子结束。可读框的第三个部分在TAA终止密码子下游11个碱基处开始,包含1122个碱基,并且编码374个氨基酸(SEQIDNO:31)。Ns后DNA序列的部分包含推导的推定TCA类蛋白质可读框的第四个部分,并且编码1233个氨基酸(SEQIDNO:32)。推导的推定TCA类蛋白质的该部分的第一个甘氨酸的GGA密码子对应于SEQIDNO:28的碱基对5453-5453。SEQIDNO:28编码的总蛋白质从而长为至少2358个氨基酸。通过与玉蜀黍赤霉序列类比,SEQIDNO:28可能是编码约3000个氨基酸的TCA类蛋白质的完整可读框的部分。该推导的FVTCA类蛋白质与玉蜀黍赤霉TCA类蛋白质的高度相关性通过前484个氨基酸的4e-43的BLAST得分、第二个230个氛基酸0.001的BLAST得分、接着374个氨基酸2e-14的BLAST得分和最后1233个氨基酸的0.0的BLAST得分反映出来。从BCContig12提取的DNA序列作为SEQIDNO:33给出。该DNA编码推定的融合的TCB类/C类蛋白质并且包含5482个碱基的第一部分。该序列接着是DNA序列中的大缺口,其表示为659个N的字符串。最后,BCContig12序列包含额外的1563个威基。在SEQIDNO:33中编码序列开始处的碱基对22-24(GCC)对应于SEQIDNO:33中编码的推定的TC融合的B类/C类蛋白质的第一个丙氨酸。编码的蛋白质的第一部分包含1820个氨基酸(SEQIDNO:34)。刚好在N系列后存在可能的测序错误,因为在推定的融合的TC融合的B类/C类蛋白质的第二个部分开始的框内组氨酸密码子(CAT,SEQIDNO:33的碱基6203-6205)之前为61个框外碱基。所编码的推定的TC融合的B类/C类蛋白质的第二个部分包含494个M酸(SEQIDNO:35)。从而SEQIDNO:33编码的总蛋白质长为至少2314个氨基酸。通过与玉蜀黍赤霉基因组序列类比,可能SEQIDNO:33是编码约2400个氨基酸的TC融合的B类/C类蛋白质的完整可读框的部分。该推导的FVTC融合的B类/C类蛋白质与玉蜀黍赤霉TC融合的B类/C类蛋白质的高度相关性通过前1820个氨基酸的0.0的BLAST得分和最后494个M酸的5e-45的得分反映出来。从BCContig6提取的DNA序列作为SEQIDNO:36给出。该DNA编码推定的融合的TCB类/C类蛋白质的一部分并且包含962个威基。在SEQIDNO:36中编码区开始处的残基20-22(CAG)对应于推导的推定的TC融合的B类/C类蛋白质的第一个谷氨酰胺。推导的编码蛋白质的第一部分包含194个氨基酸(SEQIDNO:37)。刚好在亮氨酸密码子(TTG)后存在可能的测序错误,因为终止密码子(TAG)终止该可读框。然而,发现在推定的TC融合的B类/C类蛋白质的第二部分开始的天冬氨酸密码子(GAT,SEQIDNO:36的残基619-621)在TAG密码子后14个威基。推定的TC融合的B类/C类蛋白质的第二部分包含107个氨基酸(SEQIDNO:38)。从而,SEQIDNO:36编码的蛋白质可能代表TC融合的B类/C类编码区的一部分。通过与玉蜀黍赤霉基因组序列类比,可能SEQIDNO:36是编码约2400个氩基酸的TC融合的B类/C类蛋白质的完整可读框的部分。该推导的FVTC融合的B类/C类蛋白质与T^otoW^^/附TCC类蛋白质的高度相关性通过前194个氨基酸的le-ll的BLAST得分反映出来。剩余的107个氨基酸具有与玉蜀黍赤霉TC融合的B类/C类蛋白质le-10的BLAST得分。从BCContig46提取的DNA序列作为SEQIDNO:39给出。该DNA编码推定的融合的TCB类/C类蛋白质。编码推定的融合的TCB类/C类蛋白质的DNA序列包含3423个碱基的第一部分。该序列接着是DNA序列中的大缺口,其表示为1009个N的字符串。最后,TC编码序列包含额外的3810个碱基。在SEQIDNO:39中编码区开始的碱基21-23(GAG)对应于推导的推定TC融合B类/C类蛋白质的第一部分的第一个谷氨酸。推导的编码蛋白质的第一部分包含1134个氨基酸(SEQIDNO:40)。推导的推定TC融合B类/C类蛋白质的第二部分包含1263个氨基酸(SEQIDNO:41)。TTG密码子指定Ns后推导的TC融合的B类/C类蛋白质的第二个部分的第一个亮氨酸,对应于SEQIDNO:39中残基4435-4437。从而,SEQIDNO:39编码的蛋白质可能代表至少2309个氨基酸的TC融合的B类/C类蛋白质。通过与玉蜀黍赤霉基因组序列类比,可能SEQIDNO:39是编码约2400个氮基酸的TC融合的B类/C类蛋白质的完整可读框的部分。该推导的FVTC融合的B类/C类蛋白质与玉蜀黍赤霉TC融合的B类/C类蛋白质的高度相关性通过前1134个氩基酸的e-168的BLAST得分和最后1263个^J^酸的e-122的BLAST得分反映出来。实施例27来自伯克霍尔德氏菌属和亚硝化螺菌(A^mww/wm)的额外的天然B/C融合按照本文报导的发现,进行额外的BLAST搜索(类似于上面实施例中描述的搜索)。用玉蜀黍赤霹融合的B类/C类序列对Genbank非冗余核苷酸数据库的TBLASTN结果如下LOCUSCP000125.13181762bpDNA环状BCT30-SEP-2005DEFINITION类鼻疽伯克霍尔德氏菌(Burkholderiapseudomallei)1710b染色体II,完整序列.BLAST得分2e-92LOCUSCP000103.13184243bpDNA环状BCT15-NOV-2005DEFINITIONNitrosospiramultiformisATCC25196,完整基因纟且.BLAST得分4e-68LOCUSCP000086.13809201bpDNA环状BCT05-JAN-2006DEFINITIONBurkholderiathailandensisE264染色体I,完整序列.BLAST得分7e-47LOCUSBX5719654074542bpDNA环状BCT17-APR-2005DEFINITION类鼻疽伯克霍尔德氏菌菌林K96243,染色体1,完整序列.BLAST得分le-39LOCUSCP000124.14126292bpDNA环状BCT30-SEP-2005DEFINITION类鼻疽伯克霍尔德氏菌1710b染色体I,完整序列.BLAST得分3e-39LOCUSCP000010.13510148bpDNA环状BCT22-SEP-2004DEFINITION鼻疽伯克霍尔德氏菌(Burkholderiamallei)ATCC23344染色体1,完整序列.BLAST得分3e-38由于伯克霍尔德氏菌属和亚硝化螺菌是细菌属,所以这些结果与本文报导的其他结果一起进一步证实新的BC融合蛋白可以在其他天然存在的生物,尤其这些新的细菌来源中发现。实施例28来自伯克霍尔德氏菌属和曲霉属的额外的A类蛋白质按照本文报导的发现,进行额外的BLAST搜索(类似于上面实施例中描述的搜索)。用玉蜀黍赤霉A类序列对Genbank非冗余核苷酸数据库的TBLASTN结果如下LOCUSAP0071712505489bpDNA线性PLN23-DEC-2005DEFINITION米曲霉RIB40基因组DNA,SC011.BLAST得分8e-97LOCUSCP000125.13181762bpDNA环状BCT30-SEP-2005DEFINITION类鼻疽伯克霍尔德氏菌1710b染色体n,complete序列.BLAST得分le-63LOCUSCP000010.13510148bpDNA环状BCT22-SEP-2004DEFINITION鼻疽伯克霍尔德氏菌ATCC23344染色体1,完整序列.BLAST得分3e-08LOCUSBX571965.14074542bpDNA环状BCT17-APR-2005DEFINITION类鼻疽伯克霍尔德氏菌菌林K96243,染色体l,完整序列.BLAST得分3e-08LOCUSCP000124.14126292bpDNA环状BCT30-SEP-2005DEFINITION类鼻疽伯克霍尔德氏菌1710b染色体I,完整序列.BLAST得分3e-08LOCUSCP000086.13809201bpDNA环状BCT05-JAN-2006DEFINITIONBurkholderiathailandensisE264染色体I,完整序列.BLAST得分8e-08由于伯克霍尔德氏菌属是细菌属,所以这些结果与本文报导的其他结果一起尤其值得注意,因为它们证实在新的细菌来源中可以发现本发明的新的融合BC融合蛋白。由于曲霉是(真核生物)真菌属,所以这些结果还尤其值得注意,因为它们证实可以在多种真核生物和真菌来源中发现A类蛋白质。权利要求1.分离的天然存在的蛋白质,其加强A类毒素复合体毒素的杀虫活性,所述蛋白质以氨基到羧基的顺序包含B区段和C区段,其中所述B区段以氨基到羧基的顺序包含B类毒素复合体多肽特征性的spvBPfam结构域,和B类毒素复合体多肽特征性的多个FG-GAPPfam结构域,并且其中所述C结构域以氨基到羧基的顺序包含C类毒素复合体多肽特征性的多个RHSPfam结构域,和C类毒素复合体多肽特征性的高变结构域。2.权利要求1的蛋白质,其中所述蛋白质是真核生物蛋白质。3.权利要求1的蛋白质,其中所述蛋白质是真菌蛋白质。4.权利要求3的蛋白质,其中所迷真菌蛋白质选自赤霉属蛋白质和镰孢霉属蛋白质。5.权利要求1的蛋白质,其中所述蛋白质具有约200-300kDa的分子量。6.权利要求1的蛋白质,其中所述蛋白质长约2000-2600个M酸。7.权利要求1的蛋白质,其中所述B结构域长约1500个M酸。8.权利要求1的蛋白质,其中所述C结构域长约1000个M酸。9.权利要求1的蛋白质,其中所述蛋白质包含内含子样区域。10.分离的蛋白质,其加强A类毒素复合体毒素的杀虫活性,所述蛋白质以氨基到m^的顺序包含B区段和C区段,其中所述B区段以氨基到氣基的顺序包含B类毒素复合体多肽特征性的spvBPfam结构域,和B类毒素复合体多肽特征性的多个FG-GAPPfam结构域,并且其中所述C结构域以氨基到羧基的顺序包含C类毒素复合体多肽特征性的多个RHSPfam结构域,和C类毒素复合体多肽特征性的高变结构域,其中编码所述蛋白质的多核苷酸与选自由SEQIDNO:l、SEQIDNO:3、SEQIDNO:5、SEQIDNO:7、SEQIDNO:ll、编码SEQIDNO:34的序列、编码SEQIDNO:35的序列、编码SEQIDNO:37的序列、编码SEQIDNO:38的序列、编码SEQIDNO:40的序列、和编码SEQIDNO:41的序列组成的组的序列的完全互补序列在严格条件下杂交。11.权利要求1的蛋白质,其中所述蛋白质包含选自SEQIDNO:2、SEQID脆4、SEQIDNO:34、SEQIDNO:35、SEQIDNO:37、SEQIDNO:38、SEQIDNO:40和SEQIDNO:41的氨基紗列。12.权利要求1的蛋白质,其中所述蛋白质是细菌蛋白质。13.权利要求12的蛋白质,其中所述蛋白质可以从选自甲烷八叠球菌属、密螺》走体属、钩端螺3走体属、Microbulbifer、Tannerella、伯克霍尔德氏菌属和亚硝化螺菌属(Nitrosospora)的天然存在的细菌得到。14.权利要求13的蛋白质,其中编码所述蛋白质的多核苷酸在严格条件下与选自SEQIDNO:7和SEQIDNO:ll的序列的完全互补序列杂交。15.权利要求13的蛋白质,其中所述蛋白质包含选自SEQIDNO:8和SEQIDNO:12的^J^酸序列。16.分离的具有杀虫活性的真核生物A类毒素复合体毒素蛋白质,其中通过B类毒素复合体蛋白质和C类毒素复合体蛋白质加强所述活性。17.权利要求16的蛋白质,其中所述蛋白质是真菌蛋白质。18.权利要求17的蛋白质,其中所述真菌蛋白质选自赤霉属蛋白质、镰孢霉属蛋白质和曲霉属蛋白质。19.权利要求16的蛋白质,其中编码所述蛋白质的多核苷酸与选自由SEQIDNO:9、编码SEQIDNO:26的序列、编码SEQIDNO:27的序列、编码SEQIDNO:29的序列、编码SEQIDNO:30的序列、编码SEQIDNO:31的序列、和编码SEQIDNO:32的序列组成的组的序列的完全互补序列在严格条件下杂交。20.权利要求16的蛋白质,其中所述蛋白质包含选自SEQIDNO:10、SEQID脆26、SEQIDNO:27、SEQIDNO:29、SEQIDNO:30、SEQIDNO:31和SEQIDNO:32的^J^紗列。21.分离的蛋白质,其包含权利要求1的蛋白质的B区段。22.分离的蛋白质,其包含权利要求1的蛋白质的C区段。23.权利要求21的蛋白质,其中所述蛋白质包含SEQIDNO:22。24.权利要求22的蛋白质,其中所迷蛋白质包含SEQIDNO:20。25.分离的具有杀虫活性的伯克霍尔德氏菌属A类毒素复合体毒素蛋白质,其中通过B类毒素复合体蛋白质和C类毒素复合体蛋白质加强所述活性。26.分离的多核苷酸,其编码权利要求25的蛋白质。27.分离的多核苷酸,其编码权利要求l的蛋白质。28.权利要求27的多核苷酸,其具有经优化用于在植物中表达的密码子組成。29.权利要求28的多核苷酸,其中所述多核苷酸包含SEQIDNO:23。30.权利要求27的多核苷酸,其中所述多核苷酸包含非异源内含子序列。31.权利要求27的多核苷酸,其中所述多核苷酸经修饰以除去非异源内含子序列。32.分离的多核苷酸,其编码权利要求16的蛋白质。33.包含权利要求27的多核苦酸的转基因细胞。34.权利要求33的转基因细胞,其还包含编码A类毒素的核酸分子。35.权利要求33的细胞,其中所述细胞是植物细胞。36.转基因细胞,其包含权利要求32的多核苷酸。37.从多核苷*列筛选编码权利要求1的蛋白质的多核苷酸的方法,其中所述方法包括提供参考序列,使用算法比较所述参考序列与序列数据库,对所述数据库中的序列分配得分,选择最小值,鉴定所述数据库中具有高于所述最小值的所述得分的所述多核苷酸,产生所述多核苷酸编码的蛋白质,并测定所述蛋白质加强A类毒素复合体蛋白质的活性的能力。38.控制昆虫的方法,其中所述方法包括将所述昆虫与权利要求1的蛋白质和A类毒素复合体蛋白质毒素接触的步骤。39.加强A类毒素复合体蛋白质毒素的毒素活性的方法,其中所述方法包括提供权利要求1的蛋白质和A类毒素复合体蛋白质供昆虫摄入。40.从天然存在的生物篩选权利要求1的蛋白质的方法。41.从真核生物筛选权利要求16的蛋白质的方法。全文摘要本发明提供了令人惊奇的新类型的毒素复合体(“TC”)蛋白质的新来源。本发明包括这些新类别和类型的TC蛋白质。本发明还包括编码主题蛋白质的多核苷酸。本发明还提供了包含这些多核苷酸的载体和细胞。本发明还提供了控制昆虫的新方法。本发明部分涉及令人惊奇的新发现,即可以从多种种系发生范围的生物,包括最值得注意和令人惊奇地,从真核真菌得到新类型的TC蛋白质。文档编号C12N15/82GK101189340SQ200680013837公开日2008年5月28日申请日期2006年3月2日优先权日2005年3月2日发明者A·T·乌斯雷,D·J·默洛,I·M·拉里努亚,S·L·博顿,T·D·海伊,T·米德申请人:美国陶氏益农公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1