相关专利申请的交叉引用
本申请要求2014年10月23日提交的美国临时申请第62/067,774号的优先权,所述临时申请的全部内容以引用的方式并入本文中。
序列表以引用方式并入
创建于2015年10月20日并且经由efs-web提交至美国专利商标局的名为32353_t0045us01_sequencelisting.txt的28kbascii文本文件中的序列表以引用的方式并入本文中。
本发明提供重组蛋白在真核细胞中的稳定整合和/或表达。具体来说,本发明包括通过采用表达增强核苷酸序列改善蛋白在真核细胞、尤其中国仓鼠(灰仓鼠(cricetulusgriseus))细胞系中的表达的方法和组合物。本发明包括有助于重组介导的盒交换(rmce)的聚核苷酸和经修饰的细胞。本发明的方法将外源性核酸整合在中国仓鼠细胞基因组的特定染色体基因座以有助于经修饰的细胞增强并且稳定表达重组蛋白。
背景技术:
细胞表达系统旨在提供用于制备给定蛋白(不论用于研究或治疗用途)的可靠且高效的来源。由于例如哺乳动物表达系统对重组蛋白进行适当的翻译后修饰的能力,哺乳动物细胞中的重组蛋白表达是用于制备治疗性蛋白的优选方法。
数个细胞系统可用于蛋白的表达,每个系统含有顺式和在一些情况下反式调控元件的各种组合以便在短的培育时间内达到高重组蛋白水平。尽管可获得许多系统,但是仍存在用于表达重组蛋白的整合基因的高效基因转移和稳定性的难题。多个局部遗传因子将不仅决定何时表达所关注的目标基因,而且决定细胞是否可以功能上驱使基因朝着高产性输出转录,或甚至表达是否将长期持续。染色体整合位点,例如中国仓鼠卵巢细胞(cho)整合位点和特定基因内或相邻的基因座控制区已在所属领域中加以表征(wo2012/138887a1;li,q.等人,2002blood.100:3077-3086)。同样地,通常在内源性蛋白编码区中鉴别靶向调控区。然而,为了长期表达目标转基因,关键考虑因素是对细胞基因的破坏程度最小以避免细胞系表型的变化。
工程改造稳定细胞系以容纳额外用于表达的基因,如多特异性抗体中的额外抗体链,是特别具有挑战性的。可能存在整合基因表达水平的大幅变化。整合额外基因可能由于局部遗传环境(即,位置作用)而引起表达的较大变化和不稳定性。因此,所属领域中需要经改善的哺乳动物表达系统。
技术实现要素:
在一个方面,本发明提供一种包含整合在基因座内的特定位点处的外源性核酸序列的细胞,其中所述基因座包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列。在一些实施例中,所述基因座包含与seqidno:1至少90%一致的核苷酸序列。在一些实施例中,所述基因座包含与seqidno:4至少90%一致的核苷酸序列。
在另一个方面,本发明提供一种聚核苷酸,其包含整合到第二核酸序列内的特定位点(例如本发明的基因座)中的第一核酸序列。在一个实施例中,所述第二核酸序列包含seqidno:1的核苷酸序列。在另一个实施例中,所述第二核酸序列包含seqidno:4的核苷酸序列。
在一个实施例中,所述第二核酸序列是选自与seqidno:1具有至少90%核酸一致性的核苷酸序列的表达增强序列,或其表达增强片段。在一个实施例中,所述第二核酸序列是选自与seqidno:4具有至少90%核酸一致性的核苷酸序列的表达增强序列,或其表达增强片段。在另一个实施例中,所述表达增强序列能够增强由外源性核酸序列编码的蛋白的表达。在另一个实施例中,所述表达增强序列能够使由外源性核酸序列编码的蛋白的表达与通常通过随机整合到基因组中所观察到的表达相比表达增强至少约1.5倍到至少约3倍。
在另一个实施例中,外源性核酸序列被整合到seqidno:1或seqidno:4内的任何位置处的特定位点中。
在一些实施例中,处于seqidno:1内的位置或邻近于seqidno:1内的位置的特定位点选自由以下各项组成的群组:跨越seqidno:1的编号10-4,000、100-3,900、200-3,800、300-3,700、400-3,600、500-3,500、600-3,400、700-3,300、800-3,200、900-3,100、1,000-3,000、1,100-2,900、1,200-2,800、1,300-2,700、1,200-2,600、1,300-2,500、1,400-2,400、1,500-2,300、1,600-2,200、1,700-2100、1,800-2050、1850-2050,1,900-2040、1950-2,025、1990-2021、2002-2021和2,010-2,015的位置的核苷酸。在某些实施例中,处于seqidno:1内的位置或邻近于seqidno:1内的位置的特定位点选自由以下各项组成的群组:跨越seqidno:1的编号1990-1991、1991-1992、1992-1993、1993-1994、1995-1996、1996-1997、1997-1998、1999-2000、2001-2002、2002-2003、2003-2004、2004-2005、2005-2006、2006-2007、2007-2008、2008-2009、2009-2010、2010-2011、2011-2012、2012-2013、2013-2014、2014-2015、2015-2016、2016-2017、2017-2018、2018-2019、2019-2020和2020-2021的位置的核苷酸。
在另一个实施例中,处于seqidno:1内的位置或邻近于seqidno:1内的位置的特定位点选自由以下各项组成的群组:跨越seqidno:1的编号10-500、500-1,000、500-2,100、1,000-1,500、1,000-2,100、1,500-2,000、1,500-2,500、2,000-2,500、2,500-3,000、2,500-3,500、3,000-3,500、3,000-4,000和3,500-4,000的位置的核苷酸。在某些实施例中,外源性核酸序列被整合在上文所述特定位点中的任何一个或多个处、内部或附近。
在另一个实施例中,外源性核酸序列包含位于如上所述的表达增强序列内的识别位点,其条件是所述表达增强序列包含与seqidno:1或seqidno:4的表达增强序列至少约90%一致、至少约91%一致、至少约92%一致、至少约93%一致、至少约94%一致、至少约95%一致、至少约96%一致、至少约97%一致、至少约98%一致或至少约99%一致的序列、其表达增强片段。
在一个实施例中,外源性核酸序列包含重组酶识别位点。在一些实施例中,外源性核酸序列另外包含至少一个重组酶识别位点,所述重组酶识别位点包含独立地选自以下各项的序列:loxp位点、lox511位点、lox2272位点、lox2372、lox5171、loxm2、lox71、lox66、loxfas和frt位点。在一个实施例中,所述重组酶识别位点被整合在表达增强序列内。在另一个实施例中,所述重组酶识别位点在5'方向紧邻基因盒5'端的末端核苷酸,或在3'方向紧邻基因盒3'端的末端核苷酸。在一些实施例中,所述至少一个重组酶识别位点和基因盒被整合在表达增强序列内。
在一个实施例中,至少两个重组酶识别位点存在于表达增强序列内。在另一个实施例中,相反方向的两个重组酶识别位点被整合在表达增强序列内。在另一个实施例中,三个重组酶识别位点被整合在表达增强序列内。
在一个方面,提供经分离的中国仓鼠卵巢(cho)细胞,其包含经工程改造的seqidno:1的表达增强序列或其表达增强片段。在一个实施例中,包含seqidno:1或seqidno:4的核苷酸序列的表达增强序列或其稳定变异体经工程改造以整合如上所述的外源性核酸序列。在其它实施例中,本发明提供一种经分离的cho细胞,其包含插入到包含seqidno:1或seqidno:4的表达增强序列或其稳定变异体的基因座中的外源性核酸序列。
在一个实施例中,所述cho细胞另外包含在表达增强序列内的至少一个重组酶识别序列。在另一个实施例中,所述至少一个重组酶识别序列独立地选自loxp位点、lox511位点、lox2272位点、lox2372、lox5171、loxm2、lox71、lox66loxfas和frt位点。在另一个实施例中,所述重组酶识别位点在5'方向紧邻基因盒5'端的末端核苷酸,或在3'方向紧邻基因盒3'端的末端核苷酸。在一些实施例中,所述至少一个重组酶识别位点和基因盒被整合在本文所述的cho细胞基因组的表达增强序列内。
在另一个实施例中,所述至少一个重组识别位点如上所述定位,需要说明的是基因盒包含与seqidno:1(seqidno:2)的核苷酸1001至2001包含至少90%一致性、至少约91%一致性、至少约92%一致性、至少约93%一致性、至少约94%一致性、至少约95%一致性、至少约96%一致性、至少约97%一致性、至少约98%一致性或至少约99%一致性的表达增强序列或其表达增强片段。在另一个实施例中,所述至少一个重组识别位点如上所述定位,需要说明的是基因盒包含与seqidno:1(seqidno:3)的核苷酸2022至3022包含至少90%一致性、至少约91%一致性、至少约92%一致性、至少约93%一致性、至少约94%一致性、至少约95%一致性、至少约96%一致性、至少约97%一致性、至少约98%一致性或至少约99%一致性的表达增强序列或其表达增强片段。
在又一个实施例中,所述至少一个重组酶识别位点被插入在seqidno:1的核苷酸1990-1991、1991-1992、1992-1993、1993-1994、1995-1996、1996-1997、1997-1998、1999-2000、2001-2002、2002-2003、2003-2004、2004-2005、2005-2006、2006-2007、2007-2008、2008-2009、2009-2010、2010-2011、2011-2012、2012-2013、2013-2014、2014-2015、2015-2016、2016-2017、2017-2018、2018-2019、2019-2020、2020-2021或2021-2022处或所述核苷酸内的cho细胞基因组中。
在另一个实施例中,外源性核酸被插入在seqidno:1的核苷酸1990-1991、1991-1992、1992-1993、1993-1994、1995-1996、1996-1997、1997-1998、1999-2000、2001-2002、2002-2003、2003-2004、2004-2005、2005-2006、2006-2007、2007-2008、2008-2009、2009-2010、2010-2011、2011-2012、2012-2013、2013-2014、2014-2015、2015-2016、2016-2017、2017-2018、2018-2019、2019-2020、2020-2021或2021-2022处或所述核苷酸内的cho基因组中。
在另一个实施例中,外源性核酸被插入在seqidno:1的核苷酸2001-2022处或所述核苷酸内的cho基因组中。在一些实施例中,外源性核酸被插入在seqidno:1的核苷酸2001-2002或核苷酸2021-2022处或所述核苷酸内,并且seqidno:1的核苷酸2002-2021由于插入而缺失。同样,外源性核酸被插入在seqidno:4的核苷酸9302-9321处或所述核苷酸内的cho基因组中。在一些实施例中,外源性核酸被插入在seqidno:4的核苷酸9301-9302或核苷酸9321-9322处或所述核苷酸内,并且seqidno:4的核苷酸9302-9321由于插入而缺失。
在一些实施例中,整合在基因座(如seqidno:1或seqidno:4的核苷酸序列)内的特定位点处的外源性核酸序列包含所关注基因(goi)(例如,编码所关注蛋白或“poi”的核苷酸序列)。在某些实施例中,外源性核酸序列包含一个或多个所关注基因。在一些实施例中,一个或多个所关注基因选自由第一goi、第二goi和第三goi组成的群组。
在一些实施例中,整合在基因座(如seqidno:1或seqidno:4的核苷酸序列)内的特定位点处的外源性核酸序列包含goi和至少一个重组酶识别位点。在一个实施例中,第一goi如上所述被插入在seqidno:1或seqidno:4的表达增强序列或与seqidno:1或seqidno:4具有至少90%核苷酸一致性的表达增强序列或其表达增强片段内,并且所述第一goi任选地被可操作地连接到启动子,其中所述启动子连接的goi(或所述goi)的5'侧翼是第一重组酶识别位点并且3'侧翼是第二重组酶识别位点。在另一个实施例中,第二goi被插入在第二重组酶识别位点的3',并且所述第二goi的3'侧翼是第三重组酶识别位点。
在又一个实施例中,goi被可操作地连接到能够驱动goi表达的启动子,其中所述启动子包含可以由活化因子或抑制因子调控的真核启动子。在其它实施例中,真核启动子被可操作地连接到原核操纵子,并且真核细胞任选地另外包含原核阻遏蛋白。
在另一个实施例中,一个或多个可选标记被包括在第一与第二和/或第二与第三重组酶识别位点之间。在一些实施例中,第一和/或第二所关注基因和/或一个或多个可选标记被可操作地连接到启动子,其中所述启动子可以相同或不同。在另一个实施例中,启动子包含真核启动子(如cmv启动子或sv40晚期启动子),其任选地受原核操纵子(如tet操纵子)控制。在其它实施例中,细胞另外包含编码原核阻遏子(如tet阻遏子)的基因。
在另一个实施例中,细胞另外包含能够表达重组酶的基因。在一些实施例中,所述重组酶是cre重组酶。
在一个方面,提供一种cho宿主细胞,其包含选自seqidno:1或seqidno:4的表达增强序列、或与seqidno:1或seqidno:4具有至少90%核苷酸一致性的表达增强序列、或其表达增强片段,包含第一重组酶识别位点,后面是第一真核启动子、第一可选标记基因、第二真核启动子、第二可选标记基因和第二重组酶识别位点。在更多实施例中,cho宿主细胞另外提供第三真核启动子、第三标记基因和第三重组酶识别位点。在一个实施例中,表达增强序列如上所述在seqidno:1或seqidno:4内。
在一个实施例中,第一、第二和第三重组酶识别位点彼此不同。在一些实施例中,重组酶识别位点选自loxp位点、lox511位点、lox2272位点、lox2372、lox5171、loxm2、lox71、lox66、loxfas和frt位点。
在一个实施例中,第一可选标记基因是药物抗性基因。在另一个实施例中,药物抗性基因是新霉素抗性基因或潮霉素抗性基因。在另一个实施例中,第二和第三可选标记基因编码两种不同的荧光蛋白。在一个实施例中,所述两种不同的荧光蛋白选自由以下各项组成的群组:discosoma珊瑚(dsred)、绿色荧光蛋白(gfp)、增强型绿色荧光蛋白(egfp)、蓝绿色荧光蛋白(cfp)、增强型蓝绿色荧光蛋白(ecfp)、黄色荧光蛋白(yfp)、增强型黄色荧光蛋白(eyfp)和远红外荧光蛋白(例如mkate、mkate2、mplum、mraspberry或e2-crimson)。
在一个实施例中,第一、第二和第三启动子是相同的。在另一个实施例中,第一、第二和第三启动子彼此不同。在另一个实施例中,第一启动子不同于第二和第三启动子,并且第二和第三启动子是相同的。在更多实施例中,第一启动子是sv40晚期启动子,并且第二和第三启动子各自是人类cmv启动子。在其它实施例中,第一和第二启动子被可操作地连接到原核操纵子。
在一个实施例中,宿主细胞系具有外源添加整合到其基因组中、可操作地连接到启动子的编码重组酶的基因。在另一个实施例中,所述重组酶是cre重组酶。在另一个实施例中,所述宿主细胞具有整合到其基因组中、可操作地连接到启动子的编码调节蛋白的基因。在更多实施例中,所述调节蛋白是tet阻遏蛋白。
在一个实施例中,第一goi和第二goi编码抗体轻链或其片段,或抗体重链或其片段。在另一个实施例中,第一goi编码抗体轻链并且第二goi编码抗体重链。
在某些实施例中,第一、第二和第三goi编码选自由以下各项组成的群组的多肽:第一轻链或其片段、第二轻链或其片段和重链或其片段。在又一个实施例中,第一、第二和第三goi编码选自由以下各项组成的群组的多肽:轻链或其片段、第一重链或其片段和第二重链或其片段。
在一个方面,提供一种用于制备所关注蛋白的方法,其包含(a)将所关注基因(goi)引入到cho宿主细胞中,其中所述goi整合到包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的特定基因座中;(b)在允许所述goi表达的条件下培养(a)的细胞;和(c)回收所述所关注蛋白。在一个实施例中,所述所关注蛋白选自由以下各项组成的群组:免疫球蛋白的亚单位或其片段,和受体或其配体结合片段。在某些实施例中,所述所关注蛋白选自由以下各项组成的群组:抗体轻链或其抗原结合片段,和抗体重链或其抗原结合片段。
在一些实施例中,采用用于重组酶介导的盒交换(rmce)的靶向载体将goi引入到细胞中,并且cho宿主细胞基因组包含在特定基因座内的至少一个外源性识别序列。在其它实施例中,cho宿主细胞基因组包含在特定基因座内、任选地连接到启动子、ires和/或聚腺苷酸化(polya)序列的至少一个外源性识别序列和可选标记。
在某些实施例中,cho宿主细胞基因组包含如上所述的一个或多个重组酶识别位点,并且goi是经由重组酶识别重组酶识别位点的作用引入到特定基因座中。
在另一个实施例中,采用用于同源重组的靶向载体将goi引入到细胞中,并且其中所述靶向载体包含与特定基因座中所存在的序列同源的5'同源臂、goi和与特定基因座中所存在的序列同源的3'同源臂。在另一个实施例中,所述靶向载体另外包含两个、三个、四个或五个或更多所关注基因。在另一个实施例中,一个或多个所关注基因被可操作地连接到启动子。
在另一个方面,提供一种靶向载体,其中所述靶向载体包含与包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的基因座中所存在的序列同源的5'同源臂、goi和与包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的基因座中所存在的序列同源的3'同源臂。在另一个实施例中,所述靶向载体另外包含两个、三个、四个或五个或更多所关注基因。
在另一个方面,提供一种用于修饰cho细胞基因组以整合外源性核酸序列的方法,其包含将包括载体的载具引入到所述细胞中的步骤,其中所述载体包含外源性核酸序列,其中所述外源性核酸整合在所述基因组的包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的基因座内。
在一些实施例中,所述载体包含与基因组的包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的基因座中所存在的序列同源的5'同源臂、外源性核酸序列和与基因组的包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的基因座中所存在的序列同源的3'同源臂。
在一些实施例中,所述载体中的外源性核酸序列包含
一个或多个识别序列。在其它实施例中,外源性核酸包含一个或多个goi,如可选标记或编码poi的核酸。在又其它实施例中,外源性核酸包含一个或多个goi和一个或多个识别序列。
在一个实施例中,载具包含至少一个额外载体或mrna。在另一个实施例中,额外载体选自由以下各项组成的群组:腺病毒、慢病毒、逆转录病毒、腺相关病毒、整合性噬菌体载体、非病毒载体、转座子和/或转座酶、整合酶底物和质粒。在一些实施例中,额外载体包含编码用于整合外源性核酸序列的位点特异性核酸酶的核苷酸序列。
在某些实施例中,位点特异性核酸酶包含锌指核酸酶(zfn)、zfn二聚体、转录活化因子样效应子核酸酶(talen)、tal效应子结构域融合蛋白或rna指导的dna核酸内切酶。
在另一个方面,提供一种用于修饰cho细胞基因组以整合外源性核酸序列的载具,其中所述载具包括载体,其中所述载体包含与所述基因组的包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的基因座中所存在的序列同源的5'同源臂、外源性核酸序列和与所述基因组的包含与seqidno:1或seqidno:4至少90%一致的核苷酸序列的基因座中所存在的序列同源的3'同源臂。
在一些实施例中,外源性核酸序列包含一个或多个识别序列。在其它实施例中,外源性核酸包含一个或多个goi,如可选标记或编码poi的核酸。在又其它实施例中,外源性核酸包含一个或多个goi和一个或多个识别序列。
在又一个方面,提供一种用于修饰cho细胞基因组以表达治疗剂的方法,所述治疗剂包含用于引入到所述基因组中的载具、包含用于表达所述治疗剂的序列的外源性核酸,其中所述载具包含与seqidno:1的核苷酸序列中所存在的序列同源的5'同源臂、编码所述治疗剂的核酸和与seqidno:1或seqidno:4的核苷酸序列中所存在的序列同源的3'同源臂。
在再一个方面,本发明提供一种经修饰的cho宿主细胞,其包含经修饰的cho基因组,其中所述cho基因组是通过在所述基因组的具有与seqidno:1至少90%一致的核苷酸序列的基因座内插入外源性识别序列而经修饰的。
在另一个方面,本发明提供一种经修饰的真核宿主细胞,其包含经修饰的真核基因组,其中所述真核基因组在所述基因组的非编码区中的目标整合位点处经修饰以插入外源性核酸。在一些实施例中,外源性核酸是识别序列。在其它实施例中,宿主细胞是哺乳动物宿主细胞,如cho细胞。在其它实施例中,目标整合位点包含如seqidno:1的表达增强序列,其条件是所述序列不编码任何内源性蛋白。本发明还提供制备这类经修饰的真核宿主细胞的方法。
在上文所述的任何方面和实施例中,表达增强序列可以按与seqidno:1中一样的指示方向或与seqidno:1的方向逆向安置。
除非另有说明或上下文中显而易见,否则本发明的任何方面和实施例可以与本发明的任何其它方面或实施例结合使用。
通过审阅接下来的详细说明,其它目标和优点将变得显而易见。
附图说明
图1a和1b.图1a:利用将表达goi(例如,多链抗体)的核酸分子和选择标记的多个拷贝随机引入到细胞基因组(例如用于鉴别目标基因座的cho基因组)中的可操作构建体的示意图。示例性构建体包括:重链(hc);第一拷贝选择标记,如:潮霉素抗性基因(hyg);第一拷贝轻链(lc);第二拷贝选择标记(例如hyg)、第二拷贝轻链(lc);第三复本选择标记(例如hyg)。图1b:经由同源重组整合到天然基因座中的实例供体载体鉴别为seqidno:1。5'和3'同源臂来源于seqidno:1。
图2a至2c说明seqidno:1的基因座(locus1)可操作地连接到所关注基因(goi)与未可操作地连接到locus1而是连接到对照基因座的相同goi相比,展现goi的mrna表达增强。图2a:编码所关注抗体基因的细胞,即可操作地连接到对照基因座对比locus1的一个重链(hc)和两个轻链(lc),展现相等数目的基因拷贝。图2b:与对照基因座mrna相比,表达locus1中的goi的mrna水平较高。图2c:表达locus1中的goi的细胞的蛋白效价比由表达对照基因座中的相同goi的细胞所产生的蛋白效价高3倍。
图3a和3b说明整合在locus1处的包含荧光标记和goi的实例盒(例如侧接lox位点的mkate与eyfp和goi交换)与整合在对照基因座处的相同盒(与侧接lox位点的不同荧光标记交换,例如dsred2)相比,其中这类整合采用cre重组酶和重组酶介导的盒交换(rmce)。将这类盒用于实验中以测量goi的重组效率和转录。
图4显示表达locus1(seqidno:1)中的goi的cho细胞池中所测量的所关注基因(goi)的mrna水平与表达在相同调控条件下、但整合在对照基因座(即eesyr)内的相同goi的cho细胞池的mrna相比较高。
具体实施方式
在描述本发明的方法前,应当理解,本发明不限于所述的特定方法和实验条件,因为这类方法和条件可以变化。还应当理解,本文所用的术语仅用于描述具体实施例的目的,而无意进行限制,因为本发明的范围将仅由所附权利要求书限制。
如在本说明书和所附权利要求书中所用,除非上下文另外明确规定,否则单数形式“一个/种(a/an)”和“所述”包括多个提及物。因此,例如提及“一种方法”包括本文所述类型的和/或在阅读本公开后对所属领域的技术人员将变得显而易见的一种或多种方法和/或一个或多个步骤。
除非另有定义或另有规定,否则本文所用的所有技术和科学术语均具有与本发明所属领域的普通技术人员通常理解相同的含义。
尽管与本文中描述的那些方法和材料类似或等效的任何方法和材料均可用于本发明的实践或检验,但现在描述特定的方法和材料。本文提及的所有出版物均以全文引用的方式并入本文中。
定义
dna区当在功能上彼此相关时是可操作地连接的。举例来说,如果启动子能够参与编码序列的转录,那么所述启动子被可操作地连接到所述序列;如果核糖体结合位点经定位以便允许翻译,那么所述核糖体结合位点被可操作地连接到编码序列。一般来说,可操作地连接可以包括但并不要求邻接。就如分泌性前导序列的序列来说,邻接并且适当放置在阅读框中是典型的特征。在所关注基因座的表达增强序列在功能上与所关注基因(goi)相关的情况下,例如在其存在使得goi的表达增强和/或整合稳定的情况下,其被可操作地连接到goi。
术语“增强”在用于描述增强的表达时包括例如与相同表达构建体的单一拷贝的随机整合体池相比,超过通常通过将外源性序列随机整合到基因组中或通过整合在不同基因座所观察到的至少约1.5倍增强到至少约3倍增强的表达。采用本发明的序列所观察到的加倍表达增强是与在基本上相同的条件下、在本发明的序列不存在的情况下所测量的相同基因的表达水平相比,例如与整合到相同物种基因组中的另一基因座相比。增强的重组效率包括基因座重组能力的增强(例如,采用重组酶识别位点)。增强是指超过随机重组(例如,不采用重组酶识别位点等)的重组效率,其通常是0.1%。优选增强的重组效率超过随机约10倍,或是约1%。除非规定,否则要求保护的发明不限于特定的重组效率。
在关于所关注基因座采用短语“外源添加的基因”或“外源添加的核酸”的情况下,所述短语是指作为自然界中所发现的基因座所关注基因座内不存在的任何dna序列或基因。举例来说,cho基因座(例如包含seqidno:1序列的基因座)内“外源添加的基因”可以是自然界中特定cho基因座内未发现的仓鼠基因(即,仓鼠基因来自仓鼠基因组的另一基因座)、来自任何其它物种的基因(例如人类基因)、嵌合基因(例如人类/小鼠)或自然界中未发现的任何其它基因存在于所关注cho基因座内。
当描述所关注基因座(如seqidno:1或seqidno:4)或其片段时,一致性百分比意味着包括沿着邻接的同源区展示出所列举一致性的同源序列,但在相比较的序列中不具有同源性的间隙、缺失或插入的存在不纳入一致性百分比的计算中。
如本文所用,在例如seqidno:1或其片段与物种同源物之间的“一致性百分比”测定将不包括在比对中物种同源物无同源序列比较(即,seqidno:1或其片段在那一点处具有插入,或物种同系物具有间隙或缺失,视具体情况而定)的序列比较。因此,“一致性百分比”不包括间隙、缺失和插入的罚分。
在核酸序列的情形下,“同源序列”是指基本上与参考核酸序列同源的序列。在一些实施例中,如果两个序列的至少50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的相应核苷酸在相关的残基序列段上是一致的,那么这两个序列被认为是基本上同源的。在一些实施例中,相关序列段是完全序列。
“靶向插入”是指用于引导基因或核酸序列插入或整合到基因组的特定位置,即,引导dna到相连聚核苷酸链中两个核苷酸之间的特定位点的基因靶向方法。也可以对特定基因盒进行靶向插入,所述基因盒包括多个基因、调控元件和/或核酸序列。“插入”和“整合”可互换使用。应理解,基因或核酸序列(例如包含表达盒的核酸序列)的插入可能导致(或可能经工程改造以使得)一个或多个核酸的替代或缺失,这取决于所采用的基因编辑技术。
“识别位点”或“识别序列”是由核酸酶或其它酶识别以结合并且引导dna主链的位点特异性裂解的特定dna序列。核酸内切酶在dna分子内裂解dna。识别位点在所属领域中也被称为识别目标位点。
“重组酶识别位点”是由重组酶,如cre重组酶(cre)或翻转酶(flp)识别的特定dna序列。位点特异性重组酶在其一个或多个目标识别序列被战略性置于生物体基因组中时,可以进行dna重排,包括缺失、倒位和易位。在一个实例中,cre在其dna目标识别位点loxp处特异性介导重组事件,所述识别位点是由通过8-bp间隔子分隔开的两个13-bp反向重复序列构成。可以采用不止一个重组酶识别位点,例如以有助于重组介导的dna交换。也可以采用重组酶识别位点(例如lox位点)的变异体或突变体(araki,n.等人,2002,nucleicacidsresearch,30:19,e103)。
“重组酶介导的盒交换”涉及一种用供体盒精确替换基因组目标盒的方法。通常为了进行此方法所提供的分子组合物包括1)5'和3'侧接对特定重组酶具有特异性的识别目标位点的基因组目标盒、2)侧接匹配的识别目标位点的供体盒和3)位点特异性重组酶。重组酶蛋白在所属领域中是众所周知的(turan,s.和bodej.,2011,fasebj.,25,第4088-4107页)并且能够精确裂解特定识别目标位点内的dna(dna的序列)而不增加或丢失核苷酸。常见重组酶/位点组合包括(但不限于)cre/lox和flp/frt。
“载具”是由携载外源性核酸的任何聚核苷酸或聚核苷酸集合组成的用于引入到细胞中的组合物。载具包括通过众所周知的转染方法递送到细胞的载体、质粒和mrna分子。在一个实例中,引入到细胞中的mrna可以是瞬时的并且未整合到基因组中,然而,所述mrna可以携载进行整合过程所必需的外源性核酸。
一般说明
本发明至少部分地基于基因组中独特序列(即基因座)的发现,所述序列与基因组中的其它区或序列相比展现更高效的重组、插入稳定性和较高水平表达。本发明还至少部分地基于以下发现:当这类表达增强序列被鉴别时,可以在所述序列中或附近外源添加合适的基因或构建体并且外源添加的基因可以被有利地表达或用于另外的基因组修饰。这类被称为表达增强序列的序列被视为稳定的并且不位于基因组的编码区内。这些表达增强和稳定区可以经工程改造以用于未来的克隆或基因组编辑事件。因此,可靠的表达系统被构建到细胞的基因组主链中。
本发明还基于外源性基因特异性靶向整合位点。本发明的方法允许细胞基因组高效“转换”到适用的克隆盒中,例如通过采用重组酶介导的盒交换(rmce)。为此目的,本发明的方法采用细胞基因组重组酶识别位点安置所关注基因,以便产生用于重组蛋白生产的高产细胞系。
本发明的组合物也可以被包括在表达构建体中,例如在用于克隆和工程改造新细胞系的表达载体中。包含本发明的聚核苷酸的表达载体可以用于瞬时表达蛋白,或可以通过随机或靶向重组,如同源重组或由识别特定重组位点的重组酶所介导的重组(例如cre-lox介导的重组)整合到基因组中。包含本发明的聚核苷酸的表达载体还可以用于评定其它dna序列,例如顺式作用调控序列的功效。
整合位点通常是通过随机整合或分析逆转录病毒整合事件来加以鉴别。本文中详细描述的cho整合位点是通过随机整合编码多链抗体的dna并且发现所表达蛋白展现增强的表达来加以鉴别。
将包含一个重链(hc)和两个轻链(lc)复本的实例多链抗体随机整合到基因组的含有交替潮霉素抗性基因的表达盒中(参见,例如图1a中所描绘的三个一致的hyg基因)。通过将表达盒整合在鉴别为seqidno:1的基因座内产生一个稳定的高表达克隆。
与整合到cho基因组的另一区(对照整合位点)中相比,当整合在seqidno:1的基因座内时实例多链抗体展现较高表达水平。有趣的是,整合在seqidno:1相对于对照整合位点内的抗体表达聚核苷酸是基因复本数是相当的,然而整合在seqidno:1内的抗体表达聚核苷酸的蛋白效价高3倍。
使用靶向重组方法将cho细胞基因组转换到含有重组酶识别位点的克隆构建体中(参见,例如图3a-b)。
本质上,在鉴别seqidno:1的整合位点后,采用基因座中的重组酶识别位点(例如lox位点)引入表达盒,所述表达盒包含可表达的goi,如可选标记(参见,例如图3a-b),以及任何其它所需元件,例如启动子、增强子、标记、操纵子、核糖体结合位点(例如内部核糖体入口位点)等。
用于靶向整合seqidno:1内的lox位点的实例供体构建体的图示展示于图1b中。所述供体构建体包含由新霉素(neo)抗性基因和内部核糖体进入位点(ires)驱动的表达盒,其中所述盒包含荧光标记(mkate)并且在5'和3'端侧接有重组酶识别位点和5'和3'同源臂(与seqidno:1同源)。展示在seqidno:1的基因座内的插入,其中所述插入使得供体neo/mkate构建体替换包含潮霉素抗性标记的表达盒,其中在seqidno:1基因座内的表达盒在其5'和3'端侧接与5'和3'同源臂(与seqidno:1同源)连接的重组酶识别位点(参见图1b)。
提供用于将核酸序列稳定整合到真核细胞中的组合物和方法,其中所述核酸序列能够借助于整合在seqidno:1或其表达增强片段中来增强表达。提供含有seqidno:1内的重组酶识别序列便于插入goi的细胞,以便由goi表达所关注蛋白。还提供靶向与表达构建体(例如表达载体)有关的整合位点和用于将外源性核酸添加到所关注cho细胞中的组合物和方法。
cho整合位点的物理和功能表征
凭经验由高水平表达蛋白的细胞系的核酸构建体(包含表达盒)整合位点的上游和下游序列鉴别seqidno:1的核酸序列(和更广的seqidno:4的核酸序列)。本发明的核酸序列提供具有与核酸(例如,包含goi的外源性核酸)增强的表达和稳定性相关联的新功能的序列,并且在不受任何一个理论束缚的情况下,可以与先前关于顺式作用元件(如启动子、增强子、基因座控制区、支架附着区或基质附着区)相同或不同地起作用。seqidno:1似乎不具有任何开放阅读框(orf),使得基因座不大可能编码新颖的反式活化蛋白。已在seqidno:4的3'(下游)基因组基因座中鉴别出假定的锌指蛋白。
鉴别关于包含第一潮霉素(hyg)基因、第一goi、第二hyg基因、第二goi、第三hyg基因和第三goi编码序列的表达盒整合在cho基因组dna非编码区的独特位点内的表达增强活性。从cho基因组dna非编码区鉴别包含例如5'分离的1kb区和3'分离的1kb区的表达载体,至于表达goi的表达盒能够在cho细胞用所述表达载体转染后赋予高水平的重组蛋白表达。
本发明涵盖包含逆向seqidno:1片段或seqidno:4片段的表达载体。还可以产生本文所述的片段的其它组合。还可以产生的本文所述的片段的其它组合的实例包括含有本文中所公开的表达增强序列的多个拷贝的序列,或通过将所公开的seqidno:1片段或seqidno:4片段与其它核苷酸序列组合以实现调控元件的最优组合而衍生的序列。这类组合可以被连续连接或布置以提供seqidno:1或seqidno:4片段的最优间距(例如通过在所述片段之间引入间隔子核苷酸)。调控元件也可以被布置成提供seqidno:1片段相对于调控元件的最优间距。
本文中所公开的seqidno:1和seqidno:4是从cho细胞分离的。发现其它哺乳动物物种(如人类或小鼠)对所鉴别的表达增强区具有有限的同源性,然而可以在来源于灰仓鼠的其它组织类型或其它同源物种的细胞系中发现同源序列,并且可以通过所属领域中众所周知的技术分离出来。举例来说,有人可以通过交叉物种杂交或基于pcr的技术鉴别其它同源序列。另外,可以通过所属领域中众所周知的定点或随机诱变技术在seqidno:1、seqidno:4或其片段中所阐述的核苷酸序列中进行改变。接着可以如本文所述测试所得序列变异体的表达增强活性。在核酸一致性方面与seqidno:1、seqidno:4或其片段至少约90%一致的具有表达增强活性的dna可以通过常规实验分离,并且预期展现表达增强活性。对于seqidno:1或seqidno:4的片段,一致性百分比是指在seqidno:1片段或seqidno:4片段中所发现的参考天然序列部分。因此,seqidno:1、seqidno:4或其片段的同源物和其变异体也被本发明的实施例所涵盖。
在某些实施例中,seqidno:1的片段选自由以下各项组成的群组:跨越seqidno:1的编号10-4,000、100-3,900、200-3,800、300-3,700、400-3,600、500-3,500、600-3,400、700-3,300、800-3,200、900-3,100、1,000-3,000、1,100-2,900、1,200-2,800、1,300-2,700、1,200-2,600、1,300-2,500、1,400-2,400、1,500-2,300、1,600-2,200、1,700-2100、1,800-2050、1850-2050、1,900-2040、1950-2,025,1990-2021,2002-2021和2,010-2,015的位置的核苷酸。在另一个实施例中,seqidno:1的片段选自由以下各项组成的群组:跨越seqidno:1的编号10-500、500-1,000、500-2,100、1,000-1,500、1,000-2,100、1,500-2,000、1,500-2,500、2,000-2,500、2,500-3,000、2,500-3,500、3,000-3,500、3,000-4,000和3,500-4,000的位置的核苷酸。在某些实施例中,外源性核酸序列整合在上文所述片段内的特定位点处或所述特定位点附近。
在另一个实施例中,外源性核酸序列定位于如上所述的seqidno:1或其片段内,或在与seqidno:1的表达增强序列或其表达增强片段至少约90%一致、至少约91%一致、至少约92%一致、至少约93%一致、至少约94%一致、至少约95%一致、至少约96%一致、至少约97%一致、至少约98%一致或至少约99%一致的序列内。
可以使用本文所提供的方法产生表达增强水平的所关注蛋白的细胞群。表达的绝对水平将随特定蛋白而变化,取决于细胞如何有效地加工蛋白。通过外源性序列整合在本发明的表达增强序列内所产生的细胞池随时间推移而稳定,并且可以作为稳定细胞系加以处理以用于大部分目的。还可以延迟重组步骤直到稍后在本发明细胞系的发展过程中。
cho表达增强基因座和其片段
本发明涵盖一种表达增强片段,其核苷酸序列与seqidno:1或seqidno:4的核苷酸序列至少约90%一致、至少约91%一致、至少约92%一致、至少约93%一致、至少约94%一致、至少约95%一致、至少约96%一致、至少约97%一致、至少约98%一致或至少约99%一致。本发明包括包含以下片段的载体,所述片段是为了瞬时或稳定转染而包括,跨越seqidno:1的编号10-4,000、100-3,900、200-3,800、300-3,700、400-3,600、500-3,500、600-3,400、700-3,300、800-3,200、900-3,100、1,000-3,000、1,100-2,900、1,200-2,800、1,300-2,700、1,200-2,600、1,300-2,500、1,400-2,400、1,500-2,300、1,600-2,200、1,700-2100、1,800-2050、1850-2050、1,900-2040、1950-2,025、1990-2021、2002-2021和2,010-2,015的位置。本发明还包括一种包含这类片段的真核细胞,其中所述片段对于所述细胞来说是外源性的并且被整合到所述细胞基因组中,并且包含这类片段的细胞具有至少一个重组酶识别位点,所述重组酶识别位点是在所述片段内、5'紧靠或3'紧靠所述片段。
在一个实施例中,seqidno:1的表达增强片段的位置位于seqidno:1内跨越seqidno:1的编号10-500、500-1,000、500-2,100、1,000-1,500、1,000-2,100、1,500-2,000、1,500-2,500、2,000-2,500、2,500-3,000、2,500-3,500、3,000-3,500、3,000-4,000或3,500-4,000的位置。
在支持稳定整合和/或所整合聚核苷酸的增强转录的情况下,基因座插入(即整合)位点相对于例示位点的精确位置不是必需的。实际上,整合位点可以如本文所述在seqidno:1或seqidno:1的片段或seqidno:4或seqidno:4的片段内或相邻的任何位置。在所关注基因座内或相邻的特定染色体位置是否支持稳定整合和所整合外源性基因的高效转录可以根据所属领域中众所周知的标准程序或本文中例示的方法来确定。
本文中所考虑的整合位点位于包含seqidno:1或seqidno:4的核苷酸序列的基因座内,或极为接近所关注基因座,例如相对于染色体dna上seqidno:1的位置上游(5')或下游(3')小于约1kb、500个碱基对(bp)、250bp、100bp、50bp、25bp、10bp或小于约5bp。在又一些其它实施例中,所采用的整合位点相对于染色体dna上seqidno:1或seqidno:4的位置位于上游(5')或下游(3')约1000、2500、5000或更多个碱基对处。
在所属领域中应理解,为了高效复制和转录染色体dna,采用大基因组区,如支架/基质附着区。支架/基质附着区(s/mar),也称为支架附着区(sar)或基质相关或基质附着区(mar),是核基质附着的真核基因组dna区。在不受任何一个理论束缚的情况下,s/mar通常定位到非编码区,使给定转录区(例如染色质结构域)与其相邻者分开,并且还提供用于机器加工和/或结合实现转录的因子(如dna酶或聚合酶的识别位点)的平台。一些s/mar已表征为约14-20kb长(klar等人,2005,gene364:79-89)。因而,预期基因整合在locus1处(seqidno:1或seqidno:4内或附近)赋予增强的表达。
所属领域的技术人员应认识到,数种元件可以被优化以便在目标基因座处具有高转录活性,从而使得所插入的编码所关注蛋白的基因高度表达。有待考虑的元件包括驱动转录的强启动子、足够的转录机器和具有开放并且可接近的构型的dna。在所属领域人员的技能内可以通过靶向在seqidno:1或seqidno:4内所选的整合位点而优化在目标基因座处的插入。
在一个实施例中,采用seqidno:1的表达增强序列以增强goi的表达。图2a显示可操作地连接到seqidno:1(locus1)的goi与整合在cho细胞基因组中的不同基因座(对照基因座)的相同goi相比的结果,各细胞系所测量的基因拷贝数是相等的,但实验显示对于可操作地连接到locus1的goi,细胞表达goi的mrna水平和蛋白效价高3倍。
在各种实施例中,goi的表达可以通过将goi放置在seqidno:1或seqidno:4内来增强。在各种实施例中,表达增强至少约1.5倍至约3倍或更多。
基因修饰目标基因座
基因工程改造特定位置(即目标基因座)中的细胞基因组的方法可以用数种方式达成。使用遗传编辑技术将核酸序列稳定整合到真核细胞中,其中所述核酸序列是通常并未在这类细胞中所发现的外源性序列。克隆扩增是为了确保细胞子代将享有经工程改造的细胞系的一致基因型和表现型特征所必需的。在一些实例中,天然细胞是通过同源重组技术来修饰以便将外源性核酸序列整合在seqidno:1或seqidno:4内。在其它实例中,提供在seqidno:1或seqidno:4内含有至少一个重组酶识别序列的细胞,以便于整合外源性核酸序列或所关注基因。
在一些实例中,提供含有第一重组酶识别序列和第二重组酶识别序列的细胞,其中所述第一和第二重组酶识别序列各选自包含以下各项的群组:loxp、lox511、lox5171、lox2272、lox2372、loxm2、lox-fas、lox71、lox66和其突变体。在这种情况下,如果需要重组酶介导的盒交换(rmce),那么位点特异性重组酶是cre重组酶或其衍生物。在其它实例中,第一和第二重组酶识别序列各选自包含frt、f3、f5、frt突变体-10、frt突变体+10和其突变体的群组,并且在这种情境下,如果需要rcme,那么位点特异性重组酶是flp重组酶或其衍生物。在又一个实例中,所述第一和第二重组酶识别序列各选自包含attb、attp和其突变体的群组,并且在这种情况下,如果需要rmce,那么位点特异性重组酶是phic31整合酶或其衍生物。
在一个方面,用于将核酸序列稳定整合在seqidno:1或seqidno:4或其表达增强片段内的方法和组合物是经由同源重组。所关注核酸分子,即基因或聚核苷酸,可以通过同源重组或通过使用特异性靶向整合位点处的序列的位点特异性核酸酶方法插入到所靶向的基因座(即seqidno:1)中。关于同源重组,同源聚核苷酸分子(即同源臂)对其并且交换它们的一段序列。如果转基因侧接同源基因组序列,那么可以在此交换期间引入转基因。在一个实例中,可以在整合位点处将重组酶识别位点引入到宿主细胞基因组中。
可以通过在染色体dna中的整合位点处引入断裂来促进真核细胞中的同源重组。模型系统已证明,如果在染色体目标序列中引入双链断裂,那么在基因靶向期间同源重组的频率会增加。这可以通过将某些核酸酶靶向特定整合位点而实现。在目标基因座识别dna序列的dna结合蛋白是所属领域中已知的。基因靶向载体也用于促进同源重组。在用于同源指导修复(homologydirectedrepair)的基因靶向载体不存在的情况下,细胞常常会通过非同源末端接合(nhej)(其可能在裂解位点处导致多个核苷酸的缺失或插入)来闭合双链断裂。应存在插入或缺失(indel),因而在断裂位点处随机插入或缺失少量核苷酸并且这些indel可以移位或破坏目标基因座内基因的任何开放阅读框(orf)。应理解,鉴别为seqidno:1(或seqidno:4)的基因座不是基因编码区。因此,设想在此基因座的插入和/或缺失不破坏内源性基因转录。
同源指导修复(或同源指导重组)(hdr)特别适用于在目标基因座插入或整合基因。供体构建体包含如本文所述的来源于seqidno:1或seqidno:4的同源臂。
基因靶向载体构建和核酸酶选择在本发明所属领域的技术人员的技能内。
在一些实例中,具有模块化结构并含有单独锌指域的锌指核酸酶(zfn)识别目标序列中的特定3-核苷酸序列(例如靶向整合的位点)。一些实施例可以利用具有靶向多个目标序列的单独锌指域的组合的zfn。
转录活化因子样(tal)效应子核酸酶(talen)也可以用于位点特异性基因组编辑。tal效应子蛋白dna结合域通常与限制性核酸酶(如foki)的非特异性裂解域组合使用。在一些实施例中,将包含tal效应子蛋白dna结合域和限制性核酸酶裂解域的融合蛋白用于识别和裂解本发明基因座内的目标序列处的dna(bochj等人,2009science326:1509-1512)。
rna指导的核酸内切酶(rgen)是从细菌适应性免疫机制开发的可编程的基因组工程改造工具。在此系统(成簇规律间隔短回文重复序列(crispr)/crispr相关性(cas)免疫反应)中,蛋白cas9当与两个rna(其中一个指导靶选择)复合时形成序列特异性核酸内切酶。rgen由组分(cas9和tracrrna)以及靶特异性crisprrna(crrna)组成。dna靶裂解的效率以及裂解位点的位置均基于前间区序列邻近基序(pam)的位置而变化,所述基序是针对靶识别的额外要求(chen,h.等人,j.biol.chem.2014年3月14作为手稿m113.539726在线发表)。
用于鉴别seqidno:1的特异性靶向基因座特有的序列的策略是所属领域中已知的,然而,许多这些序列与cho基因组的比对显露具有16-17个碱基对匹配的潜在脱靶位点。由seqidno:5中所阐述的序列(与seqidno:1的核苷酸1990-2001对应)编码的一个实例20bp指导rna适用于seqidno:1或seqidno:4的rna指导的crispr/cas基因编辑。包含驱使小引导rna和tracrrna(例如seqidno:6)表达的启动子以及携载在启动子控制下的合适cas9酶的质粒可以与供体载体(携载侧接5'和3'同源臂的所关注基因)一起共转染以便采用通过此方法的靶向整合。除上文所述的那些以外的各种修饰和rna分子的变异体对于所属领域的技术人员显而易见并且打算属于本发明的范围内。
在一些实施例中,用于引入到基因组中的载具,即包含编码所关注基因的序列或识别序列或基因盒的外源性核酸,视具体情况而定包含携载所述外源性核酸的载体和一个或多个额外载体或mrna。在一个实施例中,所述一个或多个额外载体或mrna包含编码位点特异性核酸酶的核苷酸序列,所述位点特异性核酸酶包括(但不限于)锌指核酸酶(zfn)、zfn二聚体、转录活化因子样效应子核酸酶(talen)、tal效应子结构域融合蛋白和rna指导的dna核酸内切酶。在某些实施例中,所述一个或多个载体或mrna包含具有指导rna、tracrrna和编码cas酶的核苷酸序列的第一载体,以及包含供体(外源性)核苷酸序列的第二载体。这类供体序列包含编码所关注基因的核苷酸序列,或识别序列,或包含打算用于靶向插入的这些外源性元件中的任一个的基因盒。在使用mrna的情况下,mrna可以借助于所属领域的技术人员已知的常见转染方法转染到细胞中并且可以编码酶,例如转座酶或核酸内切酶。虽然引入到细胞中的mrna可以是瞬时的并且未整合到基因组中,但是所述mrna可以携载对于进行整合来说所必需或有益的外源性核酸。在一些情况下,如果仅需要短期表达来实现goi的所需整合,那么选择mrna是为了消除附加聚核苷酸副作用持久的任何风险。
另外其它同源重组方法可供技术人员使用,如具有精确dna结合特异性的bud衍生的核酸酶(budn)(stella,s.等人actacryst.2014,d70,2042-2052)。精确的基因组修饰方法是基于与seqidno:1内的独特目标序列相容的可用工具来选择,以避免细胞表型被破坏。
基因靶向构建体
有待整合到宿主基因组中的聚核苷酸序列可以是任何工业上适用于生成细胞表达系统的dna序列,如识别序列。有待整合到宿主基因组中的聚核苷酸序列可以编码如本文所述的任何治疗上或工业上适用的蛋白。鉴别目标基因座内的目标序列以便整合外源性核酸序列取决于多种因素。根据所采用的同源重组方法,选择与seqidno:1或seqidno:4同源的序列正好属于技术人员的技能。位点特异性核酸酶载体在采用时,需要识别打算用于dna裂解的特定位点的额外组分(序列组合物)。
因此,基因靶向构建体通常并入这类核苷酸序列以便于外源性核酸序列靶向整合到所关注基因座中。在一些实施例中,构建体包含第一同源臂和第二同源臂。在其它实施例中,构建体(例如基因盒)包含来源于seqidno:1或seqidno:4的同源臂。在一些实施例中,同源臂包含与seqidno:1或seqidno:4中所存在的核苷酸序列同源的核苷酸序列。在特定实施例中,构建体包含具有seqidno:2的核苷酸序列(与seqidno:1的核苷酸1001-2001对应)的5'同源臂和具有seqidno:3的核苷酸序列(与seqidno:1的核苷酸2022-2001对应)的3'同源臂。同源臂,例如第一同源臂(也称为5'同源臂)和第二同源臂(也称为3'同源臂),与基因座内的靶向序列同源。5'到3'的同源臂可以扩增基因座内包含至少1kb、或至少约2kb、或至少约3kb、或至少约4kb、或至少5kb、或至少约10kb的区或靶向序列。在其它实施例中,选择用于第一和第二同源臂的靶向序列的核苷酸总数包含至少1kb、或至少约2kb、或至少约3kb、或至少约4kb、或至少5kb、或至少约10kb。在一些情况下,5'同源臂与3'同源臂(与靶向序列同源)之间的距离包含至少5bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、或至少1kb、或至少约2kb、或至少约3kb、或至少约4kb、或至少5kb、或至少约10kb。在选择seqidno:2和seqidno:3作为5'和3'同源臂的情况下,两个同源臂之间的距离可以是20个核苷酸(与seqidno:1的核苷酸2002-2021对应);并且这类同源臂可以介导外源性核酸序列整合在包含seqidno:1的基因座内,例如seqidno:1的核苷酸1990-2021或2002-2021内和同时seqidno:1的核苷酸2002-2021的缺失。
在其它实施例中,构建体包含第一同源臂和第二同源臂,其中所组合的第一和第二同源臂包含替换基因座内的内源性序列的靶向序列。在又其它实施例中,第一和第二同源臂包含整合或插入在基因座内的内源性序列内的靶向序列。
经修饰的细胞系是通过在seqidno:1内的位置整合一个或多个重组酶识别位点来创建。这些经修饰的细胞系还可以包含额外外源性基因用于表达的所关注基因的阴性或阳性选择。
本发明提供用于修饰cho细胞基因组的方法,其包含将一个或多个载具引入到所述细胞中,其中所述一个或多个载具包含具有用于整合的序列的外源性核酸、与seqidno:1的核苷酸序列中所存在的序列同源的5'同源臂和与seqidno:1的核苷酸序列中所存在的序列同源的3'同源臂。在一些实施例中,所述方法另外提供包含核酸酶和用于在整合位点处的位点特异性dna裂解的组合物的一个或多个载具。
经修饰的细胞系可以作为方便并且稳定的表达系统而用于重组酶介导的盒交换(rmce)。编码所关注蛋白的核酸序列可以方便地整合到包含seqidno:1或其表达增强片段、具有至少一个重组酶识别位点的经修饰的细胞中,例如经由rmce方法。
重组表达载体可包含编码蛋白的合成的或cdna衍生的dna片段,其可操作地连接到来源于哺乳动物、病毒或昆虫基因的合适的转录和/或翻译调控元件。这类调控元件包括转录启动子、增强子、编码合适的mrna核糖体结合位点的序列以及控制转录和翻译终止的序列,如下文详细描述。哺乳动物表达载体还可包含非转录元件,如复制起点、其它5'或3'侧翼非转录序列,以及5'或3'非翻译序列,如剪接供体和受体位点。还可并入帮助识别转染子的可选标记基因。
荧光标记是适用于识别已经或尚未成功地插入和/或替换的基因盒的可选标记基因,视具体情况而定。荧光标记的实例是所属领域中众所周知的,包括(但不限于)discosoma珊瑚(dsred)、绿色荧光蛋白(gfp)、增强型绿色荧光蛋白(egfp)、蓝绿色荧光蛋白(cfp)、增强型蓝绿色荧光蛋白(ecfp)、黄色荧光蛋白(yfp)、增强型黄色荧光蛋白(eyfp)和远红外荧光蛋白(例如mkate、mkate2、mplum、mraspberry或e2-crimson。还参见例如nagai,t.等人,2002naturebiotechnology20:87-90;heim,r.等人1995年2月23日nature373:663-664;和strack,r.l.等人2009biochemistry48:8279-81。
适用于转染脊椎动物细胞的表达载体中的转录和翻译控制序列可由病毒来源而提供。举例来说,常用的启动子和增强子来源于病毒,如多瘤病毒、腺病毒2、猿猴病毒40(sv40)和人类巨细胞病毒(cmv)。病毒基因组启动子、控制和/或信号序列可用于驱动表达,所提供的这类控制序列与所选择的宿主细胞相容。还可以使用非病毒细胞启动子(例如β-球蛋白和ef-1α启动子),取决于表达重组蛋白的细胞类型。
来源于sv40病毒基因组的dna序列,例如sv40起点、早期和晚期启动子、增强子、剪接和聚腺苷酸化位点可用于提供对异源dna序列的表达有用的其它基因元件。早期和晚期启动子是特别有用的,因为二者可容易地从sv40病毒作为还包含sv40病毒复制起点的片段得到(fiers等人,nature273:113,1978)。也可使用较小或较大的sv40片段。通常,包括从位于sv40复制起点中的hindiii位点向bgli位点延伸的大约250bp序列。
用于表达多个转录物的双顺反子表达载体先前已有描述(kims.k.和woldb.j.,cell42:129,1985)并且可以与本发明的表达增强序列(例如seqidno:1)或其片段组合使用。其它类型的表达载体也将是有用的,例如描述于美国专利第4,634,665号(axel等人)和美国专利第4,656,134号(ringold等人)中的那些。
所关注蛋白
可使用适于在真核细胞中表达的任何所关注蛋白。举例来说,所关注蛋白包括(但不限于)抗体或其抗原结合片段、嵌合抗体或其抗原结合片段、scfv或其片段、fc融合蛋白或其片段、生长因子或其片段、细胞因子或其片段、或细胞表面受体的胞外域或其片段。所关注蛋白可以是由单个亚单位组成的简单多肽或包含两个或更多个亚单位的复杂多亚单位蛋白。
宿主细胞和转染
本发明的方法中所用的宿主细胞是哺乳动物宿主细胞,包括例如中国仓鼠卵巢(cho)细胞和小鼠细胞。在一优选实施例中,本发明提供一种seqidno:1的核酸序列片段,其编码cho细胞中的表达增强序列。可以在seqidno:1或seqidno:1的任何片段内发现整合位点。举例来说,整合位点可以是置于seqidno:1或seqidno:1的任何片段内的重组酶识别位点。合适整合位点的一个实例是loxp位点。合适整合位点的另一个实例是两个重组酶识别位点,例如选自由以下各项组成的群组:loxp位点、lox511位点、lox2272位点、lox2372位点、loxm2位点、lox71位点、lox66位点和lox5171位点。在其它实施例中,整合位点位于序列内的位置或邻近于序列内的位置,其选自由以下各项组成的群组:跨越seqidno:1的编号10-4,000、100-3,900、200-3,800、300-3,700、400-3,600、500-3,500、600-3,400、700-3,300、800-3,200、900-3,100、1,000-3,000、1,100-2,900、1,200-2,800、1,300-2,700、1,200-2,600、1,300-2,500、1,400-2,400、1,500-2,300、1,600-2,200、1,700-2100、1,800-2050、1850-2050、1,900-2040、1950-2,025、1990-2021、2002-2021和2,010-2,015的位置的核苷酸。在某些实施例中,处于seqidno:1内的位置或邻近于seqidno:1内的位置的整合位点选自由以下各项组成的群组:跨越seqidno:1的编号1990-1991、1991-1992、1992-1993、1993-1994、1995-1996、1996-1997、1997-1998、1999-2000、2001-2002、2002-2003、2003-2004、2004-2005、2005-2006、2006-2007、2007-2008、2008-2009、2009-2010、2010-2011、2011-2012、2012-2013、2013-2014、2014-2015、2015-2016、2016-2017、2017-2018、2018-2019、2019-2020和2020-2021的位置的核苷酸。
本发明包括用本发明的表达载体或mrna转染的哺乳动物宿主细胞。虽然可使用任何哺乳动物细胞,但在一个特定实施例中,宿主细胞是cho细胞。
经转染的宿主细胞包括已用表达载体或mrna分子转染的细胞,所述表达载体或mrna分子包含编码蛋白或多肽的序列。所表达的蛋白可以分泌到培养基中,这取决于所选的核酸序列,但可能保持在细胞中或沉积在细胞膜中。各种哺乳动物细胞培养系统均可用于表达重组蛋白。所产生用于特定选择或扩增流程的其它细胞系同样将适用于本文提供的方法和组合物,其条件是已鉴别出与seqidno:1具有至少80%同源性的目标基因座。所提出的细胞系是命名为k1的cho细胞系。为了获得高产量的重组蛋白,宿主细胞系可在适当的情况下预先适应生物反应器培养基。
本领域已知数种转染方法,它们在kaufman(1988)meth.enzymology185:537中进行了综述。所选的转染方案将取决于宿主细胞类型和goi性质,且可基于常规实验来选择。任何这类方案的基本要求是首先将编码所关注蛋白的dna引入到合适的宿主细胞中,然后以相对稳定、可表达的方式鉴别和分离已并入异源dna的宿主细胞。适用于整合到宿主细胞基因组中或其它功能的编码蛋白的mrna分子可以是瞬时的并且因此有时限。
转染方案以及用于将多肽或聚核苷酸序列引入到细胞中的方案可以改变。非限制性转染方法包括基于化学的转染方法,包括使用脂质体;纳米颗粒;磷酸钙(graham等人(1973).virology52(2):456-67,bacchetti等人(1977)procnatlacadsciusa74(4):1590-4和kriegler,m(1991).transferandexpression:alaboratorymanual.newyork:w.h.freemanandcompany.第96-97页);树枝状聚合物;或阳离子聚合物,如deae-葡聚糖或聚乙烯亚胺。非化学法包括电穿孔;声穿孔;和光学转染。基于粒子的转染包括使用基因枪、磁体辅助转染(bertram,j.(2006)currentpharmaceuticalbiotechnology7,277-28)。还可以使用病毒方法进行转染。mrna递送包括使用transmessengertm和
将异源dna引入到细胞中的一种常用方法是磷酸钙沉淀,如wigler等人(proc.natl.acad.sci.usa77:3567,1980)所述。通过此方法引入到宿主细胞中的dna经常进行重排,使得此程序适用于单独基因的共转染。
聚乙烯诱导的细菌原生质体与哺乳动物细胞的融合(schaffner等人,(1980)proc.natl.acad.sci.usa77:2163)是另一种适用于引入异源dna的方法。原生质体融合方案经常产生整合到哺乳动物宿主细胞基因组中的质粒dna的多个拷贝,并且此技术需要选择和扩增标记与goi在同一质粒上。
还可以使用电穿孔将dna直接引入到宿主细胞的细胞质中,如potter等人(proc.natl.acad.sci.usa81:7161,1988)或shigekawa等人(biotechniques6:742,1988)所述。与原生质体融合不同,电穿孔不需要选择标记和goi在同一质粒上。
已描述适用于将异源dna引入到哺乳动物细胞中的其它试剂,如lipofectintm试剂和lipofectaminetm试剂(gibcobrl,gaithersburg,md.)。这两种可商购的试剂均用于形成脂质-核酸复合物(或脂质体),当应用于培养的细胞时,有利于核酸摄入细胞中。
在一个实施例中,将一个或多个聚核苷酸引入到细胞中是通过电穿孔、通过胞质内注射、通过病毒感染、通过腺病毒、通过慢病毒、通过逆转录病毒、通过转染、通过脂质介导的转染来介导或经由nucleofectiontm介导。
用于扩增goi的方法同样是重组蛋白表达所需的,并且通常涉及使用选择标记(在kaufman同上中进行了综述)。对细胞毒性药物的抗性是最常用作选择标记的特征,并且可以是显性性状(例如可独立于宿主细胞类型使用)或隐性性状(例如适用于缺乏所选任何活性的特定宿主细胞类型)的结果。数种可扩增标记适用于本发明的表达载体中(例如,如sambrook,molecularbiology:alaboratorymanual,coldspringharborlaboratory,ny,1989;第16.9-16.14页中所述)。
适用于在抗药性哺乳动物细胞中基因扩增的可选标记展示于kaufman,r.j.,同上的表1中,并且包括dhfr-mtx抗性、p-糖蛋白和多药物抗性(mdr)-各种亲脂性细胞毒性剂(例如阿德力霉素、秋水仙碱、长春新碱)和腺苷脱氨酶(ada)-xyl-a或腺苷和2'-脱氧柯福霉素。
其它显性可选标记包括来源于微生物的抗生素抗性基因,例如新霉素、卡那霉素或潮霉素抗性。然而,尚未显示这些选择标记可扩增(kaufman,r.j.,同上)。哺乳动物宿主存在数种合适的选择系统(sambrook同上,第16.9-16.15页)。也已描述采用两个显性可选标记的共转染方案(okayama和berg,mol.cellbiol5:1136,1985)。
先前已描述或所属领域已知的有用调控元件也可包括在用于转染哺乳动物细胞的核酸构建体中。所选择的转染方案和选择用于其中的元件将取决于所用宿主细胞的类型。所属领域的技术人员知道许多不同的方案和宿主细胞,并且可基于所用的细胞培养系统的要求来选择用于表达所需蛋白的适当系统。
本发明的其它特征在示例性实施例的以下描述过程中将变得显而易见,所述示例性实施例为了说明本发明而给出并且并不打算对本发明进行限制。
实例
提出以下实例是为了向所属领域的普通技术人员描述如何构造和使用本发明的方法和组合物,而非旨在限制本发明的范围。已努力确保有关所用的数字(例如量、温度等)的准确性,但应考虑某些实验误差和偏差。除非另外指明,否则份数是重量份,分子量是平均分子量,温度是按摄氏度计并且压力是大气压或接近大气压。
实例1.所关注基因座的鉴别和整合位点的表征
用含有抗体序列和可选抗生素抗性基因作为可选标记的两个质粒转染chok1细胞。通过在抗生素存在下扩增细胞进行稳定转染物的选择。用
使用covarisadaptivefocusedacoustics(afa)tm技术将来自这些克隆的基因组dna片段化(fisher,s.等人2011,genomebiology12:r1)。使用针对引入到cho细胞中的全部质粒序列所设计定制的生物素化rna诱饵(agilentsureselectxt#5190-4811)产生并且培育dna文库(agilentsureselectxt#g9612a)。含有质粒序列的基因组dna片段富含抗生蛋白链菌素磁珠并且对其进行illuminamiseq测序以鉴别质粒整合位点。分析含有质粒序列和cho基因组序列的融合序列并且与cho基因组比对。单个整合位点是通过南方墨点分析和pcr随后测序来确认。将具有seqidno:1的核苷酸序列的整合位点鉴别为表达热点(也参见genbank基因座id号aftd01150902.1,nt35529:39558)。分析整合位点以测定其用于进一步生成细胞系的适用性。所期望的是,整合位点位于非编码区中,这样不破坏细胞正常基因组机制(例如蛋白的翻译)或改变细胞表型。
根据blat检索(kentwj.,blat-theblast-likealignmenttool.genomeres.2002年4月;12(4):656-64)比对,seqidno:1与小鼠和人类基因组序列共有极低同源性。seqidno:1相对于cho-1[atcc]_refseq_transcript(www.chogenome.org)的序列blast揭露所鉴别的基因座序列不含任何已知基因的任何编码区。sedidno:4的更广序列,其涵盖seqidno:1,也被鉴别为适于靶向整合的基因座。
整合位点序列经测定位于cho和小鼠基因组的非编码区,并且进一步用于下文所述的实验中。
实例2.高效并入到宿主细胞整合位点中的外源性dna
通过采用tale核酸酶(talen)将外源性基因靶向插入到鉴别为seqidno:1的cho基因组的特定基因座中。talen靶向如实例1中的含有随机整合到细胞基因组中的抗体重链和轻链序列的构建体。talen靶向抗体表达构建体的三个相同hyg基因内的位置(参见图1a)。hyg序列的talen目标裂解位点是基于zifit.partners.org(zifittargeter版本4.2)。talen是基于已知方法(bochj等人,2009science326:1509-1512)所设计。
使用标准脂质体方案(lipofectamine,lifetechnologies,gaithersburg,md.)将供体mkate载体(参见图1b)和talen编码载体转染到cho宿主细胞中。培养细胞并且通过facs分离和分选具有所需特征的稳定克隆。通过南方墨点和pcr确认所需基因座中的单个整合。
实例3.经工程改造的细胞在所关注基因座处通过rmce的靶向重组
选择表达高水平荧光基因(例如mkate)的cho细胞系进行分离,其中所述基因侧接所关注基因座内的lox位点。第二cho细胞系表达第二荧光基因(dsred),其中所述基因侧接位于对照基因座(即eesyr)内的lox位点(美国专利第8389239b2号,2013年3月5日颁布)。
经转染的cho细胞适于在无血清生产培养基中悬浮生长。细胞接着在十厘米板中用供体表达载体和编码cre重组酶的质粒转染。供体表达载体含有侧接lox位点的编码fc融合蛋白的所关注基因(参见图3a或3b)。细胞在转染后在具有400μg/ml潮霉素的培养基中培养两周,并且使用流式细胞测量术分离表达eyfp但不表达mkate(或在eesyr基因座整合的情况下,dsred)的细胞。表达eyfp的细胞在无血清生产培养基中在悬浮培养物中扩增,并且通过qrt-pcr使用标准程序测定编码fc融合蛋白的各细胞池的mrna水平(参见图4)。
比较细胞池之间的重组交换效率(从表达供体盒标记,即eyfp交换为表达红色标记,即mkate或dsred的存活细胞群体的百分比)(表1)。在各基因座观察到高重组交换效率。
表1:重组效率
在具有经工程改造的locus1(与对照基因座相比)的细胞池中观察到较高转录率(高1.5倍)(图4)。
本发明的范围不受本文所述的特定实施例限制。实际上,除了本文中所述的那些内容之外,所属领域的技术人员根据前述说明和附图将显而易知本发明的各种修改。希望这些修改属于所附权利要求书的范围内。
序列表
<110>regeneronpharmaceuticals,inc.
<120>新颖cho整合位点和其用途
<130>32353(t0045us01)
<150>62/067,774
<151>2014-10-23
<160>6
<170>patentinversion3.5
<210>1
<211>4001
<212>dna
<213>灰仓鼠
<400>1
ccaagatgcccatcaactgattaatagatgataaaattattgtacatttcagtgtaatat60
tattcagtttttaagaaaaatgaaattatgtaataagcatgtaaatggatatatcttgaa120
acaaccattccccattatattacctaaacattgaaagtccaaaatcatatgatcttttta180
gtggatctactaatcttttgctatatgtattttattgaactacccatggatgtgagataa240
ttggtaacaacagcacatgggagagcatgggatcattcaaggaagattagagagaatgca300
ttttttaggagataatggaggagcaatagaaaggattaaatgaggttactgatgaaagtg360
atggttagagaaggcaatatgaggagggataactagcacttagggccttttgaaaaagac420
atagagaaaatactattgtagaaacttcctataattggtgtatagttatatacaccaaag480
agctcagatggagttaccctataatggaaatattaactactttttatcactgtgataaaa540
catcctgaacagagcaacatagattgggaagcatttactttggcttacagttctaacggg600
ataaaaattcatgatgaaagaatgaatatgtcagcaaacagcagtagcaatggcctgaga660
agcaggtgagagctcacatcttgaagtgtaagaatgtagcagagagaacaaactgcaaat720
gaccagaaaatgcttttggatcagagcccatacccctctgactgacttctccagaaattc780
tgaacaaataaaactccccaaacagagccataactgaaggtccagtgtctgagactacta840
ggggtatttcttattcaaaccactacaatggggtggggggagcaatcctccaagtaggca900
ctacacacagacaaataaaaactctagtaactggaatggattgacttatttgaattactt960
gccagtggagctacatagagcacaattattgtatttaaattaccctttatgatcttacaa1020
aacttgacagtaagatcatattgctaaagaaaccacatatttgaatcagggaacatggtg1080
atatctagttgttcttcaactggaaacttcatgctttctgcccagcattcatgttgctgg1140
aaagagcaatgtacactaccagtgtagaaattaaatcatcaatcttatcaagatgtggat1200
cctataagttacaataaaaattagcctgataagatatccccaccagaagaatattcacat1260
aaatgctatgggagcaacaagctattttctaaattagctttaatcctattctacaagaga1320
gaatccatatctagaatagttatagggatcaagaacccatggcttgattggtcataggcc1380
caatgggagatcctaatattattgttctacaaaatgaaaataactcctaatgacttgttg1440
ctgcagtaataagttagtatgttgctcaactctcacaagagaagttttgtcttacaataa1500
atggcaattaaagcagccccacaagatttatatcataccgatctcctcatggcctatgca1560
tctagaagctaggaaacaaagaggaccctaagagagacatacatggtccccctggagaag1620
gggaagggggcaagacctccaaagctaattgggagcatgggggaggggagagggagttag1680
aagaaagagaaggggataaaaggagggagaggaggacaagagagagaaggaagatctagt1740
caagagaagatagaggagagcaagaaaagagataccatagtagagggagccttgtatgtt1800
taaatagaaaactggcactagggaattgtccaaagatccacaaggtccaactaataatct1860
aagcaatagtcgagaggctaccttaaaagcctttctctgataatgagattgatgactacc1920
ttatataccatcctagagccttcatccagtagctgatggaagcagaagcagacatctaca1980
gctaaacactgagctagttgcagacagggaggagtgatgagcaaagtcaagaccaggctg2040
gagaaacacacagaaacagcagacctgaaaaaaatgttgcacatggaccccagactgata2100
gctgggagtccagcataggacttttctagaaaccctgaatgaggatatcagtttggaggt2160
ctggttaatctatggggacactggtagtggatcaatatttatccctagttcatgactgga2220
atttgggtacccattccacatggaggaattctctgtcagcctagacacatgggggaggtt2280
ctaggtcctgctccaaataatgtgttagactttgaagaactcccttgagaagactcaccc2340
tccctggggagcagaaaggggatgggatgagggttggtgagggacaggagaggaggggag2400
ggtgagggaactgggattgacaagtaaatgatgcttgtttctaatttaaatgaataaagg2460
aaaagtaaaagaagaaaagaaaacaggccaaaagattataaaagacagaggtggtgggtg2520
actataaagaaacactattatctaaataaaaacatgtcagaagcacacatgaacttatag2580
tgtttatgaaagtatgtataataactacataatctcaagccaagaaaaaaatatcatctt2640
tcagtgatgaaggtgattttatttctcccagaattaaagccaaagacctaatgaaagtaa2700
ttatcttcaaaaggttgaaaatacatactttgcaatacacagatctgcctagaaatctca2760
tgttcacaatacacatgatgctcaattgaattccattcaatgttacagtttagataaaca2820
gtttgtagataaactcacaatgtatcatttctttttattttttgaccaaacagcttctca2880
tctgttattcagaataattcctcgatggcaggatatccatcccaattgggggaaggggag2940
aatttgaagaaaacctagaccacatacatatttgccattgggaaacaaagtctaaaatga3000
tgttgttcacatcttctctactagtcctctccccgtcccaaagaaccttggtatatgtgc3060
ctcattttacagagagaggaaagcaggaactgagcatcccttacttgccatcctcaaccc3120
aaaatttgcatcattgctcagctctgcccttctcatatgacagttacaagtcaaggcttc3180
caaagtccctctgtcatgtttggtgtcaatagtttatacagatgacttcatgtcttcata3240
tctaatgtcttatatagattaatattaaacaatgttatttctctaaccacattttaaatt3300
aatttaaaaatccattaattgtgtctataaaatgcagacagagtgctgagacacaatata3360
agcctgatgatctgaatttgaaactcacacccaccacatggagaatcaacttccaaaaat3420
tttcctattacttccacacttacaccattgtacaaacacaataataatgaacaaaatgaa3480
atgaaataaaaaattaagtctctgtaggtaatgctactgtgcagcaaaagtaaaaatggc3540
agcttaagcttgctttatggttacactttaccatcttccattaattataaggacttcaat3600
catggcagaactatgctgttattgtctcagtgtaacctaaccaggtgttccagatgttct3660
taatgtggacacctaaactatttgatatttgggttaagatctttccctctttcagaagaa3720
acctcaggacagagggaatcttgtcttttaattttgagtctgtagactttttccatttca3780
aatatacatgaaacaagtgatgaagaaaattaatcaaaaggtgggaattgcaatgatatt3840
aggttcaatattaagcttcaatattatcatggaatcgcctgttatacactgagtgtttgg3900
caataagggatttttagaagaaggagtttttattctcaacaggttccttaagtttagctc3960
aaataaatctaagcaatccactctagaattaaatagtttcc4001
<210>2
<211>1001
<212>dna
<213>人工序列
<220>
<223>合成聚核苷酸
<400>2
taccctttatgatcttacaaaacttgacagtaagatcatattgctaaagaaaccacatat60
ttgaatcagggaacatggtgatatctagttgttcttcaactggaaacttcatgctttctg120
cccagcattcatgttgctggaaagagcaatgtacactaccagtgtagaaattaaatcatc180
aatcttatcaagatgtggatcctataagttacaataaaaattagcctgataagatatccc240
caccagaagaatattcacataaatgctatgggagcaacaagctattttctaaattagctt300
taatcctattctacaagagagaatccatatctagaatagttatagggatcaagaacccat360
ggcttgattggtcataggcccaatgggagatcctaatattattgttctacaaaatgaaaa420
taactcctaatgacttgttgctgcagtaataagttagtatgttgctcaactctcacaaga480
gaagttttgtcttacaataaatggcaattaaagcagccccacaagatttatatcataccg540
atctcctcatggcctatgcatctagaagctaggaaacaaagaggaccctaagagagacat600
acatggtccccctggagaaggggaagggggcaagacctccaaagctaattgggagcatgg660
gggaggggagagggagttagaagaaagagaaggggataaaaggagggagaggaggacaag720
agagagaaggaagatctagtcaagagaagatagaggagagcaagaaaagagataccatag780
tagagggagccttgtatgtttaaatagaaaactggcactagggaattgtccaaagatcca840
caaggtccaactaataatctaagcaatagtcgagaggctaccttaaaagcctttctctga900
taatgagattgatgactaccttatataccatcctagagccttcatccagtagctgatgga960
agcagaagcagacatctacagctaaacactgagctagttgc1001
<210>3
<211>1001
<212>dna
<213>人工序列
<220>
<223>合成聚核苷酸
<400>3
caaagtcaagaccaggctggagaaacacacagaaacagcagacctgaaaaaaatgttgca60
catggaccccagactgatagctgggagtccagcataggacttttctagaaaccctgaatg120
aggatatcagtttggaggtctggttaatctatggggacactggtagtggatcaatattta180
tccctagttcatgactggaatttgggtacccattccacatggaggaattctctgtcagcc240
tagacacatgggggaggttctaggtcctgctccaaataatgtgttagactttgaagaact300
cccttgagaagactcaccctccctggggagcagaaaggggatgggatgagggttggtgag360
ggacaggagaggaggggagggtgagggaactgggattgacaagtaaatgatgcttgtttc420
taatttaaatgaataaaggaaaagtaaaagaagaaaagaaaacaggccaaaagattataa480
aagacagaggtggtgggtgactataaagaaacactattatctaaataaaaatatgtcaga540
agcacacatgaacttatagtgtttatgaaagtatgtataataactacataatctcaagcc600
aagaaaaaaatatcatctttcagtgatgaaggtgattttatttctcccagaattaaagcc660
aaagacctaatgaaagtaattatcttcaaaaggttgaaaatacatactttgcaatacaca720
gatctgcctagaaatctcatgttcacaatacacatgatgctcaattgaattccattcaat780
gttacagtttagataaacagtttgtagataaactcacaatgtatcatttctttttatttt840
ttgaccaaacagcttctcatctgttattcagaataattcctcgatggcaggatatccatc900
ccaattgggggaaggggagaatttgaagaaaacctagaccacatacatatttgccattgg960
gaaacaaagtctaaaatgatgttgttcacatcttctctact1001
<210>4
<211>14931
<212>dna
<213>灰仓鼠
<220>
<221>misc_feature
<222>(2176)..(2239)
<223>n是a、c、g、t或核苷酸缺失
<400>4
catgtacacttatgcaagtatgatatggcccaacacagtattttacaccaatttttatct60
ataaaatatacatgtacatcaaaatatattattaataataacatcattattctttctttc120
caagtaataaacacatacactgaaattttggttcttgtggataattttaatgaaacagga180
aatgcaaatttatcttagcatgtttacttcactttctttgcatagataaccagtaatcac240
attgatggatcatgtagtgaaatgtatttttaggtatctaaggaattttggcttcgtttt300
gtgcttgttgacactgaattctattcctaacaacagtgtgtaaggattctgtctgatttc360
ttttaccagtatttgtccatttgcattttctttattattcatggctgctgttctagaaag420
tggaaggtagtgtgtcaagtctgtttaacatgtttccctgatgatcagtgtcttaacacc480
tctctgagtacatgttggccaatgtcgtttctagacccatctattcttgcttgacttatc540
ctggtacatgcctgccaagaaatttctcctcatcctttctgtctcttcactgatttactt600
gatgtgtggatttcacattgatcatatggaaatagaagatacaattttctttattcacag660
tttggaagactttcaatctcatagatcatcattattttttgctactgttccctatgctat720
ggtgaaatttccatttgaataattgcttaaacaattaacaagaaagaatctatttttact780
tgcaataacttccatttcagaacatttactacactgttactatatccaaaaactagtttt840
atatatcatgtgagaaatgactaattcataatttggccatgacatttttttcagaaacag900
aaaaagtgaccaatacatacacaatgctataaatattaagacttcagcaaattaaatatt960
tattcatgatatcacataaaattcatttattatgttttatttaaatgtgtttttaaaaca1020
gtggtatcactaaatattaagttagatgtgtttatgtgcttaatgaatttatattttaga1080
atgttataagttgtatatagtcaaatatgtaataaattttattttttaggtctttctcat1140
taaggtattttaattttgggtcccttttccagagtgactctagctcatgatgagttgaca1200
taaaaactaaacagtacaaaatgtacattgcattcagtattgcacttgatctttgcactg1260
aagtttgagtcagttcatacatttagtacttgggaagtacattaagctaactttcattgc1320
tctggcaaaatgctcgataagataagagtctattgtggaaagccatggcagcaggaaagt1380
aagactgctgatgatgtttaatccatagtcaagacgcagaaggagatgaatgctggtatc1440
caacattttttgctgttcattttctctagaaccctagtccataaagatgtatgacttgca1500
ttcaaaatgcgtccccttcagttgttcaacttttctgtaaatatcctttcaggcatgtct1560
agaagattgtttcgcaaatacttctcaatccattcaagttgatagtgcagattaatcact1620
gcagaataaaagcctgtaacttggctcacgtgccaaggaatatgcacactcctgacacat1680
caataagtaaatcaaagtgtagcttttgcctttaacattgccagacttatgtaatgttct1740
gcacgttcttcctccatcactttttattctaatggtgtttccttgacattgaatcacgct1800
gtggaagctgcttagaattaacattgaaatctactgatatatttatgatgcagcaattta1860
gatttactattttacttagaattttttataattgagagaatataatattttcacagttat1920
ctatctgctgtaaatagaggattttaaaaaaaatctctataacttttttttacaacacac1980
agtaaaattaagttaaaatttaataaagtcactatgttgatttcaaagtgtgctacgccc2040
acggtggtcacgcaggtgtagcagaagatgccactaaggtgggctaaggccgatgggttg2100
gggtctgcgctccctggagatgagccccaggcggttccctggcaatcagctgcgatcatg2160
atgcccgatgagccannnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn2220
nnnnnnnnnnnnnnnnnnnctgggtgactttatggaaagaatttgatagatttcatgatg2280
tagaagaattttattaggcttattttacaggagactaagaccctgggacctaaagatatc2340
tgggtcctgagaatcaggaaatgggtagagacgtggttgatggtatgagacagattttag2400
agaactcttagatcatgggcaatgaccgcaatctgatgcttagaatagatcatctataaa2460
caattatgctgttctttttctttctgttgtatgatctgatgatgtagcccccttgccaag2520
ttccctgatcccccttgccaagttccctgattgtaacagtatataagcattgcttgagag2580
catattcaactacattgagtgtgtctgtctgtcatttcctcgccgattcctgatttctcc2640
ttgagccttttcccttgttctccctcggtcggtggtctccacgagaggcggtccgtggca2700
aaagtgtataaatgttctaaaacatttgaactctaaaacatgcaaaatgaaaaattaaaa2760
taaataaacatgaaaattaaaatatattagctgctaaaagttaaacaatactatataata2820
ttttgttattagaattcaaaatcacattagttggatttaatttgaacattgcattctttc2880
aataataatttcaataaaaaaagtttccccatgatagtagaaaataataacatatgtatc2940
tatctatttatttaactacacatatatagcatttgtttcaactaaaataaatgaatgagc3000
aaagcacctaagtaattggtgtctattatatttatgaagccaatagtttcaaataaatta3060
tcatgcataaggaggtattgcaaatgttaaaccttttttgaaacagatattcccagttac3120
agaaattataatttctaatctttcctataagtagaatgatgataattaatataggccatt3180
tgtaaataatgttcagattaaaatattctctatttcactagagaagaatgatattaaatg3240
tattatattttatttcccattttgtttgcaccactattctatatccctcagcagtttaaa3300
tttgtttcaccatatgtgtgtgtgtttgtatcttaaatatggcactaaaattagaataat3360
ttaatataaatctttaggagaaaagatattgaattattttatgttgataggaaaatatct3420
tttaattgtccaagaatactttttcttctattttaggactgatcagacccaggactaata3480
ttttatatgtactaattctatgtaccaaaatatgttattatctcatgaattctgtctcaa3540
tattgaggtaataaaaatagtccatcatgaactttaaaattaaaataatgattaattaat3600
ttttattcatattttgtttgtatgaatggttatacatcacatgtgtgcctggtgactgtg3660
aatgtcaggagaaggtatgaaagccactggaattggaataagagataatatttgagatgt3720
tatgtgggtgctgagaattagacgcaagccatcttcaagaatagccagcatactatacca3780
ctgagtaatccattcatccctcaataattatctttgtagacagtaaatatatttctaaac3840
tataaatgaccagaaaaattaatgtattattaatgaagacattcatctcatgtgacacac3900
ttcacctgtctaaatcagtaacactctctccactaattaagattttctaagtgcatgaca3960
cttactatttctaaagctgtccaatgggggccagtccccagtcagcacccagtgagataa4020
tccatgaatgcatttatatcttaggaaaaattcttatctatgtagtatttagaacatttt4080
catgtgaggggataaacaaggaagcacagatgctttctgatagaaactttctctttaatt4140
catctagaaaaaaaaaacctctcaggaaaatctctcttgctctcctcccaatgctctatt4200
cagcatcttctccctacttaattctagatctttttctctatgcctccttgctgctgccct4260
gctggctctgctctatgcctccccatgtcacttttctttgctatctcaccgttaccttct4320
ctgcctcactctctgccttcttctctgcttctcacatggccaggctctggacaattatag4380
ttatatgttacattctcataacacatgatatgtcacatagtttctctcaggctagggata4440
tcacaatgactggccaatgagcaagtggccttgcatgtagctctaagttggtgatggttc4500
ccagacagtaagtagccatttggttgaaatttgaggttgggtagtacatgaagactgaat4560
tttcttcaaactctggccttgaaatagtaaaacaacacctatgaaaatgacgacctgtat4620
ttgtctttagaggcaaccacatattgtctgcagggcctgctttgaatttgctctgaagtt4680
agcttgtttgtgtaaaaggaagaatcctatatcagcctgagaaatgtaaaatatcctagc4740
atttcaagtcatcaaaattatatggagagtataaatcatccttctgactattcatagtca4800
tatttgtgtccaccaagtataaaacacactaccaaagggctgtggaaaaaatcgccataa4860
ctgttcttattagggaggcatagcagtggtacctgaggaagttacagcaacaaccagtca4920
tccagtcaataaccccatggctttgccacttggaggtacccaataatgtttggctttgcc4980
gagtaggactccaacaaattcagagggtcaatttttaaatgctggttgtcactgctgaac5040
agtcccattgccctctgcataattccacaatggaaagctttttacactgattgccaatca5100
ttaaacagcctactcagcataaacaggtatgatattattctgcattttgttacattacta5160
gatgaattcctatttcttcctacaatagtggaactgaaaaaagatacacaatcatactac5220
ccctctactaatcttatgacttatatcatttcaattttcagaccataatgcaaactattg5280
accaaaacatgtgaagatgaaaaatagaaatgtagaataatattacatataaaaagaaaa5340
ggcggacttattttgttttatttcttagcatgcatagcaatacatgatttgaggtttata5400
taataaagggacaataaatcttcaagaaacttacccctactgaattaaaatattaaagaa5460
ggtcacacatttactcaaatatattagactactgggcaaatagacatgaaaagtagagtt5520
aatattgaggtaggccttctgtgaaatgtctaaggaaattatgtttcatacagtgtgtaa5580
ccaagtgggaatcatatcagaaagcagtcaaaagcttatattacaagtaacagatgcttg5640
gttatatgacctcccagagcttgactgtctatacacaaaaagtggtgttaataaaactgt5700
aatttgggctatgtttttttaaatggcttcaccaacatgaaaggaagggaatgagcatgt5760
catggatgcttagagattatgcttccagcaagaagaattgagctttggctcttattacag5820
aaacatgacaaggtgtgagttttatttattagaaattatataatattttaagctggggac5880
taaaaattttattgaaacaaacaggcaagggataggcatgtactagaagcaaaaatagga5940
tgtcaatgctgtaatgttattttttggaccaaaatagtatttcctatagaaatgacaatg6000
atcttaggttattattcttcataaagatgacaagttcacaagatatcctagttcattaaa6060
atcgttttagtcatttaatagagtgctgtgatagattacacaaaggaaagcacttacgat6120
gagaaataatgatatccacaattattttcttaattcttagaaacattctattgttatatc6180
tcaatctcagaagccacttattgctttattattgaaacatatgaaattgtaagttatata6240
ttgtctatggtgacatttcaaagaacatgtgacgtacagtgtagcacagataaagaacat6300
aactgcagctgaatcagtaactaaacttacatacattaaatctgccatgttggcaacagt6360
gtgtgcactaccaaaggatgtactaatgctcacgacactcccctatgtcaccctttgttc6420
atcattacatcataggtctattttgtttgcttttgaaatctagaccaagtcttttgtgtc6480
tttccaagcacagagctcattaatttacctcatagacttgttaaacttcttctggttcat6540
caattgaatagaaatactcactactaattatgtgagaccctgccagtaccatagcacatg6600
gataatttttacataaaacatgcatacaagtaagattattcagactgaacatgaatttta6660
gagaaatcaggaaggagtatatgggagtggttggagtgagactagagaaatgtaattaaa6720
ctataatctcaatacaaagatctactaagcaaaaaacatgaaacattgtcattcaagtga6780
aacatcagtcttcaaattggaaagatatttttactaggaaaatgtctggtagatggttat6840
tatctagaaaacacaaaaattagaaaacggtaaactttaataaaaagaataatacaatga6900
gactacatgaaaagttcttaactaatgaaacaaatatcttgaaacttttttcttaaaagt6960
ttaatatcaataaccatcatggaaattcaaattaaaactatttacatattacccctgaaa7020
taataactaatacccaataaaaataatataaacaaaaaatggcaatgcatgccatcatgg7080
atttgggagagagaatgttcattgcagttctgaatggatactggtgccaccacggtgaaa7140
atctctgtataggtccttccaaaagctgaaaatagacatatcacaagacctgccacacat7200
ttttcaagcaaatacccaaaggactctacctgactgcagagacactttctcataaaatat7260
tattgttgatctattcataatatctggaaaatagaaacagccaagatgcccatcaactga7320
ttaatagatgataaaattattgtacatttcagtgtaatattattcagtttttaagaaaaa7380
tgaaattatgtaataagcatgtaaatggatatatcttgaaacaaccattccccattatat7440
tacctaaacattgaaagtccaaaatcatatgatctttttagtggatctactaatcttttg7500
ctatatgtattttattgaactacccatggatgtgagataattggtaacaacagcacatgg7560
gagagcatgggatcattcaaggaagattagagagaatgcattttttaggagataatggag7620
gagcaatagaaaggattaaatgaggttactgatgaaagtgatggttagagaaggcaatat7680
gaggagggataactagcacttagggccttttgaaaaagacatagagaaaatactattgta7740
gaaacttcctataattggtgtatagttatatacaccaaagagctcagatggagttaccct7800
ataatggaaatattaactactttttatcactgtgataaaacatcctgaacagagcaacat7860
agattgggaagcatttactttggcttacagttctaacgggataaaaattcatgatgaaag7920
aatgaatatgtcagcaaacagcagtagcaatggcctgagaagcaggtgagagctcacatc7980
ttgaagtgtaagaatgtagcagagagaacaaactgcaaatgaccagaaaatgcttttgga8040
tcagagcccatacccctctgactgacttctccagaaattctgaacaaataaaactcccca8100
aacagagccataactgaaggtccagtgtctgagactactaggggtatttcttattcaaac8160
cactacaatggggtggggggagcaatcctccaagtaggcactacacacagacaaataaaa8220
actctagtaactggaatggattgacttatttgaattacttgccagtggagctacatagag8280
cacaattattgtatttaaattaccctttatgatcttacaaaacttgacagtaagatcata8340
ttgctaaagaaaccacatatttgaatcagggaacatggtgatatctagttgttcttcaac8400
tggaaacttcatgctttctgcccagcattcatgttgctggaaagagcaatgtacactacc8460
agtgtagaaattaaatcatcaatcttatcaagatgtggatcctataagttacaataaaaa8520
ttagcctgataagatatccccaccagaagaatattcacataaatgctatgggagcaacaa8580
gctattttctaaattagctttaatcctattctacaagagagaatccatatctagaatagt8640
tatagggatcaagaacccatggcttgattggtcataggcccaatgggagatcctaatatt8700
attgttctacaaaatgaaaataactcctaatgacttgttgctgcagtaataagttagtat8760
gttgctcaactctcacaagagaagttttgtcttacaataaatggcaattaaagcagcccc8820
acaagatttatatcataccgatctcctcatggcctatgcatctagaagctaggaaacaaa8880
gaggaccctaagagagacatacatggtccccctggagaaggggaagggggcaagacctcc8940
aaagctaattgggagcatgggggaggggagagggagttagaagaaagagaaggggataaa9000
aggagggagaggaggacaagagagagaaggaagatctagtcaagagaagatagaggagag9060
caagaaaagagataccatagtagagggagccttgtatgtttaaatagaaaactggcacta9120
gggaattgtccaaagatccacaaggtccaactaataatctaagcaatagtcgagaggcta9180
ccttaaaagcctttctctgataatgagattgatgactaccttatataccatcctagagcc9240
ttcatccagtagctgatggaagcagaagcagacatctacagctaaacactgagctagttg9300
cagacagggaggagtgatgagcaaagtcaagaccaggctggagaaacacacagaaacagc9360
agacctgaaaaaaatgttgcacatggaccccagactgatagctgggagtccagcatagga9420
cttttctagaaaccctgaatgaggatatcagtttggaggtctggttaatctatggggaca9480
ctggtagtggatcaatatttatccctagttcatgactggaatttgggtacccattccaca9540
tggaggaattctctgtcagcctagacacatgggggaggttctaggtcctgctccaaataa9600
tgtgttagactttgaagaactcccttgagaagactcaccctccctggggagcagaaaggg9660
gatgggatgagggttggtgagggacaggagaggaggggagggtgagggaactgggattga9720
caagtaaatgatgcttgtttctaatttaaatgaataaaggaaaagtaaaagaagaaaaga9780
aaacaggccaaaagattataaaagacagaggtggtgggtgactataaagaaacactatta9840
tctaaataaaaatatgtcagaagcacacatgaacttatagtgtttatgaaagtatgtata9900
ataactacataatctcaagccaagaaaaaaatatcatctttcagtgatgaaggtgatttt9960
atttctcccagaattaaagccaaagacctaatgaaagtaattatcttcaaaaggttgaaa10020
atacatactttgcaatacacagatctgcctagaaatctcatgttcacaatacacatgatg10080
ctcaattgaattccattcaatgttacagtttagataaacagtttgtagataaactcacaa10140
tgtatcatttctttttattttttgaccaaacagcttctcatctgttattcagaataattc10200
ctcgatggcaggatatccatcccaattgggggaaggggagaatttgaagaaaacctagac10260
cacatacatatttgccattgggaaacaaagtctaaaatgatgttgttcacatcttctcta10320
ctagtcctctccccgtcccaaagaaccttggtatatgtgcctcattttacagagagagga10380
aagcaggaactgagcatcccttacttgccatcctcaacccaaaatttgcatcattgctca10440
gctctgcccttctcatatgacagttacaagtcaaggcttccaaagtccctctgtcatgtt10500
tggtgtcaatagtttatacagatgacttcatgtcttcatatctaatgtcttatatagatt10560
aatattaaacaatgttatttctctaaccacattttaaattaatttaaaaatccattaatt10620
gtgtctataaaatgcagacagagtgctgagacacaatataagcctgatgatctgaatttg10680
aaactcacacccaccacatggagaatcaacttccaaaaattttcctattacttccacact10740
tacaccattgtacaaacacaataataatgaacaaaatgaaatgaaataaaaaattaagtc10800
tctgtaggtaatgctactgtgcagcaaaagtaaaaatggcagcttaagcttgctttatgg10860
ttacactttaccatcttccattaattataaggacttcaatcatggcagaactatgctgtt10920
attgtctcagtgtaacctaaccaggtgttccagatgttcttaatgtggacacctaaacta10980
tttgatatttgggttaagatctttccctctttcagaagaaacctcaggacagagggaatc11040
ttgtcttttaattttgagtctgtagactttttccatttcaaatatacatgaaacaagtga11100
tgaagaaaattaatcaaaaggtgggaattgcaatgatattaggttcaatattaagcttca11160
atattatcatggaatcgcctgttatacactgagtgtttggcaataagggatttttagaag11220
aaggagtttttattctcaacaggttccttaagtttagctcaaataaatctaagcaatcca11280
ctctagaattaaatagtttcctaagggcacagctatgaatagagctcaatttacatataa11340
aattttgttcaccatttatgtcattccagttttcattagtacaaggaaaatacaaaatat11400
ttagatgtcaatatcaagtgaatagttcatctccttttttaatatatatcacctaaatca11460
ccattttctcagaaaaatctggcctgaagttctgtctggaacttcaacatgaaaaatatg11520
cacagcttgctattataaatcctagttgatttttaagattcatgtctggtgtctgactca11580
gaggggccagaggctagacaaatattttttgaatcttcattgtgaagatttttaatgatt11640
attttaatataaataacaaagatgatggataatgtaactttgtacagttcatagacgctg11700
aactactttgtgcttaaaatgttagttccctatcataaatgataggtgataagtgtatgt11760
ttaatactttccctctgagctatattcatgtactagagaattattttaaacatgaaaaga11820
ctgtgtttatagtctcagctcctgagaactggtccaaccttaggcaggtgaatgccagga11880
gcaacgtttttcttctacagaggatgctttgctgccaagcaacctggttgtgtggaaatg11940
ttccttttttaatcaagtttaaagggtcttcatcatgctgttgctccacatattttcagg12000
ttagagcttggtccttggagtattatcttttaccagaaaattcatagtattctttcaata12060
actaacaactaaacttttcgataaaaaagaattggaatttcaattttaaagcctgagtaa12120
aattcttgtgaatcaggatattttattttaagtcttatcttttaaaaagttattttattt12180
tttaaaaaattataatatactttcataatttccctccttcacttttctttacaaacactt12240
ctatagatcaccatgtgtttttttttttacatttatggcctctttctgttcattgttatt12300
acatacaaatagtcttgcctatagaagaacaccacaatttgttacctgataacaaattat12360
caacccttaaaacctacaaactattgatattactgaaaagactatacttatagatgtaaa12420
gatatatgtgtgtgcacatatatagatacacatatatgtaggatttttaattttagattt12480
tagacatcaaaattatttatatgactgagaaactagacactataaatgagcattcagtat12540
tcaacaccgtgattttagatattgtcacaatgacagaaaattttcttatagaaaatttta12600
agttttgtgattgctctgtgcacttagtgaagtctcacagaaaaagaatcatagtatttt12660
tagtttataataaaaagtacatataattaaaatggttggcacaaaacaacatttgagcat12720
ttttcctatttactatcaagtagtatcattttgaaataataatttgactagtttcaaaaa12780
tgaaaacaaaatttaaactaaatgcctaatctagcctgataacatttttatgaatgaaat12840
tattcaatagtgttatcaattaggggcccaaaacttttcctaaaataaaacttttaattt12900
ttttccatttttatttaaattagaaacaaaattgttttacatgtaaatcagagtttcctc12960
accctccccttctccctgtccctcactaacaccctacttgtcccataccatttctgctcc13020
ccagggagggtgaggccttccatggggaaacttcagagtctgtctatcctttcggatagg13080
gcctaggccctcacccatttgtctaggctaaggctcacaaagtttactcctatgctagtg13140
ataagtactgatctactacaagagacaccatagatttcctaggcttcctcactgacaccc13200
atgttcatggggtctggaacaatcatatgctagtttcctaggtatcagtctggggaccat13260
gagctcccccttgttcaggtcaactgtttctgtgggtttcaccaccctggtcttgactgc13320
tttgctcatcactcctccctttctgtaactgggttccagtacaattccgtgtttagctgt13380
gggtgtctacttctactttcatcagcttctgggatggagcctctaggatagcatacaatt13440
agtcatcatctcattatcagggaagggcatttaaagtagcctctccattgttgcttggat13500
tgttagttggtgtcatctttgtagatctctggacatttccctagtgccagatatctcttt13560
aaacctacaagactacctctattatggtatctcttttcttgctctcgtctattcttccag13620
acaaaatcttcctgctcccttatattttcctctcccctcctcttctccccttctcattct13680
cctagatccatcttcccttcccccatgctcccaagagagatgttgctcaggagatcttgt13740
tccttaacccttttcttggggatctgtctctcttagggttgtccttgtttcctagcttct13800
ctggaagtgtggattgtaagctggtaatcatttgctccatgtctaaaatccatatatgag13860
tgatgtttgtctttttgtgactgggttacctcactcaaaatggtttcttccatatgtctg13920
tggatttcaatagcacaaacaacatacagtatcttggggcaacactaaccaaacaagtga13980
aagaccagtatagcaagaactttgagtttaaagaaagaaattaaagaagataccagaaaa14040
tggaaagatctcccatgctctttgataggcagaatcaacatagtaaaaatggcaatcttg14100
ccaaaatccatctacagactcaatgcaatccccattaaataccagcacacttcttcacag14160
acctgaaagaataatacttaactttatatggagaaacaaaagacccaggataggccaaac14220
aaccctgtacaatgaaggcacttccagaggcatccccatccctgacttcaagctctatta14280
tagagtaataatcctgaaaacagcttggtaatggcacaaaaatagacaggtagaccaatg14340
gaattgagttgaaaaccctgatattaacccacatatctatgaacacctgactttgacaaa14400
gaagctaaggttatacaatgtaagaaagaaagcatcttcaacaaatcgtgctggcataac14460
tggatgctggcatgtagaagactgcagatagatccatgtctaatgccatgcacaaaactt14520
aagtccaaatggatcaaaaacctcaacataaatccagccacactgaacctcatagaagag14580
aaagtgggaagtatccttgaataaattggtacaggagaccacatcttgaacttaacacca14640
gtagcacagacaatcagatcaataatcaataaatgggacctcctgaaactgagaagcttc14700
tgtaaggcaatggataagtcaacaggacaaaatggcagcccacggaatgggaaaagatat14760
tcaccaatcctatatctgacagagggctgctctctatttgcaaagaacacaataagctag14820
tttttaaaacaccaattaatccgattataaagttgggtagagaactaaataaagaattgt14880
taacagagcaatctaacttggcagaaagacacataagaaagtgctcaccat14931
<210>5
<211>20
<212>dna
<213>人工序列
<220>
<223>合成聚核苷酸
<400>5
tgagctagttgcagacaggg20
<210>6
<211>79
<212>rna
<213>人工序列
<220>
<223>合成聚核苷酸
<400>6
guuuuagagcuagaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaagug60
gcaccgagucggugcuuuu79