体细胞单倍体人类细胞系的制作方法

文档序号:19231302发布日期:2019-11-27 17:44阅读:487来源:国知局
体细胞单倍体人类细胞系的制作方法
本发明涉及是完全单倍体的突变体细胞人类细胞系。
背景技术
:为了保护基因组完整性,人类是二倍体,即他们具有每个染色体的两个拷贝(除仅存在于一个拷贝中的x染色体和y染色体之外),一个来自他们的父亲并且一个来自他们的母亲。在许多情况下,如果一个染色体上的一个基因受损,那么剩余的第二拷贝足以维持基因功能,由此缓解另外的有害影响。对于人类作为一个物种的生存必不可少的这种故障保护机制证明是人类遗传学家的恶梦:每当一种基因的一个拷贝灭活时,第二拷贝通常缓冲该影响,由此掩蔽该具体基因的表型。对于最长的时间,已知是单倍体的人类细胞仅是配子,即精细胞和卵细胞。然而,由于这些细胞不能增殖,因此它们不能用于基因实验(除了伦理道德约束)。在超过15年前,一群科学家在塔夫斯大学(tuftsuniversity)偶然发现了一种细胞系,该细胞系从患有慢性骨髓性白血病(cml)的患者中分离出来。被称为kbm-7[1]的该细胞系,除8号染色体和15号染色体的一部分被发现是二体的之外,对于大多数染色体是单倍体。它的近单倍体状态可在培养物中维持若干个月。然而最终,kbm-7细胞转变成二倍体[1],这说明该近单倍体核型更适合表示一种“亚稳定”状态。虽然作者[1]指出,这种细胞系可用于“促进将体细胞遗传学应用到哺乳动物细胞生物学的研究”,但这花了超过10年的时间直到泰恩布鲁梅尔坎普(thijnbrummelkamp)和他的同事在怀特黑德生物医学研究所(whiteheadinstituteforbiomedicalresearch)成功地将kbm-7细胞应用于人类细胞的基因实验[2]。在这篇划时代文章中,作者使用逆转录病毒载体将一个常规基因诱捕(genetrap)插入宿主基因组中并且由此在整合位点处破坏基因表达。最重要的是,由于逆转录病毒可在非常高滴度下生长,因此该方法允许在一个突变细胞的池中以非常高的覆盖率同时破坏大多数非必需人类基因,由此能够实现无偏阳性选择筛选[3]-类似于在超过15年前在酵母中完成的筛选。除了无偏遗传学筛选,由布鲁梅尔坎普开发的技术能够实现生成一个人类细胞系的独特文库,其中每个细胞系在一个限定位置处携带一个基因诱捕插入。重要的是,此类文库能够实现反向遗传学,即,对于考虑中的一个特定表型的个体突变体研究。这样一种文库最近被建立起来。该文库含有大概10,000个细胞系,覆盖超过3,500个人类基因[4]。此外,本公开通过下一代测序和小核苷酸多态性(snp)阵列还含有亲本kbm-7细胞的详细基因组表征。基于这些数据,15号染色体上的二体部分可被映射到chr15:61,105,000-89,890,000周围的区域。当上述的遗传筛选非常强大时,它们显然受到近单倍体人类细胞系的可用性的限制-同时,kbm-7是唯一可用的细胞系。因此,布鲁梅尔坎普和同事决定重新编程kbm-7细胞以获得诱导性多能干细胞(ipsc)。虽然这证明是可行的,但kbm-7衍生的ipsc在去分化程序过程中失去了它们的近单倍体核型[5]。然而,这个反应的一个副产物是一种保持近单倍体并且显示成纤维细胞样形态的叫做hap1的粘附细胞系[6]。重要的是,hap1细胞不是多能的,但就生长、形态学和基因表达而言它们明显不同于它们的kbm-7亲本细胞。应注意,hap1细胞对于8号染色体也是单体的,并且因此比它们的kbm-7亲本“更加单倍体”。然而,hap1细胞确实保留来自15号染色体的二体片段并且因此不能被认为是完全单倍体。此外,hap1细胞对于它们的近单倍体核型不如kbm-7稳定,即,它们比kbm-7细胞更容易地转变成二倍体状态。细菌具有维持它们基因组完整性并且抵御入侵的病毒和质粒的需要。最近,具有聚集、规则间隔、短回文重复(crispr)的基因组基因座在细菌中发现并且显示对入侵噬菌体介导适应性免疫[7]:细菌可捕获来自噬菌体的短核酸序列并且将它们整合到crispr基因座中。由crispr基因座的转录产生的小rna可引导一组细菌内切核酸酶裂解入侵病原体的基因组。对于一种细菌内切核酸酶(来自酿脓链球菌(streptococcuspyogenes)的cas9)的最低要求通过将该酶纯化并且在体外重构裂解反应来进行表征[8]。出人类意料地是,cas9自身足以进行内切核酸酶裂解并且不需要另外的多肽用于裂解反应。此外,cas9需要两个rna辅因子:一个恒定tracrrna和一个可变crrna。重要的是,该crrna可用于重新编程cas9的裂解特异性,由此使cas9能够靶向目标基因组基因座。裂解特异性受限于特异于cas9并且位于相邻裂解位点的原型间隔区相邻基序(pam)。在试图简化该系统时,将crrna和tracrrna融合以得到一种被称为引导rna的嵌合rna分子。us2010/0076057a1披露靶dna干扰crrna和crispr相关联(cas)蛋白,特别是对于基于使用crispr序列的水平基因转移。通过cas9-crrna复合物进行的rna指导的dna裂解由wo2013/141680a1和wo2013/142578a1描述。本发明的目的是工程化近单倍体细胞以减小细胞的二倍性。另外的目的是提供一种核型稳定的单倍体核型的细胞系。技术实现要素:通过如所权利要求的主题来实现该目的。根据本发明,提供一种体细胞完全单倍体、核型稳定的人类细胞系。确切地说,该细胞系是可通过靶向缺失一种体细胞近单倍体人类亲本细胞的一个或多个二体的(在此也称为二倍体的)染色体区域获得的。确切地说,该细胞系是一种粘附细胞系。根据一个具体实施例,该细胞系是保藏于dsmacc3220下的hap2细胞系或其功能性变体,优选地具有相似的基因表达谱。确切地说,功能性变体的特征在于基本上相同的基因表达谱,即,功能性变体包含其中基因的表达水平基本上相同的一个基因组,例如小于1000个基因、优选小于750、或小于500、或小于300个基因的基因表达水平将不同。命名为hap2的细胞系是一种完全单倍体人类细胞系,该细胞系被提供为保藏在dsmz-德意志微生物保藏中心(deutschesammlungvonmikroorganismenundzellkulturen,mascheroderweg1b/inhoffenstraβe7b)38124braunschweig(de)中,保藏登记号是dsmacc3220(保藏日期:2013年11月21日;寄托人:奥地利维也纳的haplogengmbh(haplogengmbh,vienna,austria))的生物材料。该hap2细胞系和功能性变体包含在单体状态中甚至至少20代的全套人类染色体。优选地,功能性变体的特征在于相似的基因表达模式。该细胞系的不同克隆可展现相同或相似的基因表达模式。例如,独立克隆可通过使一种亲本克隆突变来产生,这些独立克隆是核型稳定的并且具有基本上相同的基因表达谱。本发明细胞系证明是核型稳定的、优选的实例,诸如保藏材料或其功能性变体。该hap2细胞系和功能性变体包含在单体状态中甚至至少20代的全套人类染色体。优选地,功能性变体的特征在于相似的基因表达模式。本发明细胞系的不同克隆可显示相同或相似的基因表达模式。例如,当产生如保藏的该hap2细胞系时,至少两种克隆是衍生自独立轮次的用cas9和引导rna的转染并且鉴别哪个是核型稳定的且具有基本上相同的基因表达谱。例如,根据本发明提供的两个不同克隆的差别在于仅284个基因的表达。根据一个具体方面,该细胞系的细胞包含在单体状态中的全套人类染色体。确切地说,单倍体核型在至少10代、优选在至少20代中是核型稳定的。根据一个具体方面,该细胞系包含在预定义的目标基因组位点(goi)处的一个或多个目标基因组突变(moi)。moi确切地是以下各项中的至少一种:(i)一种敲除基因功能的突变;(ii)一种引入缺失、取代或插入一个或多个核苷酸中的至少一种的突变;和/或(iii)一种引入同源模板的交换序列的突变。这种moi可确切地包括破坏基因功能或基因表达(基因敲除)的移码突变、限定的点突变(敲入)、插入非天然存在的外源dna序列(例如,诸如gfp的标记或tap标记)或缺失天然存在的序列(例如,缺失整个基因、外显子或调节元件)。敲除一个基因的功能的突变可例如下调dna表达,缺失基因中的至少一部分和/或破坏基因的开放阅读框。确切地说,与goi相比,该细胞可包含全部或部分交换序列,例如,这样使得交换序列的该部分被引入包含至少一个点突变和任选的可能存在于交换序列中的其他突变的细胞中。交换序列可具体地通过一个同源模板引入,该同源模板是人类dna片段或含有包含以下的这种片段的质粒:与goi具有至少90%的序列同源性并且能够与goi同源重组的一个至少20bp的重组序列,以及包含在至少一个点突变处不同于goi的人类核苷酸序列的交换序列。确切地说,与goi相比,该细胞可包含全部或部分交换序列,例如,这样使得交换序列的该部分被引入包含至少一个点突变和任选的可能存在于交换序列中的其他突变的细胞中。通过这种交换序列,一个突变可被敲入到一个预先确定的位置中。为敲入突变的该突变可例如包括敲入单独的点突变或snp。确切地说,该同源模板是a)一种具有20-200bp、确切地20-100bp长度的寡核苷酸;或b)一种具有20-5000bp、确切地20-1000bp长度的pcr产物;或c)包含在一个供体质粒中的a)或b)中的任意一者。该交换序列可仅包含一个点突变,诸如取代一个或多个核苷酸由此编码一个不同的氨基酸或一系列点突变,例如以便获得有时被称为snp(单核苷酸多态性)的突变模式,其中基因组中的单核苷酸a、t、c或g在人类或成对染色体之间不同;或插入更大的构建体,例如这样使得内源基因被修饰以含有一个特异序列标记(myc标记、his标记、ha标记、v5标记、tap标记、lap标记、gfp、rfp、dsred、mcherry)。交换序列可涵盖非编码区或编码区。通常,交换序列鉴别一种特异性基因表达模式或产物、或一种特异性表型,包括遗传倾向性或遗传病、或疾病病状。确切地说,交换序列被嵌入一个重组序列中,或与该重组序列重叠,或侧接一个或多个重组序列,优选地在能够与goi同源重组的5’末端和3’末端处包含交换序列和侧翼序列。具体实例涉及同源模板,其中重组序列结合突变,因此,交换序列被结合到重组序列中。根据一个可替代的实例,使用大于重组序列的交换序列。由此goi内的一个更大片段可被交换,例如以便引入多于一个点突变。典型地,该交换序列具有1-1000bp、典型地至少10bp或至少20bp,并且可能甚至大于1000bp、高达5000bp的长度。确切地说,该交换序列具有与goi至少90%、或至少95%、至少98%,或至少99%的序列同源性,优选地其中该交换序列包含一个或多个点突变,确切地与goi相比小于99.9%或小于99.5%的序列同源,或导致不同的dna表达和/或不同表型的修饰的dna区域。可通过crispr/cas9方法,或可替代的诱变方法来引入特异性突变或突变模式。细胞系可用于通过染色体的复制以便获得姐妹染色体或通过该套染色体的核内复制来产生二倍体细胞系,由此获得复制的或一致的姐妹染色体。这种二倍体细胞系被确切地理解成包含例如近单倍体或完全单倍体细胞的复制染色体,从而获得一种近二倍体或完全二倍体细胞。这些复制染色体确切地是一套复制的姐妹染色体或其至少一部分,其中复制区域包括纯合snp,并且确切地特征在于缺乏杂合snp。确切地说,在本发明的细胞系中,姐妹染色体的等位基因是一致的并且不含有杂合的单核苷酸多态性(snp)。一致的姐妹染色体确切地特征在于纯合snp或snp模式(或缺乏杂合snp)。确切地说,由一种体细胞单倍体(或近单倍体细胞)的粘附细胞系产生一种包含两套复制姐妹染色体的二倍体细胞,例如通过在无性复制细胞内的染色体的单层细胞培养物中培养所述细胞系,由此获得单个细胞(确切地是粘附细胞)的群体,并且在确定单个细胞核型后选择一种二倍体细胞且将该二倍体细胞扩大以获得一种包含二倍体核型的粘附细胞系。命名为c665的细胞系(也称为二倍体ehap)是一种被认为是近二倍体(因为它含有近单倍体细胞系hap1的复制染色体)的二倍体人类细胞系,并且该细胞系被提供为在dsmz-德意志微生物保藏中心(deutschesammlungvonmikroorganismenundzellkulturen,mascheroderweg1b/inhoffenstraβe7b)38124braunschweig(de)中保藏在dsmacc3250下(保藏日期:2014年10月29日;寄托人:奥地利维也纳的haplogengmbh)的生物材料。由二倍化如在此描述的完全单倍体细胞系所获得的二倍体细胞系被认为是完全二倍体。在染色体复制后,该细胞可包含全套的复制染色体。具体地说,该细胞可包含在二体状态中的全套人类染色体。在复制后,姐妹染色体的等位基因是一致的并且不含有杂合的单核苷酸多态性(snp)。一致的姐妹染色体确切地特征在于纯合snp或snp模式(或缺乏杂合snp)。如在二倍化本发明细胞系后获得的特异性二倍体细胞是粘附细胞。因此,本发明进一步提供一种培养本发明细胞系的方法:无性复制细胞内的染色体,由此获得单个细胞的群体,并且在确定单个细胞核型后选择一种二倍体细胞且将该二倍体细胞进一步扩大以获得一种包含二倍体核型的突变细胞系。确切地说,在针对二倍化的细胞应激条件下培养单倍体细胞系,由此加速自发转变成二倍体状态。确切地说,这些细胞应激条件采用以下各项中的至少一种:a)一种温度应激,优选为热激或冷激;b)一种物理应激,优选为剪切力;c)连续传代,优选为至少20或25代;d)一种高细胞密度,优选融合至少24小时;e)一种包含次优但可容许的量的营养素、代谢物和/或毒素的培养基组合物;f)氧气水平暂时降低至次优水平;以及g)活性氧物质在该培养基中的存在,优选持续至少2小时。此类应激条件是例如:-热激:将细胞暴露于较高温度,确切地是以下温度中的任何温度(+/-1℃):40℃、42℃、44℃、46℃、48℃或50℃,持续限定的时间段(例如,至少1h、2h、4h、6h、8h,高达16h);-冷激:将细胞暴露于较低温度,确切地是以下温度中的任何温度(+/-2℃,然而高于冷冻温度):0℃、4℃、8℃、12℃、16℃、20℃、24℃、28℃或32℃,持续限定的时间段(例如,至少1h、2h、4h、6h、8h,高达16h);-细胞应变和剪切:将细胞暴露于剪切力,例如,通过处理(诸如通过用胰蛋白酶或其他酶来处理)粘附细胞以获得在悬浮液中的细胞,并且通过针来抽吸细胞(例如,通过20号、25号或30号针进行至少4、8、12、16或20次传代),或通过物理方式将该悬浮液混合,或当粘附到固体载体时通过物理处理向这些细胞采用剪切应力;-细胞的高密度:并不及时地将细胞胰蛋白酶化,而是在细胞培养皿中暴露于更高的细胞密度,诸如以便获得比单层密度更高的密度(例如,至少融合另一个6h、12h、18h、24h、30h、36h、42h或48h);-毒素:在细胞培养过程中以可容许的量用有毒化合物(例如,蓖麻毒素、志贺毒素或衣霉素)来处理细胞,诸如以便获得至少30%、优选至少50%或至少70%水平的幸存活细胞;-低氧:确切地以任何以下量(+/-1%v/v):1%、2%、4%或8%o2暂时将氧气水平降低持续限定的时间段,例如,至少24h、48h,高达72h;-活性氧物质的存在:用过氧化氢将细胞处理6h、12h、18h、24h;-粘附细胞在次优或最优的细胞培养条件下连续传代,例如至少20、25、30或35代。细胞系可进一步用于通过一种dna提取方法来获得基因组dna的制剂。因此,本发明进一步提供一种dna制剂,该dna制剂包含从如在此描述的细胞系提取的基因组dna。如在此描述的任何单倍体或二倍体细胞系可例如通过本领域熟知的dna提取方法,例如,使用有机提取、硅胶离心柱和磁珠来经受基因组dna提取。因此,本发明进一步提供一种dna制剂,该dna制剂包含从如在此描述的细胞系提取的基因组dna。从单倍体细胞提取的基因组dna具有携带每个基因的仅一个拷贝的独特性质,并且当涉及到制备基因组dna的混合物时,这对于产生更多均匀混合物的能力可具有重大影响。基因组dna的这种制剂可用作基因组dna的一种统一标准制剂,例如,用作针对任何突变的或天然的(非突变的)细胞的参比标准物。通过使用单倍体细胞或甚至趋于二倍体状态(二倍体化细胞,其中单倍体细胞的基因组被复制以获得二倍体状态)的单倍体细胞,等位基因之间的这些差异明显减小,从而得到一种更统一的标准制剂。本发明进一步提供一种主要由至少2种不同或独立克隆的细胞系组成的粘附体细胞多克隆群体,其中这些细胞系中的每种均是如在此描述的单倍体或二倍体细胞系。确切地说,该群体是一种异质混合物(诸如具有希望的核型的分离克隆的混合物),该异质混合物例如在仅一个固体载体上或在不同载体或隔室上包含至少2、3、4、5、10或20种不同克隆,例如其中各克隆位于空间不同的位置处。这种克隆的混合特别适于提供一种稳定群体,其中分离的单个克隆的遗传漂变由该混合的多克隆性质补偿。确切地说,该群体包含是独立克隆的功能性变体。可确定这种群体的单个克隆的基因组或核型稳定性,以便选择是如在此定义的核型稳定的那些克隆,并且可进一步作为可被提供为商用产品的细胞系产生,或进一步工程化以获得突变体。根据本发明,进一步提供一种产生本发明的单倍体细胞系的方法,该方法包括:a)提供一种体细胞近单倍体人类亲本细胞;b)鉴别该亲本细胞的基因组中的二体区域;c)各自通过一种包含结合crrna的tracrrna的引导rna(grna)来靶向与染色体区域dna的5’末端和3’末端相邻的侧位点,该crrna包括与靶位点杂交的寡核苷酸序列;d)在与rna引导的内切核酸酶接触后在靶位点处裂解dna,该rna引导的内切核酸酶在与grna杂交后催化dna双链断裂,由此缺失染色体区域并且获得一种完全单倍体细胞;以及e)扩大该细胞以获得一种完全单倍体细胞系。在平行转染轮次中,产生是独立克隆的功能性变体是可能的。优选的是进一步确定单个克隆的基因组或核型稳定性,以便选择是如在此定义的核型稳定的那些克隆,并且可进一步作为可被提供为商用产品的细胞系产生,或进一步工程化以获得突变体。引导rna可被提供为一种tracrrna和crrna的二元复合物,以及任选的其他接头序列,各自被提供为离体或在细胞内结合的分离组件。可替代地,tracrrna和crrna也可被提供为分离组件。优选地,引导rna被提供为一种嵌合或重组产物,该嵌合或重组产物包含例如通过一种键联来彼此联接的组件tracrrna和crrna,其中该crrna直接联接到该tracrrna的5’末端上,具有或不具有接头序列例如,seqid48的序列。该crrna典型地包含一个恒定部分,该恒定部分是提供与该tracrrna结合或键联的3’部分。该crrna进一步包含被设计成与一个特异性靶位点杂交的一个可变部分,该可变部分典型地分别结合于该crrna和grna的5’部分或5’末端。根据一个具体方面,可使用由结合tracrrna的rna引导的内切核酸酶组成的组件。这种组件优选地与靶特异性rna(crrna)组合使用。引导rna和rna引导的内切核酸酶可被方便地提供为内切核酸酶与tracrrna和crrna的一种三元复合物,各自被提供为离体或在细胞内结合的分离组件。优选地,提供一种内切核酸酶与引导rna的二元复合物,各自被提供为离体或在细胞内结合的分离组件。在具有内切核酸酶的这种复合物中,引导rna优选地包含彼此联接的tracrrna和crrna,因此,该引导rna是一种嵌合rna产物。优选地,使用与rna引导的内切核酸酶配对的tracrrna或grna功能对,例如,grna和内切核酸酶恒定部分的功能对,确切地是在复合物中的或作为分离组件的功能对。确切地说,功能对具有适合的ii型crispr系统,诸如细菌来源的crispr系统。tracrrna/grna的功能对和匹配的内切核酸酶优选地与一种或多种不同crrna组件一起使用,例如,与靶向不同基因组靶位点的一系列crrna寡核苷酸一起使用。确切地说,该细胞能够进行细胞修复机制,例如,非同源末端连接,任选地随后进行dna断裂。确切地说,亲本细胞来源于癌症患者,优选患有诸如慢性骨髓性白血病或急性成淋巴细胞性白血病的白血病或诸如周围性软骨肉瘤的实体瘤的患者。根据一个具体方面,grna中的至少一个包含选自下组的一个序列,该组由以下各项组成:seqid3、seqid13、seqid19以及seqid24-47中的任一个;或是内切核酸酶共底物的前述序列中任一个的功能性变体。根据另一个具体方面,内切核酸酶是选自下组,该组由来源于酿脓链球菌、嗜热链球菌、脑膜炎奈瑟氏球菌或齿垢密螺旋体中任一个的cas9酶以及前述酶中任一个的功能性变体组成,包括cas9切口酶或人工酶,确切地包括重组酶,例如突变的或嵌合的酶。特异性cas9切口酶衍生自化脓链球菌的cas9并且在位置d10a或h840a处包含氨基酸突变,进而导致一个核酸酶结构域的催化活性失活并且将cas9转变成在靶位点处使单链断裂的“切口酶”酶。根据一个优选的实施例,该方法采用以下各项中的至少一种:a·包含seqid3、25或26中任一个的核苷酸序列,或前述序列中任一个的功能性变体的grna;和·包含seqid1、5、7、8或9中任一个的氨基酸序列,或前述序列中任一个的功能性变体的内切核酸酶;或b·包含seqid13、27-40中任一个的核苷酸序列,或前述序列中任一个的功能性变体的grna;和·包含seqid10或15的氨基酸序列,或前述序列中任一个的功能性变体的内切核酸酶;或c·包含seqid19、41-47中任一个的核苷酸序列,或前述序列中任一个的功能性变体的grna;和·包含seqid16或21的氨基酸序列,或前述序列中任一个的功能性变体的内切核酸酶。确切地说,细胞被工程化成任选地用grna的一个或多个组件或用grna来表达cas9内切核酸酶。确切地说,dna断裂是一种接近原型间隔区相关基序(pam)、优选pam上游3bp的双链断裂或成对单链断裂。示例性pam序列选自下组,该组由以下各项组成:seqid2、seqid11、seqid12、seqid17、seqid18、seqid23、seqid75以及seqid76,或前述序列中任一个的互补序列。成对单链断裂在此有时被称为“双链”断裂的特定实施例。成对切割(单链断裂)特异性地接近两个pam,每个单链断裂针对一个pam。互补dna序列典型地被识别用于互补链的dna断裂。优选选择由特异性核酸内切酶和特异性crispr系统识别的一个适合的pam序列。根据另一个具体方面,通过由dna断裂诱导的细胞修复机制,优选地引入至少一个移码突变、插入、取代和/或缺失一个或多个核苷酸来获得基因组突变。根据另一个具体方面,突变是指更大面积的突变。例如,基因的外显子或整个基因缺失。因此,该方法确切地采用至少两个dna双链断裂(dsb),其中至少一个dsb在接近染色体区域5’末端的靶位点内执行,并且至少一个dsb在接近染色体区域3’末端的靶位点内执行。这种dsb可由靶区域内的两个单链断裂引起,这两个单链断裂位于每个dna链上的靶位点上的不同位置处(例如,彼此接近并且总而言之将提供dsb),或可由在每个dna链上的靶位点的相同位置处的dsb引起。根据一个具体方面,缺失的染色体区域具有至少1百万bp、优选至少1千万或至少2千万bp的长度。令人类惊奇的是,对于人类近单倍体细胞,甚至3千万bp的兆碱基规模缺失是可能的,以便获得核型稳定的本发明的完全单倍体细胞系。确切地说,可根据本发明,采用在有待切除的基因组(染色体)区域侧向的两侧上杂交的两个crrna分子,例如接近或邻近基因组区域的5’末端和3’末端来诱导一种双链dna断裂。在这种dna断裂后,细胞修复将提供用于连接游离末端,由此切除基因组区域。根据另一个具体方面,至少两个不同靶位点通过不同crrna或grna,采用tracrrna和内切核酸酶的相同或不同功能对或grna和内切核酸酶的恒定部分的功能对来靶向。根据本发明,进一步提供本发明细胞系用于产生等基因细胞变体的用途,该等基因细胞变体包含在不同基因组靶位点处的基因组突变。此类基因组突变(例如包含单个基因的敲除)可通过一种产生在预定义基因组靶位点处包含基因组突变的细胞的突变体细胞人类细胞系的方法来产生,该方法包括:a)提供一种包含结合crrna的tracrrna的引导rna,该引导rna包括与靶位点杂交的一个寡核苷酸序列;b)提供一种rna引导的内切核酸酶,该rna引导的内切核酸酶在与grna杂交后在靶位点处催化dna断裂;c)在该内切核酸酶存在下将该引导rna引入细胞以获得包含靶位点处的多种基因组突变的细胞库;d)从所述库中选择包含敲除基因的功能的突变的细胞;以及e)扩大该细胞以获得突变细胞系。确切地说,该方法采用:a)一种结合核酸序列以表达引导rna的表达质粒,该表达质粒用于转化细胞并且用于获得转化体细胞库,这些转化体细胞包含靶位点处例如接近靶位点的多种基因组突变;以及b)从所述库中选择一种转化体细胞,该转化体细胞包含敲除基因的功能的该突变。另外的方法可采用插入诱变,诸如由逆转录病毒或转座子递送的基因诱捕,或其他设计者核酸酶,诸如锌指核酸酶或talen。确切地说,通过由dna断裂诱导的细胞修复机制,优选地引入至少一个移码突变、插入、取代和/或缺失一个或多个核苷酸来获得基因组突变。例如,可在供体模板的存在下通过hdr或如果想获得移码突变体通过nhej来获得一种基因组突变。确切地说,可通过以下方法中的任一种来获得moi:1.通过crispr/cas介导的dna断裂引入突变;为此,至少一个引导rna和cas9切口酶可用于引入单链断裂。然而,可使用多于一个引导rna(在一个具体实施例中是两个:成对切割),并且可使用cas9野生型或切口酶。2.裂解后,细胞将通过nhej或同源性指导修复(hdr),或其他机制来修复dna损伤。存在另外可能的修复路径,例如,包括碱基切除修复、错配修复或单链退火。3.突变包括:a.小的插入和缺失(插入缺失(indel))。如果外显子被靶向,则此类突变破坏移码(移码突变)并且所得到的细胞系将鉴定为基因敲除。例如通过以下获得此类突变i.单个引导和cas9wt,随后进行nhej;ii.成对引导和cas9切口酶,随后进行nhej;b.单个核苷酸取代或点突变。例如通过以下获得此类突变i.单个引导、cas9wt和供体模板,随后进行hdr;ii.成对引导、cas9切口酶和供体模板,随后进行hdr;c.缺失天然存在的序列。例如通过以下获得此类突变i.成对引导(缺失的序列位于两个引导rna之间)和cas9wt,随后进行自发末端连接(nhej);d.插入天然存在的序列(例如,作为基因或外显子)或非天然存在的序列(例如,gfp、myc标记)。例如通过以下获得此类突变i.单个引导、cas9wt和供体模板,随后进行hdr;ii.成对引导、cas9切口酶和供体模板,随后进行hdr;例如,整合核苷酸序列的具体修复机制包括以下各项中的任一种:1.nhej介导的整合虽然通常通过同源性指导修复来实现外源交换序列(例如gfp)的整合,但它也可以通过非同源末端连接来获得。为此,可使用一种含有该交换序列的质粒,该质粒由一种不存在于人类基因组中的引导rna识别位点侧接。如果这样一种质粒与cas9、靶向人类基因组的引导rna和靶向存在于质粒中的识别位点的引导rna共转染,那么该交换序列将在表达cas9的细胞中得到释放。释放后,该交换序列可以一种靶向方式整合在人类基因组中。得到的细胞系将接近在人类基因组中被靶向的位点携带该交换序列的单个整合。2.dna修复机制由cas9诱导的dna双链断裂通过nhej或hdr修复。虽然nhej被清楚地了解,但控制hdr的机制未被清楚地表征。尽管hdr与同源重组同义地使用,但它可以是可额外地作出贡献的更复杂的其他修复途径。例如,已经显示错配修复途径抑制hdr并且因此,msh2或pms2敲除细胞展现出更高的hdr率。此外,其他修复途径的贡献可取决于供体模板的性质和长度。例如,当短寡核苷酸用作供体时,据推测结合通过dna复制因子(类似于冈崎片段)来辅助。使用更长的供体时,参与同源重组的因子可作出更大贡献。这样一种或多种突变典型地定位在dna双链断裂的上游和下游20bp内,确切地是在dna断裂的上游和下游15bp或10bp内。具体提供的该一种或多种突变位于一个或多个位置处,例如至少1或2个点突变,包括单个插入、缺失或取代一个或多个碱基对,确切地是至少3、4、5、高达10个点突变。根据一个具体方面,该交换序列的结合(在此也称为一种或多种突变)定位在dna断裂的上游和下游500bp内,确切地是在dna断裂的上游和下游250bp或100bp内,并且更确切地是在dna断裂的上游和下游50bp或10bp内。确切地说,本发明提供一种通过诱变本发明细胞系的细胞来产生包含在不同基因组靶位点(goi)处的基因组突变(moi)的体细胞完全单倍体人类细胞的文库的方法。根据本发明,进一步提供一种包含等基因细胞变体库的体细胞完全单倍体、核型稳定的人类细胞的文库,这些等基因细胞变体包含在不同基因组靶位点处的基因组突变。确切地说,本发明的方法提供产生等基因细胞的此类突变人类体细胞系的文库,这些等基因细胞具有在不同预定义的基因组靶位点处的多种基因组突变。这种文库不同于现有技术的文库,这是由于具有稳定单倍体核型和特征性突变(具体是移码突变或敲除突变)的完全单倍体细胞,这是crispr系统的特征,即,接近pam序列的突变。因此,本发明进一步提供一种等基因细胞的突变人类体细胞系的文库,这些等基因细胞具有在不同预定义的基因组靶位点处的多种基因组突变,其中这些细胞是通过本发明方法可获得的针对靶位点的基因组基因座具有稳定单倍体核型的二倍体。确切地说,该文库包含具有在不同基因组靶位点处的突变的至少50、优选至少100、优选至少300、至少1.000或至少10.000种细胞系的库。根据一个具体实施例,细胞系库或文库的每种细胞系被提供在分离的容器中。根据另一个具体实施例,该文库被包含在一个包括微阵列的阵列中,其中每种细胞系位于空间不同的位置处,例如点。因此,本发明提供包含本发明文库的这种阵列。该文库可用于特异性筛选目的。因此,本发明提供一种通过确定如在此描述文库的一种或多种细胞系的功能性特征并且根据其作为moi的指示物的功能来选择细胞系而鉴别包含在预定义goi处的moi的人类体细胞系的方法。附图说明图1:化脓链球菌的tracrrna或grna和rna引导cas9内切核酸酶的功能对的序列信息:a)·cas9的氨基酸序列(seqid1)·pam基序(seqid2)·grna的grna(seqid3)恒定部分,包括crrna的恒定部分、一个接头以及tracrrna(seqid4)b)·具有位于seqid1的氨基酸序列的n-末端延伸的额外nls序列的cas9的氨基酸序列(seqid5)·nls序列(seqid6)c)·具有位于seqid1的氨基酸序列的c-末端延伸的额外nls序列的cas9的氨基酸序列(seqid7)d)·具有位于seqid1的氨基酸序列的n-末端延伸的额外nls序列和位于seqid1的氨基酸序列的c-末端延伸的额外nls序列的cas9的氨基酸序列(seqid8)e)·具有位于seqid1的氨基酸序列的n-末端延伸的额外nls序列和位于seqid1的氨基酸序列的c-末端延伸的额外nls序列的cas9的氨基酸序列(seqid9)图2:嗜热链球菌的tracrrna或grna和rna引导cas9内切核酸酶的功能对的序列信息:a)·cas9的氨基酸序列(seqid10)·pam基序(seqid11)·示例性pam基序(seqid12)·grna(seqid13)·grna的恒定部分,包括crrna的恒定部分、一个接头以及tracrrna(seqid14)b)·具有位于seqid10的氨基酸序列的c-末端延伸的三个额外nls序列(seqid6)的cas9的氨基酸序列(seqid15)图3:脑膜炎奈瑟氏球菌的tracrrna或grna和rna引导cas9内切核酸酶的功能对的序列信息:a)·cas9的氨基酸序列(seqid16)·pam基序(seqid17)或(seqid75)或(seqid76)·示例性pam基序(seqid18)·grna(seqid19)·grna的恒定部分,包括crrna的恒定部分、一个接头以及tracrrna(seqid20)b)·具有位于seqid16的氨基酸序列的c-末端延伸的三个额外nls序列(seqid6)的cas9的氨基酸序列(seqid21)图4:齿垢密螺旋体的tracrrna或grna和rna引导cas9内切核酸酶的功能对的序列信息:a)·cas9的氨基酸序列(seqid22)·pam基序(seqid23)b)·具有位于seqid22的氨基酸序列的c-末端延伸的三个额外nls序列(seqid6)的cas9的氨基酸序列(seqid24)图5:功能性grna序列,包括亲本序列(seqid25-47)、接头gaaa(seqid48)的功能性变体。图6:针对kbm-7细胞的光谱核型分析(sky)数据揭示附接至19号染色体的8号染色体和15号染色体的一部分的两个拷贝。图7:从hap1细胞的转染池进行t7内切核酸酶测定。用两种crispr的四种不同组合(c1和c3、c1和c4、c2和c3、c2和c4)来转染hap1细胞,从而用一种crispr来靶向二体区域的各边界。将基因组dna从转导细胞的池分离。通过pcr和t7内切核酸酶消化来评估在每个基因座处的编辑。图8:从crispr转染细胞的池进行缺失pcr。用两种crispr的四种不同组合(c1和c3、c1和c4、c2和c3、c2和c4)来转染hap1细胞,从而用一种crispr来靶向二体区域的各边界。将基因组dna从转导细胞的池分离。将侧接缺失区域的两个引物对用于pcr扩增,从而实现对不存在于hap1野生型细胞中的缺失特异性pcr扩增子的检测。图9:单个克隆上的缺失pcr。通过有限稀释法将单个hap1克隆(命名为a11、a8、b11、f6和h1)从crispr转染细胞的池分离。使用实现对不存在于hap1野生型细胞中的缺失特异性pcr扩增子的检测的一种引物对,将基因组dna从各克隆分离并且通过pcr分析。图10:克隆a11在五个基因组基因座处是半合子的,因此hap1细胞是杂合的。在15号染色体上的二体区域内含有杂合snp的五个区域通过pcr来扩增并且经受桑格测序(sangersequencing)。虽然hap1细胞针对所有五个snp是杂合的,但克隆a11展现出杂合性丢失。图11:克隆a11是单倍体。用碘化丙啶将三个细胞系(克隆a11、单倍体对照(kbm-7)和二倍体kbm-7克隆c85)染色。将碘化丙啶插入基因组dna并且因此提供一种总dna含量的定量测量。通过流式细胞术来定量碘化丙啶染色。图12:hap1细胞的光谱核型染色。通过光谱核型来分析hap1细胞以便评估这些克隆的全基因组景观。图13:针对克隆a11和e9以及hap1野生型细胞的缺失pcr。为了评估引导rna1与引导rna3之间片段是否在cas9裂解后被切除,使用结合位置chr15:61,105,055的一种正向引物(hg6090)和结合位置chr15:89,889,818的一种反向引物(hg6093)来执行缺失pcr。图14:克隆a11和e9产生于不同编辑事件。将从克隆a11和e9获得的缺失pcr产物(图1)进行桑格测序并且与人类基因组对比。针对克隆a11示出的序列(seqid95):ccagaaggggcatgtcctatcattgtaataaaaaaggacactgccagtttctgaactatagtgacaccaccaaggcaacggtagatgtggctgagagccctgcccttgagccttttggcttgaggcttcatgccagcatccacggaggcacagcttcagggtccctggtggcccagccactgggcaagagaggatgctcttttccatccctgggtctggctagaggccctggagggagtcagggtccttgccaaagagcagcagagcctgccgtgaagtgaaggcttctgaaagaaatgagtctgaatcctggctccacctgtccaaactgtgtgaccttaagcaaattacaagggagcttgctgtgcctcagcatccttgtctctataatgggaaggtgatagcctcatagggggcttgtgaggttt针对克隆e9示出的序列(seqid96):ccagaaggggcatgtcctatcattgtaataaaaaaggacactgccagtttctgaactatagtgacaccaccaaggcaacgggaccggtagatgtggctgagagccctgcccttgagccttttggcttgaggcttcatgccagcatccacggaggcacagcttcagggtccctggtggcccagccactgggcaagagaggatgctcttttccatccctgggtctggctagaggccctggagggagtcagggtccttgccaaagagcagcagagcctgccgtgaagtgaaggcttctgaaagaaatgagtctgaatcctggctccacctgtccaaactgtgtgaccttaagcaaattacaagggagcttgctgtgcctcagcatccttgtctctataatgggaaggtgatagcctcatagggggcttgtgaggttt图15:克隆a11和e9中的杂合性丢失。为了评估克隆a11和e9中的杂合性丢失,分离基因组dna并且选择含有在hap1细胞中杂合的snp的五个基因组基因座。通过适合的pcr引物来扩增每个基因座并且将pcr产物进行桑格测序。包含在图15中的序列:野生型中的61,113,214:aacacnaccag(seqid80)a11中的61,113,214:aacactaccag(seqid81)e9中的61,113,214:aacactaccag(seqid82)野生型中的74,153,876:actccntctct(seqid83)a11中的74,153,876:actccgtctct(seqid84)e9中的74,153,876:actccgtctct(seqid85)野生型中的81,960,730:aatttnagcta(seqid86)a11中的81,960,730:aatttgagcta(seqid87)e9中的81,960,730:aatttgagcta(seqid88)野生型中的84,578,780:tcaacnctgca(seqid89)a11中的84,578,780:tcaacactgca(seqid90)e9中的84,578,780:tcaacactgca(seqid91)野生型中的89,868,948:tgtcangatgg(seqid92)a11中的89,868,948:tgtcacgatgg(seqid93)e9中的89,868,948:tgtcacgatgg(seqid94)其中n=a、c、t或g中的任一个图16:克隆a11和e9是完全单倍体人类细胞系。通过光谱核型来分析克隆a11和e9以便评估这些克隆的全基因组景观。图17:克隆a11和e9的核型稳定性。将克隆a11和e9以及hap1野生型细胞如所指示地传代(两代或二十代)。传代后,通过碘化丙啶染色将细胞染色以评估倍数性。列入一种二倍体对照细胞系以供参考。图18:克隆e9中的基因组变化很大程度上局限于15号染色体。在亲本hap1细胞和克隆e9上执行全基因组测序。在这个图中,hap1与e9数据之间的相对覆盖率揭示拷贝数损失受限于编辑的chr15片段。大的白色区域对应于人类基因组的未组装片段。图19:rna测序突出了克隆a11和e9与它们的hap1亲本的整体相似性。(a)使hap1细胞的两个生物复制和e9克隆的两个技术复制经受rna测序。样品之间的斯皮尔曼(spearman)相关性显示,亲本系与编辑克隆之间的整体表达是一致的。(b)将每个细胞系的两个复制成对比较。指明高度表达(fpkm>5)和两倍差别表达的基因的数目。图20:克隆e9中的转录组变化很大程度上局限于15号染色体。通过无偏rna测序来分析hap1细胞和克隆e9以便评估基因表达中的整体变化。使hap1与e9细胞之间的表达比率经受细分分析。热图显示,表达变化主要位于编辑的染色体上。插图揭示细分的细节。图21:从hap1群体分离的单细胞克隆可以是单倍体或二倍体。通过有限稀释法分离六种克隆(命名为克隆1-6)并且通过碘化丙啶染色和facs进行分析。克隆1、3和6是单倍体,而克隆2、4和5是二倍体。图22:单倍体和二倍体细胞系可衍生自kbm-7和hap1细胞。将衍生自kbm-7和hap1的多个单倍体克隆或二倍体克隆合并以产生稳定的单倍体或二倍体细胞系。通过碘化丙啶染色和facs来分析所得到的细胞系。图a和图b展现出源自kbm-7的细胞系,图c和图d展现出源自hap的细胞系。图23:细胞系c665的光谱核型分析。通过光谱核型分析细胞系c665(二倍体hap1细胞)。图a、图b和图c表示显示不同核型的独立的c665亚克隆。具体实施方式如整个说明书中使用的特定术语具有以下含义。如在此使用的术语“细胞系”应意指获得在一个延长时段内增殖的能力的具体细胞类型的建立的克隆,确切地包括无限增殖细胞系、细胞株和细胞的原代培养物。该术语确切地用于单倍体或二倍体细胞系,具体是用于体细胞的细胞系。该术语确切地涵盖野生型细胞系,例如天然存在的并且可在自然界中发现的或可从天然来源分离的并且尚未被人类在实验室中故意修改的细胞;或突变细胞系,相比于野生型细胞系,这种突变细胞系例如在基因组的编码或非编码位点处包含一个基因组突变。此外,当在goi处引入一个目标突变时,非突变核苷酸序列在此被称为野生型或亲本核苷酸序列。另外,如果没有突变被引入基因组,尽管事实上细胞不是天然存在而是人工产生的,那么该细胞被认为是野生型。因此,术语“野生型”不仅仅可应用于通过培养从人类获得的亲本细胞而获得的人类细胞系,还应当应用于包含人类基因组的人工细胞,无论是单倍体或二倍体。该术语确切地涵盖通过工程化源自人类的细胞、确切地包含染色体的二倍性或单倍性改变的细胞而获得的人类细胞系。亲本细胞可进一步包含单个外显子或基因的突变,特别是引入定点突变。细胞系可以是一种真核生物并且确切地是一种人类细胞系,该细胞系可被理解成一种包含人类遗传密码(具有或不具有突变或另外的改变)的细胞系。因此,该术语不仅仅可应用于衍生自从人类获得的亲本细胞的人类细胞系。该术语还涵盖通过工程化源自人类的细胞(确切地包含染色体的二倍性或单倍性改变或单个外显子或基因的突变(特别是敲除基因的功能和/或引入定点突变)的细胞)而获得的人类细胞系。分离的克隆或分离的克隆的群体或混合物在此被称为人工产物,特别是,非天然存在的克隆。确切地说,如在此描述的包含复制姐妹染色体和纯合snp的二倍体细胞系是不存在于自然界中的,这是因为天然(天然存在的)体二倍体细胞总是包含杂合snp。突变细胞系可以是采用重组手段和方法以获得重组dna,因此通过重组工程化细胞基因组而获得的重组细胞系。这种重组工程化典型地采用像质粒或寡核苷酸或rna/dna或对应片段的人工构建物作为产生重组dna的工具。特异性突变体可以通过使一个(染色体)区域突变,由此在该染色体的特定基因座处获得一个基因组突变来获得。可通过随机或靶向的重组来特异性产生突变重组dna。示例性突变细胞包含至少一个对于整合到细胞基因组中的细胞来说是外源性的遗传元件。在一些方面中,该外源性遗传元件可以在细胞基因组中的一个随机位置处被整合。在其他方面中,该遗传元件在基因组中的一个特定位点处被整合。例如,该遗传元件可在一个特定位置处被整合以便相对于内源性序列提供一个改变。另外的示例性突变细胞包含编码或非编码序列的插入或缺失,例如,以便产生一种不同于亲本细胞的表型。突变细胞还可包括其中单个核苷酸已经被取代的细胞系。可替代地,细胞可通过例如使用具有正常或增大的自发突变速率的细胞的演化机制诱变。在重组或诱变后,适合的突变细胞系可根据它的具体遗传序列,例如通过确定该序列的具体改变来选择。应当理解,突变细胞系可被提供为一种准备用于培养的产品,例如,用于科研、工业或分析使用。应当很好地理解,如在此具体描述的人类细胞系是体细胞系,因此,本发明的范围不涵盖人类或与人类种系操作或人类克隆直接相关的技术。如在此描述的具体细胞系是粘附细胞系,因此,例如在固体载体存在或不存在下,可被作为粘附细胞培养至表面或在悬浮液中培养。可以使用分批、补料分批、连续系统、中空纤维等例如在盘、转瓶或生物反应器中进行细胞系培养。粘附细胞典型地是以单层培养物形式位于固体表面上的培养物。以单层生长的依赖贴壁细胞系典型地定期继代培养以便保持它们处于指数增长。当细胞接近指数增长的末期(大约70%至90%融合)时,它们通常被继代培养,由此经历一次传代。从原代培养至次代培养的传代特征在于表示呈脱离细胞形式的原代培养比例的分传比,该分传比对于以给定细胞密度在另外的培养装置上接种并且由此提供次代培养而言是必需的。粘附细胞典型地松散或牢固地锚定在细胞支持体或载体上。细胞将在其上生长的示例性载体是本领域已知的并且优选地适于细胞培养的目的。该载体适合地是一种微粒载体。载体可由支持细胞生长的任何适合的材料构成,诸如右旋糖酐、塑料、明胶、胶原或纤维素、玻璃或其他材料。常规的粘附细胞培养采用组织培养瓶、小瓶、孔载玻片或其他容器的表面,或涉及使粘附细胞作为单层在小微米范围直径颗粒表面上生长的微载体,这些微载体通常悬浮在培养基中。在粘附细胞的细胞培养中,大部分细胞坚固地附接到固体表面。在一些情况下,在有丝分裂过程中细胞在一定程度上聚集和脱离。有丝分裂后,细胞将重新附着。培养粘附细胞的标准规约是本领域已知的,例如生命科技公司(lifetechnologies)的标准规约。这些包括以下方法步骤:细胞培养、细胞解离、计数细胞、确定最佳接种密度以及准备用于传代细胞的新培养容器。粘附细胞系将在体外生长直到它们覆盖表面或培养基耗尽营养素。这时,细胞系典型地被继代培养以防止培养物死亡。为了继代培养细胞,需要例如使用脱离缓冲液使细胞悬浮。粘附程度随细胞系的变化而变化但在大部分情况下,蛋白酶(例如胰蛋白酶)用于使细胞从固体表面脱离并释放。通过碱土金属盐诸如钙盐和镁盐来促进细胞对载体的粘附。因此,该脱离缓冲液适当地不含有促进细胞粘附的任何组分,并且例如适当地避免碱土金属盐诸如钙盐和镁盐。原则上,通过多种熟知的酶促手段使细胞从它们所粘附的载体脱离。最常见的脱离手段是使用蛋白水解降解,最典型地采用半胱氨酸或丝氨酸内肽酶(诸如胰蛋白酶),而且可使用木瓜蛋白酶、猕猴桃蛋白酶、菠萝蛋白酶或无花果蛋白酶。按以下方式来理解如在此使用的术语“细胞应激条件”。当细胞处于应激(例如来自氧化、加热、感染、有毒污染或任何其他应激条件)下时,它们可以有多种反应。在这些反应中有些是一般的;其他是特异于应激诱导剂的。生理学或非生理学(例如物理)应激源将以不同方式导致细胞对应激作出反应。针对应激明确确定的标志包括(i)上调热激蛋白(诸如hsp70或hsp90),(ii)激活应激诱导的激酶(诸如sapk、chk1或chk2),(iii)激活半胱天冬蛋白酶(诸如casp3或casp7),(iv)上调hif-1和响应于低氧的其他低氧诱导因子,(v)激活在内质网处响应于细胞应激的未折叠蛋白反应,(vi)响应于高细胞密度的临时细胞周期阻滞。如在此描述的此类细胞应激条件将增强单倍体基因组的自发二倍化。当粘附在固体表面上时或在脱离后,在细胞重新粘附到固体表面以进一步培养细胞前,可采用这些应激条件来培养粘附细胞。在脱离后适合应用剪切,将毒素处理有利地用于粘附细胞。如在此使用的术语“细胞修复机制”被具体地理解成用于检测和修复不可以对dna发生的不同类型损伤的机制。具体的dna损伤是单链或双链断裂,这可能是高度有害的可能导致基因组序列的损失或重排。通过非同源末端连接(nhej)或同源重组修复(hr)来修复双链断裂。在nhej中,额外的误差可以在这个过程中被引入,从而导致接近dna断裂的特异性突变。因此,由于nhej依赖于有待连接的两个dna片段的单链尾部之间的机会配对(称为微同源性),因此它被认为是固有的诱变。hr是一种使用dna模板用于修正的修复过程。hr比nhej更加精密,但效率较低。如果适合的外源性dna模板被提供给细胞,那么hr提供在特定的goi中工程化突变的可能性。如在此使用的术语“表达”应当是指基于能够指导转录的核酸分子来产生rna和/或蛋白质、多肽或肽。表达可以是暂时的或可以是稳定的。在本发明的上下文中,术语“转录”涉及一个过程,其中一个dna序列中的遗传密码被转录成rna。“表达构建体”或“载体”或“质粒”是指在可操作键联中含有希望的核苷酸序列和控制序列的核酸分子,以使得用这些序列转化或转染的宿主能够产生编码分子。为了实现转化,表达系统可被包括在一个载体中;然而,相关dna也可被整合到宿主染色体中。如果被设计用于转化人类细胞,那么表达质粒在此被称为“人类表达质粒”。根据本发明,可通过以下来提供具体用于rna引导系统中的rna:体外转录,其中rna是优选地使用适当的细胞提取物或化学合成在无细胞系统中体外合成的;或体内转录,其中rna是在基于细胞的系统中体内合成的,特别地包括采用在人类体外环境中的细胞的离体产生。优选地,表达质粒被用于生成通过转录适当的dna模板而获得的转录物,这些质粒在此被特定地理解成克隆载体。确切地说,用于本发明目的所采用的表达质粒可用于短暂表达grna或grna的任何tracrrna和crrna组件。如在此使用的术语“质粒”是指一种包含有待递送至宿主细胞(体外或体内)的多核苷酸的大分子或分子复合物。质粒典型地被理解成一种常见类型的载体,是一种与染色体dna分开的染色体外dna分子,该染色体外dna分子能够独立于染色体dna进行复制。在某些情况下,它是环形的和双链的。因此,一个质粒确切地包括自主复制的核苷酸序列以及整合核苷酸序列的基因组。表达质粒通常包含一个起点,用于在宿主细胞、选择标志(例如,一种氨基酸合成基因或一种授予对抗生素(诸如杀稻瘟菌素、博莱霉素、卡那霉素、g418或潮霉素)耐药性的基因)、多个限制性内切酶裂解位点、适合的启动子序列以及转录终止子中自主复制,这些组件被可操作地联接在一起。用于控制转录的启动子可以是用于任何rna聚合酶的任何启动子。如果离体发生转录,那么典型地结合其同源启动子使用噬菌体来源的t7、t3和sp6rna聚合酶。如果转录意味着在人类细胞中发生,那么典型地使用衍生自人类u6snrna基因座的u6启动子,从而经由人类rna聚合酶iii来驱动该转录。用于转录的dna模板可通过采用适当启动子用于转录来克隆核酸并且将其引入用于递送的载体而获得。dna可通过逆转录rna而获得。如在此使用的术语“rna”包括双链rna、单链rna、分离的rna(诸如部分或完全纯化的rna)、基本上纯的rna、合成dna以及重组生成的rna(诸如功能上相同或相似,但通过添加、缺失、取代和/或改变一个或多个核苷酸而不同于天然存在的rna的修饰rna)。此类改变可以包括诸如向rna的一个或多个末端或在内部(例如在rna的一个或多个核苷酸处)添加非核苷酸材料。rna分子中的核苷酸还可以包括不标准的核苷酸,诸如非天然存在的核苷酸或化学合成核苷酸或脱氧核苷酸。这些改变的rna可以被称为天然存在的rna的类似物。按以下方式来理解术语“引导rna”、“tracrrna”和“crrna”。引导rna(grna,也称为嵌合引导rna)是一种包含tracrrna的嵌合rna分子,该引导rna(与crrna的恒定部分一起)特异性地确定对于向匹配的rna引导内切核酸酶提供共底物来说是必要的grna的结构,该结构也称为嵌合引导rna支架,被理解成一种与由grna引导的内切核酸酶形成功能对的恒定rna序列。crrna包括能够与tracrrna相互作用或联接到tracrrna上的一个恒定部分,以及主要由与人类基因组中dna靶位点互补的短寡核苷酸序列组成的一个可变部分(也称为寡rna)。crrna的恒定部分典型地位于分子的3’部分处,而可变部分典型地位于分子的5’末端处。tracrrna和crrna可通过杂交部分直接结合,或通过接头序列连接。grna形成共底物以将rna引导内切核酸酶活性指导至其中grna(通过其crrna组件)与靶杂交的基因组靶位点。因此,crrna被理解成含有以互补序列(允许gu以及gc碱基对)的形式编码基因组编辑信息的部分,并且rna引导dna内切核酸酶被理解成在特定位点处裂解靶dna的核酸酶。例如,cas9与嵌合grna在人类细胞中组装并且可以诱导形成dna断裂,例如在与基因组dna中的grna序列互补的位点处的双链dna断裂。这种裂解活性需要cas9和通过可变crrna部分互补结合引导rna两者。因此,如在此描述的grna典型地是非编码rna,特异性地与dna靶位点杂交,并且使rna引导内切核酸酶指导至dna靶位点,以便在杂交区域内诱导dna断裂。此系统通过重新编程crispr-cas系统以在人类细胞中实现rna引导基因组工程化来提供用于细胞水平的人类基因组工程化的无价工具。匹配的rna引导内切核酸酶和tracrrna或grna或grna的恒定部分的组在此被理解成一种功能对,该功能对可与一个或多个可变部分(即,与一个或多个crrna或crrna可变部分,例如20b、22b、24b或26brna型寡核苷酸)一起使用,以便靶向一个或多个预先确定的、随机或不同的人类基因组靶位点。例如,cas内切核酸酶(例如ii型)和一种匹配tracrrna的组用于通过其可变crrna寡核苷酸序列来干涉具有靶核酸序列的crrna(例如采用一个接头缀合到tracrrna的5’末端的寡核苷酸)。在crrna与互补靶位点杂交后发生靶向。示例性的tracrrna和内切核酸酶的功能对或grna和内切核酸酶的功能对在图1至图4中示出。特异性grna变体在图5中示出。内切核酸酶、tracrrna或grna的功能性变体是可行的。具体地说,grna变体可包含例如在20、或15、或10、或6个末端碱基区域内的可变3’末端,诸如3’末端rna序列中任何碱基的截断、伸长和/或点突变。rna引导内切核酸酶的功能性变体确切地是具有如从细菌来源获得或来源于细菌起源的氨基酸序列的相同类型或子类型的那些变体,包括包含相同或突变序列,例如针对野生型序列包含一个或多个突变和特定序列一致性的人工或重组酶cas内切核酸酶的功能性变体可以是cas9切口酶,在此被理解成一种包含特异性点突变的cas9突变体,例如交换导致具有核酸酶活性的一个结构域失活并且将cas9转变成“切口酶”酶(在靶位点处产生单链断裂而不是双链断裂)的一个或多个单个(非邻接)氨基酸。这种切口酶同样可用于双链dna断裂,例如当与成对的引导rna一起使用以便引入靶向的双链断裂时。野生型酶和序列的实例提供在图1至图4中。亲本cas9酶序列可以是由化脓链球菌、嗜热链球菌、脑膜炎奈瑟氏球菌或齿垢密螺旋体的细菌cas9的对应编码dna序列或氨基酸序列(例如包含或由任何seqid1、6、7、8、9、10、15、16、21、22或24氨基酸序列组成)而获得。亲本酶的功能性变体可以例如是类似物,诸如由其他物种(例如具有与亲本内切核酸酶相同的属或科的其他细菌物种)获得的野生型序列;或类似物的突变野生型序列。当使用内切核酸酶的类似物时,具体地具有相同物种或相同科的类似的tracrrna或grna序列可用于形成一种例如组件是天然成对的功能对。野生型tracrrna或grna序列(特别是grna或tracrrna的恒定部分,在此被理解成用于赋予一种特定的共底物结构,因此被称为grna的结构部分)可用于与内切核酸酶的功能性变体形成功能对。可替代地,可使用tracrrna或grna(特别是grna的恒定部分)的功能性变体,例如这些功能性变体通过诱变用作亲本序列的野生型序列而获得。rna(诸如grna或grna的组件)的功能活性变体(例如本发明的tracrrna)特定地被理解成涵盖一种形成对于匹配rna引导内切核酸酶的功能共底物的核苷酸序列和/或任何功能活性大小变体,包括野生型rna的截短形式或片段、突变体或杂合核酸序列。如在此描述的rna分子的功能性变体可以例如通过亲本(野生型)rna的核苷酸序列中的一个或多个突变获得,其中突变rna仍然是功能性的并且在严格条件下与互补于亲本ran的链杂交。应当理解,如在此使用的关于rna序列或rna序列的一部分的术语“恒定”应当是指通过特定物种的细菌起源的序列确定的rna序列,该rna序列独立于与靶dna杂交的寡核苷酸(作为crrna的一部分)的可变性。这种恒定rna分子或grna的一部分对于一个特定物种的所有细胞典型地具有相同或相似结构,并且提供与相同物种的rna引导内切核酸酶相互作用由此形成功能对,该功能对独立于基因组靶位点的类型和起源。应当很好地理解,此类恒定分子或这些分子的一部分可仍然随着物种的改变而改变,或被用作亲本分子以产生可用作功能性变体的突变体。如在此描述的crrna的“可变”部分可被理解成与靶dna的特定部分杂交因此与任何特异位点互补的部分。因为人类基因组靶位点位于整个人类基因组,所以多个寡核苷酸可用于使用预先确定的靶位点或随机地靶向人类基因组而使crrna或grna与靶位点杂交。因此,根据特异性杂交靶,这个部分被认为是可变的。当一个亲本序列被用作模板或例如通过诱变或指导工程化,诸如通过工程化片段或末端延伸和/或通过一个或多个点突变而突变时,crrna或grna的功能性变体或grna的恒定部分是可行的。亲本野生型tracrrna序列或grna的恒定部分可以例如包含图1至图5的任何序列,这些序列表示为grna或grna的恒定部分(即,不包括crrna可变部分的grna(可包括或可不包括接头序列)),特别是seqid3、seqid13、seqid19以及seqid24-47中任一个的tracrrna和crrna或grna的恒定部分。rna可包含特异性修饰。例如,用于本发明的rna的进一步修饰可以是延伸或截断天然存在的poly(a)尾部或改变5’-非翻译区或3’-非翻译区(utr)。如在此使用的核苷酸或氨基酸序列的“功能活性变体”或“功能性变体”特定地意指一种突变体序列,该突变体序列例如通过插入、缺失或取代序列内或在序列的任一个或两个远端处的一个或多个核苷酸或氨基酸而由亲本序列的修饰得到,并且这种修饰不影响(特别是损害)这个序列的活性。确切地说,序列的功能活性变体具有与亲本序列基本上相同的活性并且选自下组,该组由以下各项组成:-具有与亲本序列至少约60%核苷酸序列一致性,优选至少70%、至少80%,或至少90%同源性或序列一致性程度的同源物;和/或-通过修饰亲本序列、或用作模板以例如通过插入、缺失或取代序列内或序列的任一个或两个远端处的一个或多个核苷酸而提供突变的大小变体的序列可获得的同源物;-通过亲本序列的延伸和/或片段化例如长度的+/-50%或+/-25%或+/-10%,衍生自如在此描述的亲本或野生型序列的序列变体;或-衍生自除化脓链球菌、嗜热链球菌、脑膜炎奈瑟氏球菌或齿垢密螺旋体之外物种的类似物。如在此描述的功能活性变体还被理解成涵盖两个或更多个亲本序列的杂交体或嵌合体,例如由鉴定为具有功能活性的亲本序列的序列组合产生。适合的变体具有“基本上相同的活性”,该术语在此特定地被理解成是指如通过引导dna断裂和/或诱变的基本上相同或改进的效率(如通过dna断裂和/或重组的成功率所确定)所表示的活性,例如+/-50%或+/-25%或+/-10%。具有“基本上相同基因表达谱”的功能性变体的特征在于每个基因的相同或相似的表达。术语“功能性变体”相对于细胞系被特定地理解成不同于亲本(或可比较的)克隆的一种克隆。可例如通过分开或并行工程化措施独立地产生这种功能性变体,并且因此被称为独立的功能性变体。功能性变体同样可以是亲本克隆的亚克隆。hap2克隆的功能性变体(诸如在此所指的保藏材料)的具体特征在于是完全单倍体的全套人类染色体,并且另外的特征在于稳定的单倍体核型。hap2克隆的优选功能性变体具有例如通过许多单个基因的基因表达水平所确定的相同或相似的基因表达谱。确切地说,本发明涉及保藏在dsmacc3220下的hap2细胞系,或其优选地具有相似的基因表达谱的功能性变体。确切地说,功能性变体的特征在于基本上相同的基因表达谱,即,功能性变体包含人类基因组,其中基因的表达水平基本上相同,例如少于1000个基因、优选少于750或少于500或少于300个基因的基因表达水平会有所不同。例如,独立产生的克隆可具有基本上相同的基因表达谱,该基因表达谱仅相对于少于500个基因有所不同。例如,如在此进一步描述的独立产生的克隆a11和e9具有基本上相同的基因表达谱,该基因表达谱仅相对于284个基因有所不同。相比之下,如果两个细胞系在大约3,000个人类基因的表达水平上有所不同,那么这两个细胞系可以不被认为是hap2细胞系诸如kbm-7的功能等效物。相对于单个克隆中的一种基因的表达水平一致性在此被理解成针对单个基因的相同或相似水平的基因表达(例如,+/-2倍差异)。因此,如果所述基因的表达水平至少2倍高(≥200%)或小于一半(<50%),那么表达水平针对单个基因被认为是不同的。这被理解成2的保守截留值,以便当与参考克隆比较时确定相同或相似水平的基因表达。不太保守的截留值是3、或4、或5,即表示3倍差异、或4倍差异、或5倍差异。因此,如果所述基因的表达水平至少3倍高(≥300%)或小于三分之一(<33%);或至少4倍高(≥400%)或小于四分之一(<25%);或至少5倍高(≥500%)或小于五分之一(<20%),那么表达水平针对单个基因被认为是不同的。如在此使用的术语“目标基因组位点”或“goi”应当是指一种是任何细胞内源性核酸序列的目标遗传序列,例如像一种在基因内或与其相邻的基因或非编码序列,其中通过靶向诱变和/或靶向同源重组来修饰是希望的。goi可以存在于染色体、游离体、细胞器基因组(诸如线粒体基因组)中。goi可以在基因的编码序列内、在转录的非编码序列(例如像启动子或前导序列或外显子)内、或在非转录序列内,或在编码序列的上游或下游。术语“同源物”或“同源性”表示两个或更多个核苷酸或氨基酸序列在对应位置处具有相同或保守的对(在一定程度上,高达接近100%的程度)。功能活性变体的同源序列典型地具有至少约60%核苷酸或氨基酸序列一致性、优选至少约70%一致性、更优选至少约80%一致性、更优选至少约90%一致性、更优选至少约95%一致性、更优选至少约98%或99%一致性。术语“同源的”还可包括类似的序列。如在此使用的术语“同源模板”是指与goi至少部分杂交并且可用作供体以引入特异性插入或通过同源重组或同源性指导修复来交换goi内的一个或多个核苷酸的dna或dna序列或片段。同源重组典型地涉及双链断裂修复,该双链断裂修复可促进内源性遗传序列(即,最初存在于细胞内的goi)与用作供体的同源模板之间的遗传信息交换。根据供体的设计,可以一种合理、精确和高效的方式将存在于goi上的编码区或非编码区敲入(如在此进一步描述)。该过程需要存在于供体上的一个序列(被称为同源或重组序列)与内源性靶goi之间的序列同源性。优选地,使用与内源性goi具有一致性的两个侧翼序列来执行同源重组以便产生更精确的整合。特异性同源模板包括与单链寡核苷酸的至少一个部分互补的重组序列,这样两个单链寡核苷酸可部分地杂交在一起。单链寡核苷酸的互补序列可以是在反应条件下支持两个单链寡核苷酸之间的特定和稳定杂交的任何长度。重组序列通常认可同源模板与goi之间在至少10bp、优选至少20bp上的至少部分双链重叠。相对于核苷酸或氨基酸序列,“一致性百分比(%)”被定义为(如果必要的话)在比对序列并且引入缺口以实现最大%序列一致性并且不考虑任何保守取代作为序列一致性的一部分之后,在与肽/多肽/蛋白序列中的dna序列或氨基酸的核苷酸一致的候选dna序列中的核苷酸百分比。可以本领域技术范围内的不同方式,例如使用公开可得的计算机软件来实现出于确定核苷酸序列一致性%目的的比对。本领域的技术人员可以确定用于测量比对的适当参数,包括需要在被比较序列的全长范围实现最大比对的任何算法。如在此描述的亲本序列的功能活性变体可确切地通过诱变方法获得。如在本发明的上下文中使用的术语“诱变”应当是指一种提供序列突变体的方法,该方法例如通过插入、缺失和/或取代一个或多个核苷酸或氨基酸,从而获得其变体。诱变可通过随机的、半随机的或定点突变。典型地,产生具有高基因多样性的大型随机化基因文库,这可根据特别需要的基因型或表型来选择。优选地,功能活性tracrrna包含或由具有至少50个碱基、确切地是至少60个碱基,典型地高达90或100个碱基的核苷酸序列组成。根据一个具体实例,截断的tracrrna典型地是约60个碱基、优选60-70个碱基(例如,66个碱基)的长度,全长tracrrna典型地是90个碱基的长度。根据本发明的tracrrna的优选功能活性变体中的一些是包括截短形式的tracrrna的大小变体或确切地片段,优选包括tracrrna分子的3’部分,例如包括核苷酸序列的截断5’部分的那些。例如一个衍生自示例性tracrrna核苷酸序列中的一个的核苷酸序列,该核苷酸序列具有特定长度和5’末端区域的插入或缺失,例如在5’末端处的核苷酸序列的伸长或截断,从而获得具有从3’末端至变化的5’末端范围内的特定长度,诸如具有至少50个碱基、优选至少60个碱基的核苷酸序列长度。本发明伸长的大小变体优选地在tracrrna序列的5’末端处包含额外的一个或多个核苷酸。优选地,功能活性crrna包含或由具有至少25个碱基,确切地是至少30个碱基,典型地高达70或80或90或100个碱基的核苷酸序列组成。根据一个具体实例,截断crrna典型地是约30个碱基、优选30-40个碱基,例如32个碱基的长度,全长crrna典型地是50-60个碱基,例如55个碱基的长度。根据本发明crrna的优选功能活性变体中的一些是包括截短形式的crrna的大小变体或确切地片段,优选包括crrna分子的5’部分,例如包括核苷酸序列的截断3’部分的那些。例如一个衍生自示例性crrna核苷酸序列中的一个的核苷酸序列,该核苷酸序列具有特定长度和3’末端区域的插入或缺失,例如在3’末端处的核苷酸序列的伸长或截断,从而获得具有从5’末端至变化的3’末端范围内的特定长度,诸如具有至少25个碱基、优选至少30个碱基的核苷酸序列长度。本发明伸长的大小变体优选地在crrna序列的3’末端处包含额外的一个或多个核苷酸。功能活性tracrrna变体可仍然包括一个与crrna的恒定部分相互作用互补的区域。从另一方面来说,功能活性crrna变体可仍然包括一个与trcrrna相互作用互补的区域。典型地,crrna的3’部分或crrna的功能性变体通过一个互补区域与tracrrna的5’部分(具有或不具有接头)相互作用。因此优选的是,tracrrna和crrna的功能性变体仍然包括一个特定地位于tracrrna的5’部分和crrna的3’部分中的至少5bp、优选至少10bp的互补区域。优选地,功能活性rna引导内切核酸酶包含或由具有500至3000个氨基酸、优选至少1000个氨基酸的氨基酸序列组成。如根据本发明所用的内切核酸酶的优选功能活性变体中的一些是亲本酶的大小变体或确切地片段,特别是其中功能活性变体仍然包含包括一个ruvci结构域(含有催化asp残基)和一个hnh结构域(含有催化his残基)的酶的活性位点。如出于本发明的目的所述的crrna的功能活性变体(特别是crrna的可变部分)或寡核苷酸不需要与其有待特异性杂交的靶序列100%互补。当寡核苷酸与靶dna分子的结合干扰了靶dna的正常功能时,寡核苷酸被特异性杂交,并且存在足够程度的互补性以避免在其中特异性结合被希望的条件下(例如在体内测定或系统的情况下的生理条件下)寡核苷酸与非靶序列的非特异性结合。这种结合被称为特异性杂交,例如在严格条件下的杂交。典型地dna靶位点的特征在于一种原型间隔区相关基序(pam),该原型间隔区相关基序是一种位于邻近人类dna序列中靶位点的短dna识别位点并且限定rna杂交和dna断裂的位点。典型地,rna杂交是这样的,crrna与pam基序上游的dna序列(例如连接至基序的5’末端的dna序列)杂交。然后在杂交区域内催化dna断裂,例如接近pam基序的dna断裂,大部分情况下最接近基序的5’末端,诸如在pam基序上游的10个位置之内、或在5个位置之内或位置处或在3个位置之内或位置处。dna断裂后,细胞修复机制在结合或不结合突变的情况下提供重新连接dna末端,典型地接近dna断裂,例如最接近dna断裂的5’末端或3’末端,诸如在dna断裂的上游或下游的20个位置之内、或10个位置之内、或5个位置之内或3位置之内。目标特异性基因组靶位点可在人类染色体基因组的任何位置处被随机选择、或预先确定且选择,其中dna裂解(单链或双链dna断裂)以及任选的重组和/或突变是希望的,并且其中pam基序是存在的并且已被引入,该目标特异性基因组靶位点包括在编码和非编码序列内的靶位点。一个或多个核苷酸的小的(随机的)插入或缺失是希望的,例如以便产生移码突变。具体地说,此类缺失或插入或移码突变提供敲除突变,这些敲除突变被理解成涵盖在指导基因功能,例如导致如在蛋白水平或不同表型方面评估的不同基因表达,例如导致一个基因功能的重大损失(部分敲除)或基因的完全敲除的基因序列或调节序列中的任何突变。与没有敲除突变的亲本或参考(例如等基因的)细胞相比,基因的重大功能损失确切地提供小于10%、优选小于5%或不可检测基因表达或功能的基因表达水平或基因功能。特定的突变导致不同的基因表达或不同的表型。此外,可交换并且标志位点引入包含一系列基因的外显子或基因或染色体部分,例如限制位点或标记。因此,使用grna,cas9可被引导来在由引导rna序列限定并且包括一个pam基序的任何位点处裂解dna。可针对人类细胞的细胞核来表达并且定位cas9,例如采用一个或更多个额外的核定位信号(nls),例如优选位于cas9氨基酸序列的n-末端或c-末端延伸内的至少1、2、3、4或5个nls重复。例如nls可以是一种具有3至15个氨基酸,例如5至10个,诸如7个氨基酸的短肽序列,该短肽序列有助于rna引导内切核酸酶与grna的复合物主动穿过核孔。可发现并且衍生自sv40大t抗原或核浆示例性nls序列的推定nls序列是例如pkkkrkv(seqid6,来自sv40大t抗原)、krpaatkkagqakkkk(seqid49,来自核浆)、paakrvkld(seqid50,来自c-myc)、pprkkrtvv(seqid51,来自hcvns5a)或prppkmarydn(seqid52,来自人类rna解旋酶a)。rna表达系统常见地用于将rna分子递送至可采用的细胞。根据一个具体实施例,内切核酸酶与被设计成靶向一个特定人类编码或非编码序列(例如一个人类基因)以便损伤或敲除基因功能的tracrrna和/或crrna和/或grna一起共表达。适合的dna可用于一个表达构建体以表达tracrrna和/或crrna和/或grna、或tracrrna或grna或grna的恒定部分与rna引导内切核酸酶的功能对。因此,进一步提供这种dna:该dna是例如包含编码tracrrna和/或crrna和/或grna和/或grna的恒定部分的序列的模板dna,并且任选地编码rna引导内切核酸酶的dna,这种dna特异性可操作地联接到调节序列上以在体内或体外表达此类分子。一种或多种rna可以离体合成(例如,体外转录的rna或合成rna),并且通过适合的方式递送至(例如(共)转染到)细胞内。可通过包括例如电穿孔、微注射、脂质体融合、脂质转染的本领域已知的多种手段来实现转染rna或编码这种rna的dna。根据一个具体方面,转化或转染的细胞暂时地表达插入dna或rna持续有限的时间段。例如,外源dna或rna持续存在于细胞的细胞核中若干天。转染可同样是稳定的以便产生稳定转染子,例如将外源dna或rna引入并且任选地整合到转染细胞中。同样地,内切核酸酶可通过由编码内切核酸酶的dna(特别是密码子优化的dna)转化的细胞,或从细胞分离来产生,并且通过适合的方式(包括电穿孔)递送至细胞。例如,内切核酸酶可被融合至能够实现质膜外显的肽序列(诸如衍生自hiv-1tat的阳离子肽或衍生自触角同源结构域的肽),由此能够实现纯化的蛋白质直接应用到细胞。如相对于核酸在此使用的术语“分离(isolated)”或“分离(isolation)”(例如分离的grna和grna分离的恒定部分、分离的tracrrna或crrna,或分离的蛋白质(例如分离的rna引导内切核酸酶),或分离的功能对(诸如与rna引导内切核酸酶相关或结合的grna或tracrrna的分离对或复合物))应当是指已从它将自然地与之相关联的环境中充分分离从而以“基本上纯的”形式存在的这种化合物。“分离”并不一定意味着排除具有其他化合物或材料的人工或合成混合物,或存在不干扰基本活性的杂质,并且这些杂质例如由于不完全纯化而可能存在。具体地说,本发明的分离的核酸分子还意味着包括化学合成的那些核酸分子。本发明的核酸特定地被提供为“分离的核酸”或“分离的核酸序列”。当应用于rna或dna时,该术语是指一种从与它在天然存在的生物体中紧紧邻接的序列中分离的分子。例如,“分离的核酸”可包含插入一个载体(诸如一个质粒)内的dna分子,从而表达由这种dna编码的对应grna。“分离的核酸”(或dna或rna)可进一步表示由生物或合成方式直接产生并且从其产生过程中存在的其他组分中分离的分子。分离的rna引导内切核酸酶典型地被提供为一种从天然来源(例如细菌细胞培养物)中分离的分子,或被提供为一种从重组宿主细胞培养物获得的重组分子,或被提供为一种通过适合的合成方法获得的人工产物。这种分离典型地涉及适合的纯化方法,例如以便获得至少80%、优选至少90%或至少95%,高达100%(w/w)的纯度。如相对于细胞或克隆在此使用的术语“分离”(例如,通过有限稀释任选地随后通过培养单个细胞以使克隆(单个细胞克隆)生长来分离)应当是指已从它将自然地与之相关联的环境中充分分离从而以“基本上纯的”形式存在的这种细胞或克隆。该分离的克隆将不包含不同克隆(例如衍生自具有不同基因组特性的分离的细胞)的活细胞。典型地,不同克隆或亚克隆的差别在于至少一个基因组突变或snp,因此,通过基因组分析可以区别于相同克隆或亚克隆的细胞。“分离”并不一定意味着排除具有其他克隆或材料的人工或合成混合物,或存在杂质(特别是除活细胞之外的细胞组分),这些杂质不干扰基本活性并且例如由于不完全分离而可能存在。如在此使用的术语“二倍体”特定地应当是指包含其中细胞针对一个或多个特定的或预先确定的基因组基因座(例如大部分基因座或甚至全基因组)来说是二体或二倍体的基因组的细胞或细胞系。如在此描述的特异性二倍体细胞系包含两组姐妹染色体,这两组姐妹染色体是至少部分复制的,或(近)完全复制的,并且被理解处成含有由单个染色体的无性复制形成的两个拷贝(染色单体),其中两个拷贝存在于一个细胞中。因此一个姐妹染色体被理解成复制染色体的一半。该组姐妹染色体特定地包含同源染色体,这些同源染色体是至少基本上一致的(近二倍体)或一致的(二倍体)。由于姐妹染色体仅源自一个亲本单倍体细胞,因此具有基本上相同基因序列的染色体对的特征在于基本上相同的核苷酸序列。术语“基本上一致的染色体”或“基本上相同的核苷酸序列”相对于复制染色体被特定理解,诸如以便获得如在此进一步描述的近二倍体细胞。在如在此进一步描述的单倍体细胞的二倍化过程中创建姐妹染色体的复制组。术语“二倍体”特定地包括近二倍体细胞和完全二倍体细胞。按以下方式来理解如在此使用的术语“近二倍体”。近二倍体细胞是一种其中不多于5个染色体存在于一个拷贝或多于两个拷贝,例如四个拷贝(针对特定基因组基因座的四倍体)中的细胞。在一些实施例中,近二倍体人类细胞具有不多于1、2、3、或4个存在于多于两个拷贝中的染色体。近二倍体细胞可以是在培养物中维持其状态若干个月的基因组稳定的。示例性近二倍体人类体细胞是一种染色体稳定的结肠癌细胞系hct116[20],或一种通过在此描述的方法(例如在二倍化近单倍体细胞系hap1细胞系后)获得的粘附细胞系,也是一种通过工程化kbm-7细胞系而获得的粘附细胞系,该粘附细胞系已失去8号染色体的第二拷贝并且因此与其kbm-7亲本相比“更加单倍体”,但仍然保留15号染色体的一部分并且因此可不被认为是完全单倍体。近单倍体细胞系的二倍化将得到如在此描述的近二倍体细胞系,该近二倍体细胞系例如仅含有一对四倍体基因组基因座。近二倍体体细胞人类细胞系的一个具体实例是细胞系c665,该细胞系通过根据如在此进一步描述的方法二倍化hap1而获得。如在此使用的术语“完全二倍体”特定地应当是指一种包含含有在单体状态中的人类染色体或姐妹染色体的基因组的细胞或细胞系。确切地说,由于姐妹染色体源自仅一个亲本单倍体细胞,因此染色体对是一致的,特征在于相同的基因序列,或特征在于相同的核苷酸序列。完全二倍体细胞例如特征在于缺乏全套的杂合snp的姐妹染色体。如在此使用的术语“单倍体”特定地应当是指一种包含其中细胞是完全单倍体的基因组的细胞或细胞系,该细胞或细胞系包含在单染色体状态中的人类染色体。可通过已知的方法来确定或测试单倍性,例如光谱核型分析、比较基因组杂交或比较碘化丙啶染色。按以下方式来理解如在此使用的术语“近单倍体”。近单倍体细胞是一种其中不多于5个染色体存在于两个或更多个拷贝中的细胞。在一些实施例中,近单倍体人类细胞具有不多于1、2、3、或4个存在于两个或更多个拷贝中的染色体。近单倍体细胞被发现在培养物中维持其状态若干个月。对于除8号染色体以及任选地15号染色体的一部分之外的大部分染色体,示例性近单倍体人类体细胞是一种单倍体,例如,一种是非粘附细胞系的kbm-7细胞系的细胞(wo2011/006145a2)。近单倍体细胞系的另一个实例是hap1细胞系[6],这是一种通过工程化kbm-7细胞系而获得的粘附细胞系,该粘附细胞系已失去8号染色体的第二拷贝并且因此与其kbm-7亲本相比“更加单倍体”,但仍然保留15号染色体的一部分并且因此可不被认为是完全单倍体。另外的近单倍体细胞系(特别是粘附细胞)可来源于癌症患者,特别是患有诸如周围性软骨肉瘤的实体瘤(导致细胞的二倍性减小)的患者。在一些情况下,其他粘附近单倍体细胞系可来源于患有白血病诸如慢性骨髓性白血病或急性成淋巴细胞性白血病的患者。完全单倍体细胞人类细胞系的一个具体实例是hap2细胞系,该细胞系由通过切除在hap1细胞系中保留其二倍性的15号染色体的部分来工程化hap1细胞而获得,因此,被认为是真正或完全单倍体。已经证明,hap2细胞系包含在单体状态中的全套人类染色体。hap2细胞系被保藏为dsmacc3220。单倍体或二倍体后代可通过亚克隆亲本细胞系并且分别挑取单倍体和二倍体亚克隆来得到。优选地,如在此描述的细胞系显示在至少10代、优选至少15代或至少20代中的基因组稳定性,例如,同时避免细胞应激条件。可通过碘化丙啶染色(总dna含量)或通过光谱核型分析(单个染色体分辨率)来评估遗传稳定性。如在本发明中所使用,术语“杂交(hybridization)”或“杂交(hybridizing)”意思是指在其过程中两个核酸序列在适当的条件下以稳定且特定的氢键相互退火从而形成双链的过程。两个互补序列或充分互补序列之间的杂交取决于所使用的操作条件,并且特别是严格性。该严格性可被理解成表示同源性的程度;严格性越高,序列之间的同源性%越高。严格性可具体地通过两个核酸序列的碱基组成,和/或通过这两个核酸序列之间的错配程度来限定。通过改变这些条件,例如盐浓度和温度,一个给定核序列可被允许仅与其准确补体(高严格性)或与任何一定程度上相关的序列(低严格性)杂交。增大温度或减小盐浓度可趋于增大杂交反应的选择性。如在本发明中所使用,短语“在严格杂交条件下杂交”优选地被理解成是指在具有某种严格性的条件下杂交。在一个优选的实施例中,如在此描述的crrna在“严格的杂交条件”下被杂交至基因组靶位点,其中两个核酸序列的同源性是至少70%、优选至少80%、优选至少90%,即在其中如果在此杂交过程中获得的双链包含优选至少70%、优选至少80%、优选至少90%的a-t或a-u键和c-g键则杂交才可能的条件下。严格性可取决于反应参数,诸如存在于杂交溶液中的离子物质的浓度和类型、变性剂的性质和浓度和/或杂交温度。可通过本领域技术人员来确定适当的条件,例如,如萨姆布鲁克(sambrook)等人(分子克隆:实验手册,冷泉港实验室,1989(molecularcloning:alaboratorymanual,coldspringharbor,1989))中所描述的。术语“核型稳定”或“稳定的核型”相对于细胞在此被理解成一种基因组稳定的细胞,该细胞针对特定基因组基因座不显著改变其核型,持续长时间时段或多个传代。短期和长期基因组稳定性是一个稳定细胞系的质量判据,这可通过常规方法来分析。如果全套人类染色体的单倍体或二倍体核型已在细胞培养物中的多于90%的细胞中证明,则特别地确定核型稳定性。此类细胞将基本上不包含多于单染色体dna含量(在单倍体细胞的情况下),或多于二体dna含量(在二倍体细胞的情况下)。基因组或核型稳定性是本发明细胞系的特别特征,该特征可用于工程化一系列差别在于仅在预定义位置处的基因或基因表达的等基因突变细胞系。例如相对于等基因细胞的突变细胞系、或相对于表达质粒的文库、或相对于寡核苷酸的文库如在此使用的术语“文库”被理解成一个库或多种文库成员,例如细胞系、表达质粒或寡核苷酸,这些文库成员区别于其他文库成员。如在此描述的细胞系的文库确切地包含菌株(例如,具有至少一个基因型和/或表型特征的人类细胞系)的文库。具体的文库成员可包含不同的基因组突变,诸如不同的敲除突变以产生多种基因型和任选地多种表型。优选的是,提供包含多种文库成员的文库,其中每个文库成员缺乏一个功能性orf或不同单个基因的编码序列。本发明的细胞系文库优选地包含至少50、或至少100、或至少300、或至少1.000或至少10.000个文库成员,这些文库成员的特征在于不同突变,例如敲除细胞基因组中的不同基因。如果突变体是通过诱变一个亲本细胞系产生的,则产生多种相同类型的该亲本细胞系的等基因细胞。每个文库成员可独立地通过选择性标志或条形码来表征和标记以便有助于在文库中选择文库成员。可替代地,通过适合的确定方法(例如采用与突变区域杂交的特异性探针)直接确定遗传突变,以便选择包含突变的细胞系。可能希望的是,将文库成员定位在分开的容器中,从而获得容器中的细胞集合的文库。根据一个具体实施例,在一个阵列(例如一种细胞芯片)中提供文库,其中该阵列在固体载体上包含一系列点,其中该系列点包括来自细胞集合的一种或多种细胞的悬浮液。同样地,细胞文库可被索引至核酸阵列。此类文库可用于选择特定的文库成员以便研究与一种预定义物质(例如一种化学或生物的诸如抑制剂或增强剂)的相互作用。这种文库的具体应用是(i)鉴别涉及不同生物过程(诸如病毒的生命期或响应于生长因子或细胞因子)的基因,(ii)确定抗体的特异性或(iii)使用突变细胞系用于产生一种生物(抗体、细胞因子)。如在本发明的上下文中使用的术语“诱变”应当是指一种提供序列突变体的方法,该方法例如通过插入、缺失和/或取代一个或多个核苷酸或氨基酸,从而获得其变体。诱变可通过随机的、半随机的或定点突变。一个具体应用可以是选择用于表达重组产物的适合的宿主细胞。细胞阵列可用于实现细胞表型的高度并行、高流量分析,这用于评估细胞生长和形态学、蛋白质表达水平以及组织成像的补充努力。根据一个具体实例,当仅存在每个基因的一个拷贝时执行有效的基因组编辑,由于目标基因以一半基因剂量存在,因此,至少2倍地更易于获得敲除。然而,因为对于基因失活来说使用单倍体人类细胞的益处甚至是更大的,通常旨在获得移码突变并且忽视不破坏阅读框的3/6/9碱基缺失/插入。获得移码突变的几率是对于不准确修复的每个裂解事件的2/3(66%)。因此在一个其中裂解在100%细胞中发生随后被错误修复的单倍体人类细胞系中,获得具有66%几率的移码等位基因。在一个其中两个等位基因以100%效率被裂解的二倍体细胞群体中,将获得最大具有大约44%几率(66%×66%)的移码等位基因。当然,当一种核酸酶以低于100%的效率诱导裂解时,生成2个移码等位基因的几率甚至更低,而使用单倍体细胞的优点甚至更大。此外,仅存在一个单个等位基因通过同源重组防止基因修复并且由此进一步增大获得移码等位基因的速率。在单倍体人类细胞中,每个基因仅存在于一个拷贝中。其结果是,可以例如通过pcr扩增并且随后桑格测序pcr产物来直接可视化突变。根据一个具体实例,使用一种其中正向引物被融合至m13位点的方案,该方案允许使用m13测序引物的基因测序方案。使用这种方案,可以看出,可简单地通过上述方法表征由编辑细胞获得的单个克隆。相比之下,来自用相同引导rna转导的二倍体细胞的色谱图显示不确定的测序痕迹。根据特定的实例,确认的是(i)在单倍体人类细胞中使用crispr导致更高的编辑效率;以及(ii)通过简单的pcr,结合桑格测序来表征编辑事件是可能的。另外,本发明提供通过二倍化如在此描述的单倍体细胞系可获得的体细胞人类二倍体细胞系。由于单倍体体细胞不天然存在,因此在这些细胞中得到的结果受到科学界的质疑。其结果是,单倍体细胞的二倍体衍生物被认为是有价值的资产。这在对基于pcr的诊断的基因组标准的领域中尤其如此,其中天然基因组内容和天然基因组拷贝数是质量控制的前提条件。作为一个实例,描述了一种允许将单倍体细胞“转变”成二倍体群体的方案。为此,将单倍体人类细胞用于基因组工程化以产生goi处的基因组突变(目标突变)。一旦通过pcr确认了突变,则将细胞暴露于应激。在细胞应激条件后,单倍体细胞增大其转变成二倍体细胞的天然倾向。然后通过有限稀释法来分离二倍体亚克隆并且通过碘化丙啶染色来控制质量。作为此过程的结果,产生一个二倍体人类细胞的同质群体,该同质群体对于目标突变是纯合的。这种二倍体细胞或细胞群体的商业应用是例如以下任一种:i)个体之间的遗传变异主要是由于单核苷酸多态性(snp)。因此,其中对于每个snp仅存在一个snp变体的细胞系可用于研究遗传变异(存在或不存在某些snp)对于不同细胞表型(例如,基因表达、dna损伤修复、细胞增殖、新陈代谢、组蛋白修饰)的影响。ii)特别容易受到snp影响的细胞表型或实验结果包括a.表观遗传学。表观遗传学是并非由dna序列导致的可遗传变化的研究。表观遗传调节潜在的机制包括组蛋白修饰(例如通过甲基化或乙酰化)和dna修饰(例如通过甲基化或羟甲基化)。此类修饰已显示在某种基因座的抑制或激活转录中发挥作用。b.增强子。增强子是人类基因组中调节某些基因或基因簇的表达的调节元件。iii)某些基因以亲本特异性表达模式来表达。这意味着,它们是有选择地由母本的或父本的基因拷贝来表达。具有两个一致的拷贝的细胞系可能表示一个有趣的模型系统,以便研究这一现象。iv)同源重组(hr)的效率高度依赖于snp的存在:如果一个给定目标区域显示许多杂合的snp,那么hr的效率显著下降。如果想要使用二倍体细胞系用于hr,因此优选的是使用其中两个基因拷贝完全一致的细胞系,并且因此hr具有更高的成功可能性。此外,此类二倍体细胞的一个关键优点是每个产生的克隆对于任何给定的目标突变均是纯合的并且将因此携带100%突变负荷,而二倍体细胞的诱变将时常产生杂合的细胞系(50%突变负荷)。这对于其表型不可在携带单个突变等位基因的二倍体细胞中被研究的隐性突变是特别有益的,因为该表型可通过第二(野生型)等位基因的存在来掩蔽。确切地说,本发明提供例如用于建立用于由体细胞或种系突变或snp导致的不同疾病的细胞疾病模型或诊断标准的无价工具。具体地说,可建立其中特定的染色体序列(例如外显子、基因、剪接受体、启动子、增强子)已缺失的细胞系。通过参考以下实例,可以对上述描述进行更全面的理解。然而,这种实例仅仅代表实施本发明的一个或多个实施例的方法,不应该被解读为限制本发明的范围。实例实例1:产生一种示例性完全单倍体人类细胞hap1衍生自近单倍体人类细胞系kbm-7。它们在重新编程过程中出乎意料地被获得(比较[6])。像kbm-7细胞,hap1细胞相当稳定地保持近单倍体状态。与kbm-7相对比,hap1细胞粘附到细胞培养瓶上并且hap1细胞仅具有8号染色体的单个拷贝。然而,像kbm-7细胞,hap1细胞对于染色体15:61,105,002-89,890,003的一部分是二倍体。kbm-7细胞的全基因组测序表明两个细胞系在该区域内是杂合的。kbm-7细胞的光谱核型分析(sky)揭示,chr15:61,105,002-89,890,003的第二拷贝被附接到19号染色体上(参见图6)。为了获得完全单倍体人类细胞系,我们使用最近公开的crispr/cas9系统来使chr15:61,105,002-89,890,003的第二拷贝缺失。cas9是一种可通过小rna指导以裂解人类细胞中特定的目标基因座的细菌核酸酶。令人惊奇的是,我们可以诱导是一个大型染色体区域的封闭区域的缺失。我们产生了两组两种引导rna,这些引导rna靶向15号染色体上的杂合/二倍体区域(61,105,002或89,890,003)的两个边界中的任一个:crispr区域序列(crrna,dna模板)c161,105,002ccaaggcaacgggactgtgc(seqid53)c261,105,002tcaggtctgatgcagatcgg(seqid54)c389,890,003cagccacatctaccgccatg(seqid55)c489,890,003gtacctcccgcttcaatgtc(seqid56)我们用cas9来共转染引导rna的组合以获得以下条件:在含有杀稻瘟菌素抗性基因的质粒的存在下进行共转染。使用20μg/ml杀稻瘟菌素来选择转染细胞持续24h。一旦转导细胞的抗池已扩展到相当大的数目,则提取dna并且经受t7内切核酸酶测定以评估在上述四个条件下在两个基因组基因座处的编辑。如图7所示,编辑在四个crispr靶位点中的三个(crisprc1、c3和c4)处发生。crisprc2不诱导任何基因组编辑。使用相同组的样品,我们分析chr15:61,105,002-89,890,003的缺失在转导细胞的池中是否可检测。为了该目的,我们使用两个引物对:虽然引物对2不显示任何特异性扩增,但引物对1在条件c1和c3下特异性扩大一个信号,该信号在包括亲本hap1细胞的任何其他条件下未检测出(图8)。基于此,我们决定通过有限稀释法将单细胞克隆从这个条件中分离。使用前面提到的“缺失pcr”(引物对1)来筛选大约200个克隆,我们分离出5个阳性的克隆,这表明缺失可能发生(图9)。根据它们原始的孔来命名这些克隆,并且包括克隆a11、a8、b11、f6以及h1。应注意,克隆h1在前面提到的pcr中显示若干个条带,这表明可能发生了一个更加复杂的编辑事件。接着,我们寻找杂合性的标志以评估我们的克隆中的杂合性丢失。为此,我们重新分析了我们来自kbm-7细胞的全基因组测序数据集并且鉴别接近杂合区域边界的两个snp。这些snp的基因组位置和用于通过pcr扩增每个snp的对应引物序列概述在以下表格中:将正向引物融合至一个m13测序引物结合位点(以粗体突出显示)以实现直接测序pcr产物。使用这些诊断pcr,我们证实了杂合性丢失已在克隆a11和克隆h1中发生(数据未示出)。其他克隆仍然是杂合的(并且因此是二倍体),这表明chr15:61,105,002-89,890,003片段在这些克隆中尚未缺失。接着我们证实,是否在克隆a11和h1中在chr15:61,105,002-89,890,003整个区域中检测到杂合性丢失。为此,我们研究被发现在亲本hap1细胞系中是杂合的五个snp:snppcr的结果如下:亲本hap1细胞针对在此检查的所有snp是杂合的。然而,引人注意的是,克隆a11在所有五个基因座处失去杂合性(图10),这表明编辑确实使整个chr15:61,105,002-89,890,003片段缺失。克隆h1显示出一个类似的杂合性丢失模式(数据未示出)。最终,我们评估克隆a11是否仍然是单倍体。原理是此实验是:hap1细胞就其单倍体核型而言与kbm-7细胞相比稳定性较差。如图11所示,如由在强度180/360处的两个峰表示的克隆a11仍然是完全单倍体。重要的是,两个参考细胞系(一个单倍体,一个二倍体)被列入该测量。相比之下,克隆h1被证明是二倍体并且因此被废弃。因此总的来说,前面提到的工作实现了生成衍生自hap1的人类细胞系,其中15号染色体的杂合部分已缺失。照实际情况来说,这种细胞系是第一个完全单倍体人类细胞系。实例2:产生来源于用cas9和引导rna独立转染的其他克隆摘要当第二基因拷贝的缺乏极大地促进基因失活时,近单倍体人类细胞系对于遗传筛选和基因组工程化来说是有帮助的。然而,尚未描述完整的单倍体人类细胞系,这阻碍了基因子集的遗传可及性。近单倍体人类细胞系hap1含有一个除15号染色体的杂合30兆碱基片段之外的所有染色体的单拷贝。这个大型片段包含330个基因并且被整合到19号染色体的长臂上。这里,我们采用一种基于crispr/cas9的基因组工程化策略来切除这个相当大的染色体片段并且有效地且可再现地获得保留其单倍体状态的克隆。重要的是,光谱核型分析和单核苷酸多态性(snp)基因型分析揭示了这些细胞是不具有由cas9诱导的总染色体畸变的完全单倍体。此外,亲本hap1和克隆a11和e9的全基因组序列和转录组分析显示,转录变化受限于被切除的15号染色体片段。总之,我们证实了用crispr/cas9技术来有效工程化兆碱基缺失的可行性并且报道了第一个完全单倍体人类细胞系。引言在脊椎动物中,单倍性(在一个单拷贝中存在基因组)天然地局限于配子阶段。然而,在实验上,单倍体体细胞可以衍生自包括青鳉、小鼠和大鼠的多个生物体。在人类中,近单倍体体细胞在包括白血病(oshimura等人1977[9];安德森等人1995[10](oshimuraetal.1977[9];anderssonetal.1995[10]))和软骨肉瘤(博韦(bovee)等人1999[19])的某些肿瘤中被发现。重要的是,近单倍体人类细胞系从慢性髓细胞样白血病患者分离并且稳定培养几个月(科特吉(kotecki)等人1999[1])。被称为kbm-7的这个细胞系,除8号染色体和15号染色体的一部分是二体的之外,含有大多数染色体的一个拷贝。kbm-7细胞的近单倍性被用于在人类细胞中执行功能筛选的大规模丧失(卡雷特(carette)等人2009[2])。已采用此类筛选来研究kbm-7细胞中在从宿主-病原体相互作用到信号传导范围内的多种过程以及药物作用机制。此外,kbm-7细胞被用于组装一个大型人类等基因细胞系的文库(burckstummer等人2013[4]),由此在人类细胞中实现正向和反向遗传学实验两者。kbm-7细胞可通过oct4、sox2、klf4和myc的过表达被重新编程为诱导性多能干细胞(卡雷特等人2010[5])。这些重新编程实验还产生一种称为hap1的具有成纤维细胞样形态学的近单倍体细胞系(卡雷特等人2011b[6])。与kbm-7细胞相对比,hap1细胞是粘附的并且缺乏8号染色体的第二拷贝。然而,由于hap1细胞保留15号染色体的一个片段的两个拷贝(这两个拷贝中的一个融合至19号染色体),因此hap1细胞不是完全单倍体。cas9是一种首次从酿脓链球菌分离的内切核酸酶。它可通过短引导rna(grna)来编程以便裂解互补于引导rna并且接着是原型间隔区相邻基序(pam;针对酿脓链球菌基因cas9的ngg)的任何基因组基因座(马里(mali)等人2013[12])。由cas9裂解基因组dna触发了内源性修复机制(诸如引起不精确修复断点的同源末端连接(nhej)),由此导致特定的目标基因座处的突变。cas9介导的基因组工程化已用于从酵母菌到人的多种生物体中(有关综述参见(马里等人2013[12]))。重要的是,cas9还被用于缺失目标基因座(箫(xiao)等人2013[13]),由此提供合成生物学的诱人前景。然而到目前为止,仅报道了千碱基大小的缺失,从而提出以下问题:是否可以足够高的效率来工程化更大的缺失以获得遗传修饰的克隆。在此手稿中,我们采用多用途的crispr/cas9系统来缺失存在于hap1细胞中的15号染色体的二体部分的一个拷贝。缺失的片段涵盖编码330个人类基因的3千万个碱基对,并且相当于15号染色体总大小的约三分之一。材料和方法在使用10%fcs增补的imdm中培养kbm-7细胞和hap1细胞。细胞每48h传代。通过wicell细胞遗传学执行并分析光谱核型分析。简单来说,根据标准细胞遗传学规程在载玻片上准备中期染色体扩散。然后使用所提供的sky探针和检测系统根据由实用光谱成像公司(asi)提供的dna光谱核型分析杂化和检测方案将这些载玻片制剂杂交。使用来自asi的hiskyvi光谱成像系统来捕获并且分析图像。选择snp杂合snp选自在(burckstummer等人2013[4])中公布的snp列表,该snp列表来源于kbm-7亲本细胞系的全基因组测序。基于来自全基因组和外显子组测序实验两者的累积变量列表,通过自定义r脚本(r版本3.0.1;程序包‘ggplot2’)来执行snp的等间距和基因型的可视化(还参见(burckstummer等人2013[4]))。crispr/cas9介导的基因组工程化以下序列被选为引导rna:引导rna基因组位置序列(5’-3’)grna1chr15:61,105,137ccaaggcaacgggactgtgc(seqid97)grna2chr15:61,105,238tcaggtctgatgcagatcgg(seqid98)grna3chr15:89,889,429cagccacatctaccgccatg(seqid99)grna4chr15:89,889,982gtacctcccgcttcaatgtc(seqid100)使用turbofectin(傲锐东源(origene))根据制造商的说明,用针对酿脓链球菌cas9的表达质粒以及适合的引导rna来瞬时转染hap1细胞。为了富集转染细胞,我们将编码杀稻瘟菌素抗性基因的质粒共转染并且用20g/ml杀稻瘟菌素使细胞经受瞬时选择。转染细胞被扩大用于基因组dna分离或用于有限稀释法。缺失pcr为了评估涵盖chr15:61,105,002-89,890,003的片段缺失,我们使用qiaampdna微量试剂盒(凯杰(qiagen))来分离基因组dna并且使用gotaq聚合酶(普洛麦格(promega))和寡核苷酸hg6090和hg6093(参见以上序列)使其经受pcr。分离单个细胞克隆通过有限稀释法获得单个hap1克隆。为此,将细胞胰酶消化并且连续稀释至15个细胞/ml的浓度。将50μl此悬浮液接种在一个384孔板的每个孔中。通过显微镜检查法检查单个孔以排除多克隆细胞系。将单克隆细胞系扩大。pcr和桑格测序以便检测杂合snp以下引物对用于使用gotaq聚合酶(普洛麦格)由hap1细胞(或对应的克隆)来扩增杂合snp:每个正向引物含有一个粗体标记的m13引物结合位点。纯化pcr产物并且使用m13测序引物(tgtaaaacgacggccag,seqid111)使其直接经受桑格测序。碘化丙啶染色用100ng/mlkaryomax(gibco)将细胞处理6h或不处理,通过胰酶消化来收获并且用pbs洗涤两次。使用nicoletti缓冲液(0.1%柠檬酸钠、0.1%tritonx-100、0.5u/mlrna酶a、20u/mlrna酶t1、50μg/ml碘化丙啶)将细胞同时溶解并染色。包括单倍体和二倍体参考细胞系作为对照。通过流式细胞术来定量碘化丙啶染色。全基因组测序和分析使用llluminatruseqdna不含pcr样品制备试剂盒根据制造商的说明使基因组dna经受针对全基因组测序的文库制备。使用配对末端100bp读取化学制剂在llluminahiseq2000上对文库进行测序。我们使用bowtie2将数据对准到人类基因组(hg19)上并且使用bamformatics(sourceforge.net/projects/bamformatics)和自定义r脚本来分析变体。我们使用由gsnap产生的二次比对来检查人工比对。将全基因组测序数据保藏在短读取存档(hap1细胞:srp044390;ehapa11和e9:srp044387)上。rna测序和分析使用llluminatruseqrna样品制备试剂盒根据制造商的说明使总rna(1μg)经受文库制备。使用50bp单次读取化学制剂在llluminahiseq2000上对dna文库进行测序。我们使用gencode(v19)基因注解用tophat来对准读取物。我们通过计算读取物和通过映射多样性的加权来评估基因上的表达。对于过量/下调表达分析,我们认为基因具有不定度水平上的最低表达水平(fpkm5)、2倍变化和清除率。对于细分分析,我们计算全部表达基因(fpkm0.2)的倍数变化的对数,以染色体顺序安排它们,并且然后应用分段-平面细分。然后将细分值用于编译一个全基因组扩增图。将所有rna测序数据保藏在短读取存档(srp044391)上。结果hap1细胞的光谱核型分析揭示,存在于亲本kbm-7细胞系中的15号染色体片段被保留在hap1中(图12)。它融合至19号染色体的长臂。为了对15号染色体上的二体区域的边界作图,我们分析了来自kbm-7细胞的小核苷酸多态性(snp)阵列数据(burckstummer等人2013[4])。这些数据表明,二体片段涵盖几乎3千万个碱基对(从大约chr15:61,105,000至大约chr15:89,890,000)。来自此区域的杂合snp的存在显示,二体区域不是由复制产生的。相反,它表示其二倍体杂合起源的残余。为了生成一种完全单倍体体细胞人类细胞系,我们旨在通过crispr/cas9介导的基因组工程化来消除来自15号染色体的二体区域的一个拷贝。我们推理得出,共应用定位在二体区域的边界处的两个引导rna将导致两个末端通过cas9同时裂解,从而导致消除干扰片段。由于19/15号染色体融合物的精确序列是未知的,因此我们选择了在来自15号染色体的二体区域内裂解的引导rna。我们设计了四种grna,针对每个末端有两种grna。通过hap1细胞的瞬时转染来引入cas9和引导rna表达质粒。我们包括一种携带杀稻瘟菌素抗性基因的质粒并且使用杀稻瘟菌素选择来消除未转染细胞。在瞬时转染hap1细胞后,我们使用t7内切核酸酶测定来监测四个基因座处的cas9裂解。我们发现,grna1、grna3和grna4在指定的基因座处引起有效的裂解,而grna2不导致任何可检测的基因组修饰(实例1中示出的数据)。接着,我们评估在转染细胞池中是否可检测到缺失。我们设计了两个引物对来侧接我们旨在缺失的来自15号染色体的3千万个碱基对区域。正如所料,在野生型hap1细胞中没有检测到pcr条带。然而,我们容易地在其中grna1和grna3已被结合的样品中检测到pcr产物(实例1中示出的数据),这表明由双链断裂暴露的dna末端已连接在一起。虽然在转染细胞池中检测到缺失是令人鼓舞的,但它仍然表示一个非常罕见的事件,使具有该缺失的克隆细胞系的分离复杂化。我们从其中grna1和grna3已被结合的样品中分离克隆并且通过pcr评估该缺失的存在。首批200个克隆含有四个克隆(命名为a8、a11、b11和f6),其中通过pcr可检测到缺失(实例1中示出的数据)。将克隆分离并且进一步表征为实例1的一部分。来自这组的最有希望的克隆是克隆a11。克隆a11针对缺失pcr是阳性的,显示杂合性丢失并且仍然是单倍体。由于这个原因,克隆a11被包括在呈现在这里的实验组中。独立来源的第二批200个克隆含有一个额外的这种克隆(命名为e9;图13)。由克隆a11和e9获得的缺失pcr产物的桑格测序在两个克隆中显示不同的断点(图14),这表明这些克隆来源于独立的编辑事件。为了排除15号染色体的切除区域已通过整合在基因组中别的地方而保留的可能性,我们分析了被发现在hap1细胞中是杂合的来自15号染色体的二体区域的snp(图15)。我们观察到,两个克隆(a11和e9)对于这些snp是纯合的(图15)。这表明特有的缺失已在克隆a11和e9中发生。为了表征不同克隆中的染色体景观,我们使每个克隆经受光谱核型分析。克隆a11和e9被发现是完全单倍体并且19号染色体是完整的(图16),这表示有缺陷的19/15号染色体融合物已如所预期地被修复。这两个克隆因此可以被认为是完全单倍体人类细胞系。由于hap1细胞可以自发转变至二倍体状态,我们评估其中缺失已发生的克隆的稳定性。碘化丙啶染色显示,克隆a11和e9两者均是单倍体(图17)并且与单倍体hap1细胞不能区别。当传代20代时,hap1细胞以及克隆e9保留完美的单倍性,而克隆a11可能是通过核内复制已部分转变至二倍性。这表明,完全单倍体人类细胞是可行的并且可以稳定地保持其单倍体核型。我们决定通过执行全基因组测序来进一步表征克隆a11和e9,并且我们将亲本hap1细胞包括在这些分析中。分别以大约20x覆盖率在hap1中执行全基因组测序,并且以大约6x覆盖率在克隆a11和e9中执行全基因组测序。hap1与克隆e9之间的整体比较显示除来自15号染色体的片段之外整个基因组相似的相对覆盖率,对此hap1细胞与克隆e9相比显示两倍的覆盖率(图18)。对于克隆a11,获得类似的结果(数据未示出)。这一观察支持以下观点:来自15号染色体的完整二体区域在克隆a11和e9中已缺失。单核苷酸取代和短插入/缺失的整体分析揭示,相对于其hap1亲本而言在克隆中丢失的大部分单核苷酸取代可归因于已缺失的15号染色体片段(数据未示出)。两种克隆还获得一些由于遗传漂变的突变(数据未示出)。总之,全基因组测序确认了通过光谱核型分析所获得的数据,突出15号染色体片段的缺失并且表明在这些细胞中仅有较小的额外改变。最后,我们通过rna测序将近单倍体hap1细胞与完全单倍体克隆a11和e9进行比较。我们还包括kbm-7细胞作为对照。为了控制由于培养条件的可变性,我们包括来源于平行培养的两个复制品。值得注意的是,hap1与克隆e9之间的斯皮尔曼相关性与相同细胞系的复制品之间的斯皮尔曼相关性一样强(图19a)。这表明,hap1和克隆e9细胞的全表达谱是几乎一致的。应注意,hap1与克隆e9之间相差至少两倍的基因数目是约600个,而与kbm-7细胞相比,此数目超过3000个基因(图19b)。此外,在hap1与克隆e9之间差异性表达的大部分基因簇生在15号染色体的缺失片段上(图20)。总而言之,我们的rna测序数据表明克隆a11或e9与hap1之间没有主要区别,并且显示由我们工程化的大型染色体缺失引起的主要差异。讨论在这里我们提出一种由crispr/cas9工程化的兆碱基规模的缺失,该缺失大大超过公开的缺失(萧等人2013[13]),因此证明染色体规模的基因组工程化的可行性。重要的是,所工程化的染色体稳定的克隆可使用一个标准亚克隆和pcr筛选流程而获得。已报道使用锌指核酸酶(李(lee)等人2010[14])或talen(金(kim)等人2013[15])的高达24兆碱基的大型缺失,但由于很少有研究报道具有这些缺失的单个克隆的分离,因此不是总能推断出效率。在单个克隆被分离的情况下,它们以出人意料地高频被获取(大约0.5%)(金等人2013[15]),鉴于一般认为talen比crispr/cas系统效率更低的事实。当敲定此手稿时,我们注意到若干最近的报道显示大型缺失(詹韦尔(canver)等人2014[16])或染色体重排(崔(choi)和迈耶森(meyerson)2014[17])作为成对crispr/cas裂解的结果。对于单等位基因的兆碱基规模缺失所报道的效率在1%的范围内(詹韦尔等人2014[16])并且因此比得上我们的发现。我们将我们的切除策略基于可用的snp阵列数据,该snp阵列数据取决于杂合snp的存在,并且因此提供低于全基因组测序的分辨率。同时我们得到的全基因组测序数据揭示,来自15号染色体的二体区域包含以下位置:chr15:61,103,219-89,893,074。其结果是,我们没有完全消除15号染色体片段。事实上,在克隆a11和e9中,19号染色体仍然含有几个千碱基的片段(从大约chr15:61m的约2kb和从大约chr15:89m的约4kb)。使用crispr/cas9系统的一个主要关注点是在与靶命中位点密切相关的不希望的位点处的裂解,并且若干最近的报道强调脱靶编辑的可能性。然而,观察到脱靶编辑的频率从低到相当高而变化。这些显著差异中的一些可归因于取决于转染率在不同细胞类型之间变化的cas9表达水平。其他此类差异可归因于检测的方法。如果有的话,我们在克隆a11或e9细胞中观察到非常有限的脱靶编辑(数据未示出)。使用crispr/cas9系统用于缺失特定的目标基因组区域为用于功能表征启动子、增强子和人类基因组中的其他调节区域铺平道路。此外,整个基因簇通过缺失的失活将实现对主要由具有丰余功能的单个成员构成的基因家族的研究。这种技术的一项诱人的应用是创建一种足够人类细胞在培养物中幸存并增殖的最小基本基因组。此外,我们提出了首个完全单倍体人类细胞系。尽管先前已分离来自其他生物体的单倍体细胞,但仅报道了近单倍体人类细胞系。尽管如此,近单倍体细胞系kbm-7和hap1已证实亚二倍体核型对于功能基因组学的价值(卡雷特等人2009[2];卡雷特等人2011a[11])。细胞的倍数性是任何基因组编辑技术成功的关键决定因素:与在二倍体或多倍体细胞系中不同,可以通过pcr和桑格测序容易地追踪编辑事件。事实上,常用的细胞系(诸如hela和a549)的模态基因拷贝数远远超过可能严重阻碍基因组编辑的二倍体细胞系的模态基因拷贝数。因此,从基因组工程化和功能基因组学角度来看,单倍体细胞是极具吸引力的。与这种考虑一致,将首个全基因组crispr/cas9筛选中的一种在kbm-7细胞中进行(王(wang)等人2014[18])。因此我们预期这种完全单倍体人类细胞系将成为基因组工程化和更广泛的科学界中的筛选的主力。实例3:二倍化粘附体细胞单倍体细胞以下实例描述二倍化的方法学。单倍体人类细胞具有转变成二倍体状态的天然倾向。因此单倍体细胞在此被认为是一种最后转变成稳定二倍体状态的“亚稳”状态。在这个实验中,这种转变以一种受控方式执行并且由次优的细胞培养条件(例如如果细胞不传代并且定期供给新鲜培养基)来触发。特别是当应用至粘附细胞时,细胞应激将促进单倍体体细胞人类细胞系的二倍化。在暴露于由连续传代诱导的应激后,例如,在至少传代25次后,通过有限稀释法将单个细胞克隆分离。为此,将一个含有单倍体和二倍体亚克隆的细胞群体胰酶消化并且稀释至每毫升大约20个细胞。然后将细胞接种在384孔板中(“有限稀释法”)并且允许生长14天。目视检查单个孔以确保获取单个细胞克隆。单个克隆从384孔板扩大至6孔板。通过碘化丙啶染色将单个克隆染色。为此,通过胰酶消化收获hap1细胞并且用pbs洗涤两次。使用nicoletti缓冲液(0.1%柠檬酸钠、0.1%tritonx-100、0.5u/mlrna酶a、20u/mlrna酶t1、50μg/ml碘化丙啶)将细胞同时溶解并染色。包括单倍体和二倍体参考细胞系作为对照。通过流式细胞术来定量碘化丙啶染色。一个代表性结果示于图21中。克隆1、3和6是单倍体并且在大约190的荧光强度处显示一个主(1n)峰且在大约380的荧光强度处显示一个小(2n)峰。后者由在s期复制其基因组的单倍体细胞引起并且即将经历有丝分裂。克隆2、4和5是二倍体并且在大约380的荧光强度处显示一个主(2n)峰且在大约760的荧光强度处显示一个小(4n)峰。因此总的来说,可以通过碘化丙啶染色和分析facs将单倍体和二倍体克隆清楚地分开并鉴别。为了产生二倍体克隆的同质亚群并且避免克隆假象,将若干个二倍体克隆合并以获得二倍体细胞的多克隆群体。与单倍体hap1细胞的亲本群体相对比,此群体不再是亚稳定的,而是稳定地维持其二倍体或近二倍体核型。可以通过碘化丙啶染色将此群体与原始单倍体群体区分开来(图22)。单倍体hap1和kbm-7细胞(图22a和图22b)是在大约220(1n)和大约440(2n)荧光强度处具有主峰的令人满意的单倍体。相比之下,二倍体kbm-7细胞和细胞系c665的峰被移动了大约2倍(图22c和图22d),这表明它是二倍体或近二倍体。还通过光谱核型分析来表征c665(图23)。图a、图b和图c示出存在于c665群体中的不同亚克隆。该群体中的一些克隆是完美的近二倍体,即它们在一个单拷贝中具有存在于单倍体hap1细胞中的每个染色体的两个拷贝(图23c)。其他克隆含有较小的染色体畸变,诸如8号染色体的三体性(图23b)或8号染色体的一部分至10号染色体10的易位(图23a)。总而言之,光谱核型分析数据显示,近单倍体hap1细胞可被转变成近二倍体细胞。来源于这样一个实验的细胞群体是独特的,因为它是二倍体或近二倍体并且含有两个一致组的姐妹染色体。相比之下,天然存在的二倍体细胞含有关于某些小核苷酸多态性(snp)不同的一个来自父本的染色体组和一个来自母本的染色体组。衍生自单倍体细胞的二倍体细胞由于两个基因组拷贝源于相同的单倍体拷贝并且因此不存在杂合的snp而不同于天然二倍体细胞。参考文献[1]koteckim,reddyps,cochranbh.isolationandcharacterizationofanear-haploidhumancellline.expcellres.1999nov1;252(2):273-80.[2]caretteje,guimaraescp,varadarajanm,parkas,wuethrichi,godarovaa,koteckim,cochranbh,spoonere,ploeghhl,brummelkamptr.haploidgeneticscreensinhumancellsidentifyhostfactorsusedbypathogens.science.2009nov27;326(5957):1231-5.doi:10.1126/science.1178955.[3]caretteje,guimaraescp,wuethrichi,blomenva,varadarajanm,sunc,bellg,yuanb,muellnermk,nijmansm,ploeghhl,brummelkamptr.globalgenedisruptioninhumancellstoassigngenestophenotypesbydeepsequencing.natbiotechnol.2011may29;29(6):542-6.doi:10.1038/nbt.1857.[4]burckstummert,banningc,hainzlp,schobesbergerr,kerzendorferc,paulerfm,chend,themn,schischlikf,rebsamenm,smidam,delacruzff,lapaoa,lisztm,eizingerb,guenzlpm,blomenva,konopkat,gappb,parapaticsk,maierb,stocklj,fischlw,salics,tabacasarimr,knapps,bennettkl,bockc,colingej,kralovicsr,ammererg,casarig,brummelkamptr,superti-furgag,nijmansm.areversiblegenetrapcollectionempowershaploidgeneticsinhumancells.natmethods.2013oct;10(10):965-71.doi:10.1038/nmeth.2609.epub2013aug25.[5]caretteje,pruszakj,varadarajanm,blomenva,gokhales,camargofd,wernigm,jaenischr,brummelkamptr.generationofipscsfromculturedhumanmalignantcells.blood.2010may20;115(20):4039-42.doi:10.1182/blood-2009-07-231845.epub2010mar16.[6]caretteje,raabenm,wongac,herbertas,obernostererg,mulherkarn,kuehneal,kranzuschpj,griffinam,ruthelg,dalcinp,dyejm,wheiansp,chandrank,brummelkamptr.ebolavirusentryrequiresthecholesteroltransporterniemann-pickc1.nature.2011aug24;477(7364):340-3.doi:10.1038/nature10348.[7]ternsmpandternsrm.crispr-basedadaptiveimmunesystems.curropinmicrobiol.2011june;14(3):321-327.doi:10.1016/j.mib.2011.03.005.[8]jinekm,chylinskik,fonfarai,hauerm,doudnaja,charpentiere.aprogrammabledual-rna-guideddnaendonucleaseinadaptivebacterialimmunity.science.2012aug17;337(6096):816-21.doi:10.1126/science.1225829.epub2012jun28.[9]oshimuram,freemanal,sandbergaa.1977.chromosomesandcausationofhumancancerandleukemia.xxiii.near-haploidyinacuteleukemia.cancer40(3):1143-1148.[10]anderssonbs,collinsvp,kurzrockr,larkindw,childsc,osta,corka,trujillojm,freireichej,sicilianomjetal.1995.kbm-7,ahumanmyeloidleukemiacelllinewithdoublephiladelphiachromosomeslackingnormalc-ablandbcrtranscripts.leukemia9(12):2100-2108.[11]caretteje,guimaraescp,wuethrichi,blomenva,varadarajanm,sunc,bellg,yuanb,muellnermk,nijmansmetal.2011a.globalgenedisruptioninhumancellstoassigngenestophenotypesbydeepsequencing.naturebiotechnology29(6):542-546.[12]malip,esveltkm,churchgm.2013.cas9asaversatiletoolforengineeringbiology.naturemethods10(10):957-963.[13]xiaoa,wangz,huy,wuy,luoz,yangz,zuy,liw,huangp,tongxetal.2013.chromosomaldeletionsandinversionsmediatedbytalensandcrispr/casinzebrafish.nucleicacidsresearch41(14):e141.[14]leehj,kime,kimjs.2010.targetedchromosomaldeletionsinhumancellsusingzincfingernucleases.genomeresearch20(1):81-89.[15]kimy,kweonj,kima,chonjk,yoojy,kimhj,kims,leec,jeonge,chungeetal.2013.alibraryoftaleffectornucleasesspanningthehumangenome.naturebiotechnology31(3):251-258.[16]canvermc,bauerde,dassa,yienyy,chungj,masudat,maedat,pawbh,orkinsh.2014.characterizationofgenomicdeletionefficiencymediatedbycrispr/cas9inmammaliancells.thejournalofbiologicalchemistry.[17]choips,meyersonm.2014.targetedgenomicrearrangementsusingcrispr/castechnology.naturecommunications5:3728.[18]wangt,weijj,sabatinidm,landeres.2014.geneticscreensinhumancellsusingthecrispr-cas9system.science343(6166):80-84.[19]boveejv,cleton-jansenam,kuipers-dijkshoornnj,vandenbroeklj,taminiauah,cornelissecj,hogendoornpc.1999.lossofheterozygosityanddnaploidypointtoadiverginggeneticmechanismintheoriginofperipheralandcentralchondrosarcoma.genes,chromosomes&cancer26(3):237-246.当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1