确定转录活性的方法

文档序号:6433220阅读:3009来源:国知局
专利名称:确定转录活性的方法
相关申请本申请要求2001年12月11日提交的美国临时专利申请系列号60/339655的优先权。上述申请的全文在此引为参考。
背景技术
本发明涉及生物分析、微阵列和生物信息学。
DNA转录成RNA是一种基本机制,细胞通过它介导其生长、功能和代谢。因此,对转录活性的了解对于揭示基因组的功能是重要的。
发明概述在一方面,本发明提供了使用寡核苷酸探针探察基因组的转录活性的方法和组成物。在优选实施方案中,寡核苷酸探针被固定化以形成高密度的寡核苷酸探针阵列。
本发明的一些示例性的方法被用来探察人类第21和22染色体的转录活性(Kapranov等,“人类第21和22染色体的大规模转录活性”,Science296916-919(2002),在此引为参考)。人类第21和22染色体的序列表明其含有大约770个被明确鉴定和预测的基因。这些基因仅代表了一部分被转录为RNA的序列信息。正如在引用的文献(Kapranov等,Science 296916-919(2002))中所显示的,使用了从11个不同发育来源的人类细胞系获得的胞质中含有polyA的RNA构建了这些染色体的转录活性区域的经验图谱。使用核中的含有polyA的RNA和核与胞质的总RNA还构建了其它的图谱。这些图谱是使用高密度的寡核苷酸阵列构建的,可以探察3500万个碱基对的非重复基因组序列,在这些染色体上平均每30个碱基对间隔使用了25个核苷酸长的探针。将这些结果与可以获得的关于这两个染色体的序列说明相覆盖,表明用于转录的基因组序列比根据预测和鉴定的外显子所想象的多9倍。这些转录本代表了在以前的带注释的图谱中没有说明的隐藏转录子组(transcriptome)。
上面的例子说明了本发明的方法在了解基因组的生物功能方面的威力,并突出了对转录活性进行大规模探察的需要。本发明的方法和组成物为后基因组时代创新性的生物学研究、临床诊断学和药物开发提供了工具。
在某些实施方案中,探察转录活性的方法包括以下的步骤从1个、2个或更多个细胞区室(例如细胞核、细胞质等)中获得总的或含有polyA的RNA样品;将带有polyA的或总的RNA或从RNA衍生的核酸与一个寡核苷酸探针阵列杂交,其中寡核苷酸探针阵列含有至少10000个被设计成完全匹配的(PM)探针的寡核苷酸,每个完全匹配的探针靶向来自一个基因组区域的不同的转录本序列;以及如果针对某个基因组序列的探针与靶杂交了就可以确定该基因组序列转录了。
尽管本发明的方法可以用于探察任何大小的基因组区域的转录活性,但本方法对于探察较大的基因组区域特别有用,例如至少20MB、50MB及更大的区域,或一个染色体或全基因组的25%、50%或100%的DNA序列。在某些实施方案中,使用了一套1、2、5、10、50或100个探针阵列探察了一个完整的基因组的DNA序列。
探针可以以至少1000、500、100、30、10或1个碱基对的分辨率靶向基因组的转录本序列。
使用本发明的方法可以检测来自不同细胞区室,例如细胞质或细胞核的RNA。
一般来说,每个寡核苷酸探针阵列含有至少10万、50万或80万个寡核苷酸探针,每个都靶向基因组不同区域的转录本序列。寡核苷酸被固定在功能点(feature)(每个被设计含有一个探针的区域是一个功能点)上,大小小于20、15、14、10、8、5、2、1或0.5微米。
除了完全匹配的探针外,寡核苷酸阵列也可以含有被设计为错配(MM)探针的寡核苷酸。每个错配探针与完全匹配探针有一个或多个碱基的不同。在优选实施方案中,错配探针与完全匹配探针的不同是在中间的位置上。也可以包括其它的对照探针。
完全匹配的探针一般根据基因组序列和所需的探察分辨率来选择。在优选实施方案中,基因组的重复序列被过滤掉,不用做探察区域。但是,在某些实施方案中这些序列的探察是有用的。
转录活性分布图可以在不同条件下获得,例如在细胞分化/发育过程中、正常及患病情况下、不同的生理和病理条件下、各种化学物质处理时。可以对这些分布图进行比较,以揭示可能与发育、生理、病理或毒理条件相关的转录活性。
转录活性的分布图可以被用于指导新的转录本的验证和分离(克隆)。这些分布图也可以被用于破解调控机制。此外,确定转录活性的分布图可以用于临床诊断、毒性测试(例如用于候选的药物)以及药物开发。
附图简述被整合在本说明书中并成为其一部分的附图,说明了本发明的实施方案,并与说明书一起用于解释本发明的原理

图1A-1D是22号染色体(22q11.2)的DGCR中的四个区域的高分辨率图谱。在每个图谱中显示了被分析的11个细胞系中的6个根据DGCR阵列预测的重叠群(contigs)。在阵列图下方是来自该区域的Sanger手绘图谱或来自dbEST的EST图谱的草图。由阵列图建议所选定的区域使用RT-PCR进一步分析。从这些分析得到的测序产物被作图在Sanger和EST图谱的下方。(图1A)DCGR6基因区(GP序列15,833,950-15,840,390);(图1B)DGCR2区(GP序列15,959,850-16,057,850);(图1C)SLC25A125和5’侧翼区(GP序列16,098,590-16,107,090);(图1D)DGCR5外显子1区(GP序列15,898,300-15,905,040)。
图2A-2B显示了对于21号染色体(图2A)和22号染色体(图2B)来说阳性探针与外显子密度图的相关性(5%假阳性率)。对每个图来说,最下方的图描绘了在57kb的区段(bin)中(21号染色体上基因的平均基因组大小)阳性探针的密度。在该图上方是存在于每个区段的外显子中的核苷酸的密度。与每个染色体草图重叠的图是在一个5.7MB的窗口内计算的外显子密度和阳性探针密度的局部相关系数。在5.7MB的窗口内阳性外显子密度的百分数低于25%的区域中的相关系数没有计算。因此,对外显子相对稀少的21号染色体靠近着丝粒的区域,由于在该染色体区域中相对缺少外显子密度的变化,没有分析与阳性探针密度的相关性。在阳性探针密度图上方是被选择进行RT-PCR和Northern杂交验证的区域(向下的箭头)。在图2B中22号染色体的DGCR区域以框标出。DGCR的高分辨率图谱显示在图1A-1D中。
图3A-3D显示了从11个细胞系中的7个获得的带有polyA的细胞质RNA的Northern杂交分析(1NIHOVCAR-3;2Jurkat;3HepG2;4FHs 738Lu;5COLO 205;6CCRF-CEM;7A-375;8用DNA酶I处理的A-375)。下列探针是放射性标记的并与滤膜杂交(图3A)从22号染色体DGCR-3-2区域衍生的一个cDNA(实施例表3),代表了DGCR序列的277304-277569碱基对;以及跨过22号染色体DGCR-2-1(图3B)、21号染色体8(图3C)和22号染色体DGCR-1-2(图3D)的整个被证实的区域的cDNA。胶片被曝光3个星期。
本发明的上述的和其它的目的、特征和优点将从下面本发明的优选实施方案的更具体的描述中变得明显,正如在附图中说明的那样,相同的标号指不同视图的相同部分。图不需要标尺,重点被放在阐明本发明的原理上。
发明详述下面描述本发明的优选实施方案。
本发明有许多优选实施方案,并依赖于许多专利、专利申请和其它的参考文献,其细节为专业人员所了解。因此,当一个专利、专利申请或其它的参考文献被引用或在后面重复时,应该理解为,为了所有的目的及被引用的待证问题的目的,以其全文引为参考。
I、总则在本申请中,除非在上下文中有清楚的说明,单数形式的“一个”、“一种”和“该”包括了复数的情况。例如,术语“一种试剂”包括许多的试剂,包括其混合物。
个体不限于人,也可以是其它的生物体,包括但不限于哺乳动物、植物、细菌或从任何上述来源获得的细胞。
在本公开中,本发明的各个方面可以以范围的形式出现。应该理解以范围的形式进行描述只是为了方便和简短,而不是对本发明的范围进行死板的限制。因此,对范围的描述应该被当作具体地包括该范围内所有可能的小范围以及单个数值。例如,对范围的描述例如从1到6应该被认为具体地包括了小范围例如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等,以及该范围内的每个数,例如1、2、3、4、5和6。不论范围有多宽都是这样。
除非指明,本发明的实施可以使用本领域技术人员公知的有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学的常规技术和描述。这样的常规的技术包括聚合物阵列合成、杂交、连接和使用标记物检测杂交。适当技术的具体说明可以参考下面的实施例。但是,其它等同的常规步骤当然也可以使用。这样的常规技术和描述可以在标准的实验室手册中发现,例如《基因组分析实验室手册丛书》(第1到4卷)、《使用抗体实验室手册》、《细胞实验室手册》、《PCR引物实验室手册》和《分子克隆实验室手册》(以上都是由冷泉港实验室出版社出版),Stryer,L.编写的《生物化学》(第4版)(1995),Freeman出版社,纽约,Gait,《寡核苷酸合成实用方法》1984,IRL出版社,伦敦,Nelson和Cox(2000),Lehninger编写的《生物化学原理》(第3版),W.H.Freeman出版社,纽约,和Berg等编写的《生物化学》(第5版)(2002),W.H.Freeman出版社,纽约,所有这些出版物在此为所有的目的以其全文引为参考。
本发明可以使用固相基质,包括在某些优选实施方案中使用阵列。可以应用于聚合物(包括蛋白)阵列合成的方法和技术在U.S.S.N09/536,841、WO 00/58516、美国专利Nos.5,143,854、5,242,974、5,252,743、5,324,633、5,384,261、5,405,783、5,426,186、5,451,683、5,482,867、5,491,074、5,527,681、5,550,215、5,571,639、5,578,832、5,593,839、5,599,695、5,624,711、5,631,734、5,795,716、5,831,070、5,837,832、5,856,101、5,858,659、5,936,324、5,968,740、5,974,164、5,981,185、5,981,956、6,025,601、6,033,860、6,040,193、6,090,555、6,136,269、6,269,846和6,428,752,以及PCT申请Nos.PCT/US99/00730(国际公布号WO99/36760)和PCT/US01/04285中有描述,所有这些专利在此为所有的目的以其全文引为参考。
在具体的实施方案中描述了合成技术的专利包括美国专利Nos.5,412,087、6,147,205、6,262,216、6,310,189、5,889,165和5,959,098。核酸阵列在上述的许多专利中有描述,但是也描述了将同样的技术应用于多肽阵列。
在本发明中使用的核酸阵列包括可以从Affymetrix(Santa Clara,CA)以商标名GeneChip购买到的阵列。示例的阵列被显示在affymetrix.com的网址上。本发明也考虑了附着在固相基质上的聚合物的许多应用。这些应用包括基因表达监测、成形、文库筛选、基因分型和诊断。基因表达监测和成形的方法显示在美国专利Nos.5,800,992、6,013,449、6,020,135、6,033,860、6,040,138、6,177,248和6,309,822中。基因分型及其应用显示在USSN 60/319,253、10/013,598和美国专利Nos.5,856,092、6,300,063、5,858,659、6,284,460、6,361,947、6,368,799和6,333,179中。其它的应用体现在美国专利Nos.5,871,928、5,902,723、6,045,996、5,541,061和6,197,506中。
本发明在某些优选实施方案中还考虑到了样品制备的方法。在基因分型之前或同时,可以使用多种机制将基因组样品进行扩增,其中有些可以使用PCR。参见例如《PCR技术DNA扩增的原理及应用》(H.A.Erlich编,Freeman出版社,NY,NY,1992);《PCR方案方法与应用指南》(Innis等编,Academic出版社,San Diego,CA,1990);Mattila等,NucleicAcids Res.19,4967(1991);Eckert等,PCR Methods and Applications 1,17(1991);《PCR》(McPherson等编,IRL出版社,Oxford);以及美国专利Nos.4,683,202、4,683,195、4,800,159、4,965,188和5,333,675,在此为所有的目的以其全文分别引为参考。样品可在阵列上扩增。例如参见美国专利6,300,070和美国专利申请09/513,300,在此引作参考。
其它适用的扩增方法包括连接酶链反应(LCR)(例如Wu和Wallace,Genomics 4,560(1989),Landegren等,Science 241,1077(1988)和Barringer等,Gene 89117(1990))、转录扩增(Kwoh等,Proc.Natl.Acad.Sci.USA 86,1173(1989)和WO88/10315)、自持续序列复制(Guatelli等,Proc.Natl.Acad.Sci.USA,87,1874(1990)和WO90/06995)、靶多核苷酸序列的选择性扩增(美国专利No 6,410,276)、共有序列引发的聚合酶链反应(CP-PCR)(美国专利No 4,437,974)、任意引发的聚合酶链反应(AP-PCR)(美国专利No5,413,909和5,861,245)和基于核酸的序列扩增(NABSA)(参见美国专利Nos.5,409,818、5,554,517和6,063,603),分别在此引为参考。其它可以使用的扩增方法在美国专利Nos.5,242,794、5,494,810、4,988,617和USSN09/854,317中有描述,分别在此引为参考。
其它样品制备的方法和减少核酸样品复杂性的技术在Dong等,Genome Research 11,1418(2001)、美国专利No 6,361,947、6,391,592和美国专利申请Nos.09/916,135、09/920,491、09/910,292和10/013,598中有描述,在此为所有的目的引为参考。
进行多核苷酸杂交分析的方法在技术上已经发展成熟。杂交分析的步骤和条件依赖于具体的应用而变化,并根据已知的通用结合方法进行选择,这些方法包括在Maniatis等编《分子克隆实验室手册》(第二版,冷泉港出版社,NY,1989)、Berger和Kimmel《酶学方法》第152卷、《分子克隆技术指南》(Academic出版社,San Diego,CA,1987)、Young和Davism,P.N.A.S,801194(1983)中所描述的。实施可重复的、可控制的杂交反应的方法和装置已经在美国专利5,871,928、5,874,219、6,045,996和6,386,749、6,391,623中描述,分别在此引为参考。
在某些优选实施方案中,本发明还考虑到了配体间杂交的信号检测。参见美国专利Nos.5,143,854、5,578,832、5,631,734、5,834,758、5,936,324、5,981,956、6,025,601、6,141,096、6,185,030、6,201,639、6,218,803和6,225,625,以及美国专利申请60/364,731和PCT申请PCT/US99/06097(公布号为WO99/47964),所有这些专利分别在此为所有的目的以其全文引为参考。
信号检测以及强度数据处理的方法和装置公开在例如美国专利5,143,854、5,547,839、5,578,832、5,631,734、5,800,992、5,834,758、5,856,092、5,902,723、5,936,324、5,981,956、6,025,601、6,090,555、6,141,096、6,185,030、6,201,639、6,218,803和6,225,625,美国专利申请60/364,731以及PCT申请PCT/US99/06097(公布号为WO99/47964),分别在此为所有目的以其全文引作参考。
本发明的实施也可以使用常规的生物学方法、软件和系统。本发明的计算机软件产品一般包括含有计算机可执行指令的计算机可读介质,该指令用于执行本发明的方法的逻辑步骤。合适的计算机可读介质包括软盘、CD-ROM/DVD/DVD-ROM、硬盘驱动器、闪存、ROM/RAM、磁带等。计算机可执行指令可以用适当的计算机语言或几种语言的组合来编写。基本的计算生物学方法在例如Setubal和Meidanis等,《计算生物学方法入门》(PWS出版公司,Boston,1997)、Salzberg,Searles,Kasif编写的《分子生物学计算方法》(Elsevier出版社,Amsterdam,1998)、Rashidi和Buehler编写的《生物信息学基础在生物科学和医学中的应用》(CRC出版社,伦敦,2000),以及Ouelette和Bzevanis编写的《生物信息学基因和蛋白分析实用指南》(Wiley & Sons公司出版,第二版,2001)中有描述。
本发明也将多种计算机程序产品和软件用于各种目的,例如探针设计、数据管理、分析和仪器操作。参见美国专利Nos.5,593,839、5,795,716、5,733,729、5,974,164、6,066,454、6,090,555、6,185,561、6,188,783、6,223,127、6,229,911和6,308,170,在此引为参考。
此外,本发明的某些优选实施方案中包括了通过网络例如Internet提供遗传信息的方法,如在美国专利申请10/063,559、60/349,546、60/376,003、60/394,574、60/403,381中所显示。
II、词汇表当用于本文中时,下面的术语具有下面的通用含义。
在本发明中,核酸可以包括任何嘧啶和嘌呤碱基的聚合物或寡聚物,优选分别为胞嘧啶(C)、胸腺嘧啶(T)、尿嘧啶(U)、腺嘌呤(A)和鸟嘌呤(G)。参见Albert L.Lehninger编写的《生物化学原理》第793-800页(Worth出版社,1982)。事实上,本发明考虑到了任何脱氧核糖核苷酸、核糖核苷酸或肽核酸成分,以及它们的任何化学变体,例如这些碱基的甲基化、脱氧甲基化或糖基化形式等。聚合物或寡聚物在组成上可以是非均质的或均质的,可以从天然存在的来源分离出来,也可以是人工的或合成产生的。此外,核酸可以是脱氧核糖核酸(DNA)或核糖核酸(RNA)、或其混合物,可以永久地或暂时地以单链或双链形式、包括同源双链体、异源双链体和杂交体状态存在。
寡核苷酸或多核苷酸是一个其长度至少为2、优选至少为8、更优选至少为20个核苷酸的核酸,或能够与多核苷酸特异性杂交的化合物。本发明的多核苷酸包括脱氧核糖核酸(DNA)或核糖核酸(RNA)序列,它们可以从天然来源分离出来、重组产生或人工合成和模拟。本发明的多核苷酸的另一个例子可以是肽核酸(PNA),其中组成的碱基通过肽键而不是磷酸二酯键连接起来,这在Nielsen等,Science 2541497-1500(1991)和Nielsen Curr.Opin.Biotechnol.,1071-75(1999)中有描述。本发明还包括这样的情况,其中含有非常规的碱基配对例如Hoogsteen碱基配对,这样的配对方式已经在某些tRNA中被鉴定到并推测在三螺旋中存在。在本申请中“多核苷酸”和“寡核苷酸”可以互换使用。
“阵列”是有意产生的分子的集合体,可以通过合成或生物合成而制备。阵列中的分子彼此可以相同也可以不同。阵列可以表现为多种形式,例如可溶性分子的文库、束缚到树脂珠、硅芯片或其它固相支持物上的化合物的文库。
核酸文库或阵列是有意产生的核酸的集合体,可以以多种不同的形式(例如可溶性分子的文库、束缚到树脂珠、硅芯片或其它固相支持物上的寡核苷酸的文库)通过合成或生物合成而制备。此外,术语“阵列”的意义还包括那些可以通过将基本上任何长度的核酸(例如从1到大约1000核苷酸单体长)点在基质上而制备的核酸的文库。此处所用的术语“核酸”是指任何长度的核苷酸的聚合形式,可以是核糖核苷酸、脱氧核糖核苷酸或肽核酸(PNAs),其中含有嘌呤和嘧啶碱基、或其它天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基(参见美国专利No.6,156,501,在此引为参考)。多核苷酸的骨架可以含有通常在RNA或DNA中发现的糖和磷酸基团,或修饰的或取代的糖或磷酸基团。多核苷酸可以含有修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物。核苷酸的序列可以被非核苷酸类的成分打断。因此术语核苷、核苷酸、脱氧核苷和脱氧核苷酸一般都包括类似物,例如在本文中描述的那些。这些类似物是与天然存在的核苷或核苷酸具有同样的某些结构特征的分子,以便当掺入到核酸或寡核苷酸序列中时,可以在溶液中与天然存在的核酸序列杂交。一般来说,这些类似物是从天然存在的核苷和核苷酸通过碱基、核糖或磷酸二酯基团的取代和/或修饰而衍生得到的。这样的变化可以被定制,以便稳定或去稳定杂交体的形成,或增强与所需的互补核酸序列杂交的特异性。
“固相支持物”、“支持物”和“基质”可以互换使用,用来指一个或一组具有刚性或半刚性表面的材料。在许多实施方案中,固相支持物的至少一个表面应该是基本上平的,尽管在某些实施方案中,可能希望能够将不同化合物的合成区域用例如孔、升高的区域、针、蚀刻的沟槽等在物理上分开。在其它的实施方案中,固相支持物将具有珠、树脂、凝胶、微球的形式或其它的几何构型。
组合合成策略组合合成策略是一种通过顺序地加入试剂平行地合成多种聚合物序列的有序的策略,所述试剂可以用一个反应物矩阵和一个转换矩阵来代表,其乘积是一个产物矩阵。反应物矩阵是待加入的一个1列×m行的建筑模块的矩阵。转换矩阵是二元数字的全集或一个子集,优选为成列有序排列的1和m之间的数字。“二元策略”是这样一种策略,其中通过至少两个连续的步骤来照亮基质目的区域的一部分,通常是一半。在二元合成策略中,所有能够从一组有序的反应试剂可能形成的化合物都被形成了。在大多数优选实施方案中,二元合成是指也把以前的添加步骤化为因数的合成策略。例如在一个策略中,一个用于遮挡策略的转换矩阵将以前照亮的区域分为两半,对以前照亮的区域的大约一半进行照亮,对剩下的一半进行保护(同时也对以前保护的区域的大约一半进行保护并对以前保护的区域的大约一半进行照亮)。可以意识到,二元的循环中可以间插非二元的循环,只有一部分的基质可以进行二元流程。组合的“遮挡”策略中的合成使用光或其它空间选择性的去保护或活化试剂从物质上除去保护基团,以便加上其它物质例如氨基酸。参见例如美国专利No.5,143,854。
单体是指能够连接在一起形成寡聚物或聚合物的分子组中的任何成员。用于本发明的单体组,以多肽的合成为例,包括但不限于L-氨基酸、D-氨基酸或合成的氨基酸的组。在此所用的“单体”是指用于合成寡聚物的基本组中的任何成员。例如,L-氨基酸的二聚体形成了一个用于合成多肽的400个“单体”的基本组。在合成聚合物的连续步骤中可以使用不同的单体基本组。术语“单体”也指化学物质亚基,它能够与不同的化学物质亚基结合形成比任何一个单独的亚基大的化合物。
生物聚合物是指生物或化学部分的重复单位。具有代表性的生物聚合物包括但不限于核酸、寡核苷酸、氨基酸、蛋白、肽、激素、寡糖、脂、糖脂、脂多糖、磷脂、上述物质的合成类似物,包括但不限于倒转的核苷酸、肽核酸、异DNA(Meta-DNA),及上述物质的组合。“生物聚合物合成”包括生物聚合物的合成生产,既包括有机的也包括无机的。
与生物聚合物相关的是“生物单体”,它是指生物聚合物的单个单位,或不是生物聚合物的一部分的单个单位。因此,例如,核苷酸是寡核苷酸生物聚合物中的一个生物单体,氨基酸是蛋白或肽生物聚合物中的一个生物单体;例如亲和素、生物素、抗体、抗体片段等也是生物单体。起始的生物单体或“生物单体起始物”是指通过活性亲核试剂共价连接到聚合物表面上的第一个生物单体,或连接到结合在聚合物上的连接物或间隔物臂上的第一个生物单体,连接物或间隔物臂通过活性亲核试剂结合在聚合物上。
“互补”是指例如在一个双链DNA分子的两条链之间或一个寡核苷酸引物与被测序或扩增的单链核酸上的引物结合位点之间核苷酸或核酸的杂交或碱基配对。互补的核苷酸通常是A和T(或A和U)、或C和G。两个单链的RNA或DNA分子,当一条链上的核苷酸经过最适的排列和比较,带有适当的核苷酸插入或删除后,与另一条链的至少大约80%、通常至少大约90%到95%、更优选为从大约98%到100%的核苷酸配对,就可以被说成是互补的。此外,当RNA或DNA链在选择性杂交条件下能够与其互补物杂交时,互补性也存在。一般来说,选择性杂交将发生在当在一个至少14到25个核苷酸的范围内具有至少大约65%的互补性、优选至少大约75%的互补性、更优选至少大约90%互补性时。参见M.Kanehisa Nucleic Acids Res.12203(1984),在此引为参考。
术语“杂交”是指两个单链多核苷酸非共价地结合形成一个稳定的双链多核苷酸的过程。术语“杂交”也可以指三链的杂交。得到的(通常的)双链多核苷酸是一个“杂交体”。形成稳定的杂交体的多核苷酸的数目的比例在此被称为“杂交程度”。
杂交的条件一般包括低于大约1M、更经常低于大约500mM和低于大约200mM的盐浓度。杂交温度可以低至5℃,但是一般高于22℃,更典型高于大约30℃,优选超过大约37℃。杂交通常在严紧条件下进行,即在探针将与其靶序列杂交的条件。严紧的条件是序列依赖性的,在不同情况下有所不同。较长的片段对特异性杂交可能需要较高的杂交温度。尽管其它的因素包括碱基的组成和互补链的长度、有机溶剂的存在和碱基错配的程度可能影响杂交的严紧性,但参数的组合要比任何单独一个的绝对度量更为重要。一般来说,严紧的条件被选择为比在设定的离子强度和pH下具体序列的热熔点温度(Tm)低大约5℃。Tm是(在确定的离子强度、pH和核酸组成下)50%互补于靶序列的探针与靶序列的杂交处于平衡状态的温度。
一般来说,严紧的条件包括在pH7.0到8.3、温度至少25℃下,盐浓度为至少0.01M到不超过1M的Na离子浓度(或其它的盐)。例如,5XSSPE(750mM NaCl,50mM磷酸钠,5mM EDTA,pH7.4)和温度为25-30℃的条件适合于等位基因特异性的探针杂交。对于严紧的条件,参见例如Sambrook,Fritsche和Maniatis编写的《分子克隆实验室手册》(第二版)(冷泉港实验室出版社,1989)和Anderson编写的《核酸杂交》(第一版)(BIOS科学出版有限公司,1999),在此因为上述的所有目的以其全文引为参考。
杂交探针是能够以碱基特异性的方式与核酸的互补链结合的核酸(例如寡核苷酸。这样的探针包括肽核酸,这在Nielsen等,Science2541497-1500(1991)和Nielsen Curr.Opin.Biotechnol.,1071-75(1999)中有描述,以及其它的核酸类似物和核酸模拟物。参见美国专利No.6156501。
探针探针是一个能够被特定的靶识别的分子。在某些实施方案中,探针可以被固定化在表面上。在本发明中研究的探针的例子包括但不限于细胞膜受体的兴奋剂和拮抗剂、毒素和毒液、病毒的抗原决定簇、激素(例如阿片样肽、类固醇等)、激素受体、肽、酶、酶的底物、辅助因子、药物、凝集素、糖、寡核苷酸、核酸、寡糖、蛋白和单克隆抗体。
靶对给定的探针具有亲和性的分子。靶可以是天然存在的或人造的分子。它们也可以以其不被改变的状态或与其它物质结合的方式被使用。靶可以共价地或非共价地、直接地或通过特定的结合物质与一个结合元件结合。可以在本发明中使用的靶的例子包括但不限于抗体、细胞膜受体、与特定的抗原决定簇(例如在病毒、细胞或其它物质上)具有反应性的单克隆抗体和抗血清、药物、寡核苷酸、核酸、肽、辅助因子、凝集素、糖、多糖、细胞、细胞膜和细胞器。在本技术领域中靶有时是指抗探针。在本文中使用的术语“靶”在意义上没有区别。当两个大分子通过分子识别结合起来形成一个复合物时,就形成了“探针-靶对”。
配体配体是被特定的受体识别的分子。与受体结合或反应的试剂被称作“配体”,这个术语只有对其配对的受体而言才具有确定的意义。术语“配体”除了表明该物质能够结合受体或与受体相互作用之外,并不暗指任何具体的分子大小或其它结构或组成特征。配体也可以用作能够结合受体的天然配体、或能够作为兴奋剂或拮抗剂的功能类似物。可以在本发明中使用的配体的例子包括但不限于细胞膜受体的兴奋剂和拮抗剂、毒素和毒液、病毒的抗原决定簇、激素(例如阿片样肽、类固醇等)、激素受体、肽、酶、酶的底物、底物类似物、过渡态类似物、辅助因子、药物、蛋白和抗体。
受体与给定的配体具有亲和性的分子。受体可以是天然存在的或人造的分子。它们也可以以其不被改变的状态或与其它物质结合的方式被使用。受体可以共价地或非共价地、直接地或通过特定的结合物质与一个结合元件结合。可以在本发明中使用的受体的例子包括但不限于抗体、细胞膜受体、与特定的抗原决定簇(例如在病毒、细胞或其它物质上)具有反应性的单克隆抗体和抗血清、药物、多核苷酸、核酸、肽、辅助因子、凝集素、糖、多糖、细胞、细胞膜和细胞器。在本技术领域中靶有时是指抗配体。在本文中使用的术语“受体”在意义上没有区别。当两个大分子通过分子识别结合起来形成一个复合物时,就形成了“配体-受体对”。其它可以在本发明中使用的受体的例子包括但不限于在美国专利No.5,143,854中显示的那些分子,在此以其全文引为参考。
“有效量”是指足够诱导所需的结果的量。
本文中使用的mRNA或mRNA转录本包括但不限于mRNA转录本前体、转录加工中间体、用于翻译的成熟的mRNA和基因的转录本、或从mRNA转录本衍生的核酸。转录加工可以包括剪接、编辑和降解。在此所用的从mRNA转录本衍生的核酸是指最终以mRNA转录本或其一段序列为模板合成的核酸。因此从mRNA反转录得到的cDNA、从cDNA转录的cRNA、从cDNA扩增的DNA、从扩增的DNA转录的RNA等,都是从mRNA转录本衍生而来的,对这些衍生产物的检测能够指示样品中原始的转录本的存在和/或丰度。因此,从样品衍生的mRNA包括但不限于基因的mRNA转录本、mRNA反转录得到的cDNA、从cDNA转录的cRNA、从基因扩增的DNA、从扩增的DNA转录的RNA等。
片段、区段或DNA区段是指一个大的DNA多核苷酸或DNA的一部分。例如,一个多核苷酸可以被打碎或分成多个区段。各种使核酸片段化的方法在本技术领域内是广为人知的。这些方法可以在本质上是例如化学的或物理的。化学片段化方法可以包括用DNase部分降解;用酸部分脱嘌呤;使用限制性内切酶;内含子编码的内切核酸酶;基于DNA的切割方法,例如三螺旋和杂交体形成的方法,这种方法依靠核酸区段的特异性杂交以将切割试剂定位到核酸分子中的特定位置;或其它能够在已知或未知的位置切割DNA的酶或化合物。物理片段化方法可以包括将DNA处于高剪切速率下。高剪切速率的产生可以通过例如将DNA通过内部凹凸不平的空腔或通道运动,或迫使DNA样品通过一个限制了孔径的流动通道,例如横截面大小在微米或亚微米级的孔道。其它的物理方法包括超声和雾化。将物理和化学片段化相结合的方法同样可以使用,例如通过加热和离子介导的水解进行片段化。参见例如Sambrook等编写的《分子克隆实验室手册》(第三版,冷泉港实验室出版社,冷泉港,纽约,2001年),在此为所有目的引为参考。这些方法可以被最适化以便将核酸消化成选定的大小范围的片段。可以使用的大小的范围为从100、200、400、700或1000到500、800、1500、2000、4000或10000碱基对。但是较大的大小范围例如4000、10000或20000到10000、20000或500000碱基对也可以使用。参见例如Dong等,Genome Research 11,1418(2001)和美国专利Nos.6,361,947和6,391,592,在此引为参考。
引物是在适当的条件例如缓冲液和温度下、在存在四种不同的核苷三磷酸和聚合试剂例如DNA或RNA聚合酶或反转录酶的情况下,能够作为模板指导的DNA合成的起始点的单链寡核苷酸。在任何给定的情况下,引物的长度依赖于例如引物的使用目的,一般来说范围从15到30个核苷酸。短的引物分子一般需要较低的温度才能与模板形成足够稳定的杂交复合物。引物不需要反映出模板的准确序列,但是必须具有足够的互补性以便与这样的模板杂交。引物位点是模板上与引物杂交的区域。引物对是一组引物,包括一个5’端上游引物,它与被扩增序列的5’末端杂交,以及一个3’端下游引物,它与被扩增序列的3’末端的互补链杂交。
基因组是一个生物体中所有的遗传物质。在某些情况下,术语基因组可以是指染色体DNA。基因组可以是多染色体的,以至于DNA在细胞中分布在多个单独的染色体上。例如在人类中有22对染色体加上与性相关的XX或XY染色体对。从一个特定生物体的染色体中的遗传物质衍生的DNA是基因组DNA。术语基因组也可以指来自不具有染色体结构的生物体的遗传物质。此外,术语基因组可以指线粒体DNA。基因组文库是代表了一个基因组的全部或部分的DNA片段的集合体。通常情况下,基因组文库是从一组随机产生的、有时重叠的、代表了一个生物体的全部基因组或基因组的一部分的DNA片段中制备的克隆所组成的集合体。
等位基因是指细胞或种群中一个遗传序列(例如基因)的一种特定形式,这种特定的形式与同样基因的其它形式在基因序列中至少一个、通常多于一个变异位点上的序列不同。这些在不同的等位基因间不同的变异位点的序列被称为“变异”、“多态性”或“突变”。在每个常染色体特异性的染色体位置或“位点”上个体拥有两个等位基因,一个从父亲继承一个从母亲继承。如果在一个位点上有两个不同的等位基因,这个个体在该位点上是“杂合的”。如果在一个位点上有两个相同的等位基因,这个个体在该位点上是“纯合的”。
多态性是指在一个种群中存在两个或多个遗传决定的可以替代的序列或等位基因。多态性标记或位点是出现差异的位点。优选的标记具有至少两个等位基因,在选定的种群中每个等位基因都以大于1%、更优选为大于10%或20%的频率出现。多态性可以包括一个或多个碱基的变化、插入、重复或缺失。多态性位点可以小到1个碱基对。多态性标记包括限制性片段长度多态性、串联重复序列数量变化(VNTR’s)、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、简单序列重复和插入元件例如Alu。第一个鉴定的等位基因形式被武断地指定为参比形式,其它的等位基因形式被指定为可替代的或变异的等位基因。在选定的种群中出现频率最高的等位基因形式有时被称为野生型。二倍体生物在等位基因的形式上可以是纯合的或杂合的。双等位基因的多态性具有两种形式。三等位基因的多态性有三种形式。单核苷酸多态性(SNPs)也包括在多态性中。
单核苷酸多态性(SNPs)是在人群中两种可以替代的碱基都以明显的频率(>1%)出现的位置,是人类遗传变异最常见的类型。该位点的前后通常具有高度保守的等位基因序列(例如在种群中只有不到1/100或1/1000的成员中发生变化的序列)。单核苷酸多态性通常是由于在多态性位点上由一个核苷酸代替了另一个核苷酸而引起的。换同(transition)是指用一个嘌呤代替另一个嘌呤或用一个嘧啶代替另一个嘧啶。换异(transversion)是指用一个嘧啶代替一个嘌呤,或反之亦然。单核苷酸多态性也可以由相对参比等位基因而言缺失了一个核苷酸或插入了一个核苷酸而引起。
基因分型是指对一个个体在基因组的一个或多个位置上携带的遗传信息进行确定。例如,基因分型可以包括确定在单个SNP中个体携带了哪个或哪些等位基因、或确定在多个SNPs中个体携带了哪个或哪些等位基因。基因型可以是存在于个体的一个或多个多态性位点上的等位基因的身份。
连锁不平衡或等位联合(allelic association)意味着一个特定的等位基因或遗传标记与染色体上邻近位置的一个特定的等位基因或遗传标记倾向性联合的频率,比预计的种群中任何特定的等位基因随机的频率要高。例如,如果位点X具有等位基因a和b,它们出现的频率相同,连锁的位点Y具有等位基因c和d,它们出现的频率也相同,那么人们将预期ac组合出现的频率是0.25。如果ac出现得更频繁,那么等位基因a和c处于连锁不平衡。连锁不平衡可以是由于某些等位基因组合的自然选择,也可以是因为一个等位基因被引入种群中的时间太短,还没有与连锁的等位基因达到平衡。连锁不平衡中的标记在检测对疾病(或其它表型)的易感性方面特别有用,尽管标记本身不引起疾病。例如,一个标记(X)本身不是一个致病因素,但是它与一个能够引起某种表型的基因(Y)(包括调控序列)处于连锁不平衡中,因此在基因Y还没有被鉴定或不容易被检测的情况下,可以检测标记X来指示对疾病的易感性。
III、确定转录活性的方法在一方面,本发明提供了使用寡核苷酸探针探察基因组的转录活性的方法。如同在实施例中显示的,本发明的方法在揭示基因组的转录活性和提供关于基因组功能的有价值的信息方面是有力的工具。本方法在生物学、医学、环境科学、工业生物技术、制药工业和许多其它领域中有许多实际的应用。
本发明的示例性的方法已经被成功地应用于揭示人类的21号和22号染色体的隐藏的转录活性(Kapranov,P.等,人类21号和22号染色体的大规模转录活性,Science,296916-919(2002),在此引为参考)。许多被揭示的转录本已经被几种不同的技术所证实,包括常规的Northern印迹和RT-PCR。
在结合了对cDNA序列与染色体序列进行比对和解释基因组序列以预测编码区的基础上,人类基因组的转录活性区已经被作图(http//www.ncbi.nlm.nih.gov/LocusLink/;Rubin,G.M.等,Science 287,2012(2000);Caron,H.等,Science 291,1289(2001);Wright,F.A.等,GenomeBiology 2,1(2001))。与其它方法相比,在该应用中的方法提供了几个优点,包括鉴定了通过以前的实验或序列分析没有观察到的新的转录区域,检测到了没有或几乎没有编码能力的RNA转录本,以及/或鉴定了以前注释的基因的可替代的RNA同工型。
在某些实施方案中,探察转录活性的方法包括以下的步骤从1个、2个或更多个细胞区室(例如细胞核、细胞质等)中获得含有polyA的RNA(或总的RNA)样品;将含有polyA的RNA或从RNA衍生的核酸与一个寡核苷酸探针阵列杂交,其中的寡核苷酸探针阵列含有至少10000、50000、100000、500000或1000000个完全匹配的(PM)探针,每个完全匹配的探针靶向来自一个基因组区域的不同的转录本序列;以及如果针对某个基因组序列的探针与靶杂交了就可以确定该基因组序列被转录了。
在这种方法中,RNA样品的制备是首先通过将细胞核与胞质的细胞区室分离开来,然后将RNA转录本分成总的RNA或含有polyA的RNA的部分。分离细胞核与胞质的细胞区室以及分离RNAs和含有polyA的RNAs的方法在本技术领域内是众所周知的,示例性的方法在后面的实施例中有描述。
通过将注意力集中在特异性转运到细胞质中并富集了大多数成熟的和加工形式的RNA的亚群,本方法允许对稀少的和有潜在兴趣的RNA转录本进行检测和鉴定,由于稀释效应它们以前还没有在这个RNA库中被观察到。但是,本发明的方法不限于用于带有polyA的细胞质RNAs。例如,在一个实施例中,使用高密度寡核苷酸探针阵列探察了从细胞核分离的含有polyA的RNAs。从细胞核获得的转录本分布图与从细胞质RNA获得的分布图进行比较,显示了有趣的区别,可能与某些生物功能相关(数据未显示)。
尽管将含有polyA的RNA与高密度寡核苷酸探针阵列直接进行杂交是可能的,但通常情况下优选使用衍生的核酸代替。衍生的核酸是使用样品RNAs作为模板获得的。衍生的核酸可以是DNAs(例如cDNAs)或RNAs(例如cRNAs)或它们的类似物或模拟物。许多方法可以被用来制造衍生的核酸,包括使用随机引物进行cDNA合成(参见示例性方案中的例子)。cRNAs可以使用cDNA作为模板通过一个体外转录反应制备。核酸扩增例如PCR、LCR、链置换扩增、体外转录等可以被用来例如增加检测的灵敏度。
重要的是注意到在制造衍生核酸的过程中,可能发生向5’或3’末端序列的某些倾向性,这依赖于用于制造衍生核酸的方法。在某些实施方案中,优选使用无倾向性的或倾向性少的方法。在其它的实施方案中,可以将倾向于5’末端的方法和倾向于3’末端的方法结合使用以探察转录本的5’和3’末端。
一般来说,为了便于检测将核酸进行标记。核酸标记技术在本领域内是众所周知的,并在许多在此引为参考的专利/专利申请中有描述。在下面的实施例部分描述了一种优选的标记方法。本领域的专业技术人员将会认识到本发明的方法的许多实施方案不依赖于具体的标记方法。事实上,本方法也可以以不利用标记的核酸检测技术使用。
尽管本发明的方法可以被用于探察任何大小的基因组区域的转录活性,但本方法对于探察较大的基因组区域特别有用,例如至少20MB、50MB及更大的区域,或一个染色体中25%、50%或100%的DNA序列。在某些实施方案中,使用了一套1、2、5、10、50或100个探针阵列探察了一个完整的基因组的DNA序列。
探针可以以至少100、30、10或1碱基对的分辨率靶向基因组的转录本序列。
一般来说,每个寡核苷酸探针阵列含有至少10万、50万或80万个寡核苷酸探针,每个都靶向基因组不同区域的转录本序列。寡核苷酸探针可以是15、20、25、30、35、40、45、50、55或60个碱基长。它们可以使用例如光指导的合成方法被合成在基质上。此外,它们也可以被预先合成然后点在基质上形成微阵列。但是,在优选实施方案中,寡核苷酸是25聚体并使用光指导的合成方法合成。寡核苷酸被固定在功能点(feature)(每个被设计含有一个探针的区域是一个功能点)上,大小小于20、15、14、10、8、5、2或1微米。
除了完全匹配的探针外,寡核苷酸阵列也可以含有一个或多个被设计为错配(MM)探针的寡核苷酸。每个错配探针与完全匹配探针有一个碱基的不同。在优选实施方案中,错配探针与完全匹配探针的不同是在中间的位置上。也可以包括其它的对照探针。
完全匹配的探针一般根据基因组序列和所需的探察分辨率来选择。在优选实施方案中,基因组的重复序列被过滤掉而不用做探察区域。
在另一方面,本发明提供了确定探针对是否检测了RNA靶的方法。在某些实施方案中,使用了PM与MM测量值的比率(R)和PM-MM值之差(D)的阈值范围来作出阳性检测。一个具有扣除背景后的完全匹配强度PM和错配强度MM的探针对,如果PM/MM的比率超过了某个比率的阈值R并且PM-MM的差超过差阈值D,就被称为是阳性的,否则被称为阴性的。对阈值的改变导致不同水平的灵敏度和特异性。转录图谱的产生可以使用R的范围在1.1到1.5,D的范围在4Q到12Q,其中的Q为功能点内点阵(pixel)的变量,属于芯片探针强度的第二个百分率数值,是对噪音变量的估计。
在某些实施方案中,特别是在高分辨率检测例如1bp分辨率的情况下,希望通过询问邻近的探针是否也具有超过R和D阈值的数值来增加每个探针对访问的可信度。通过设置邻近探针的最小数量(minrun)和邻近的探针之间的最大间隙(maxgap),具有相邻的RNA运行(重叠群)的图谱可以建立。考虑到探针在渐进的两步过程中的局部行为可以对图谱进行改进。例如,在第一次操作中,在阳性探针对之间运行的阴性探针对,如果在运行长度上至多达到最大间隙碱基长度,就可以被重新分类为阳性的。在第二次操作中,阳性探针对运行的长度少于最小数量碱基就可以被重新分类为阴性的。这个步骤的效果是减少假阴性和假阳性的比例。示例性的最大间隙和最小数量的值可以分别为5和20。
计算机软件和计算机系统被用于进行数据分析。计算机软件可以包括执行数据分析方法(例如确定探针对是否检测到了RNA)的计算机软件编码。计算机程序编码一般储存在适当的计算机可读介质中,例如硬盘驱动器、CD-Rom、DVD-Rom等。用于数据分析的计算机系统是用于执行本发明的数据分析的计算机系统(包括计算机网络)。
在本发明的另一方面, 掺入的RNA转录本可以用作对照。例如,在分析人类转录本时,含有特定序列缺失的细菌RNA转录本可以被放在每个含有polyA的RNA样品中。细菌的转录本可以被用来估计灵敏度和假阳性的比率(参见下面的实施例)。
转录活性的分布图可以在不同条件下获得,例如在正常及患病情况下、不同的生理和病理条件下、各种化学物质处理时。可以对这些分布图进行比较,以揭示可能与生理、病理或毒理条件相关的转录活性(参见例如美国专利NO.6,033,860)。
在本发明的一个方面,转录活性的分布图可以被储存在计算机数据库中(例如一个相关的数据库)。分布图可以以各种方式被搜索、概括和分析。
转录活性的分布图可以被用于指导新的转录本的验证和分离(克隆)。例如,如果检测到基因组的一个区域被转录了,可以设计引物进行RT-PCR来证实和分离转录的序列(参见实施例部分中的例子)。分离的cDNA可以用于研究其功能。
在本发明的另一个方面,使用本发明的方法制作的转录活性的分布图可用于临床诊断。在这些应用中,从一个病人样品获得的转录活性的分布图可以与一个或多个参比的分布图(患病的或正常的)进行比较,以检测与参比分布图在转录活性形式上的相同性。参比的分布图可以通过使用本发明的方法探察患病的或正常组织的转录活性来获得。
转录活性分布图作图也可以用于体外毒性试验。在这样的应用中,使用一种化学化合物处理细胞培养物。细胞的转录活性可以被探察。转录活性的分布图可以与参比分布图进行比较以检测该化合物是否具有毒性。参比的分布图可以通过测试已知有毒和无毒的化合物获得有毒的和无毒的转录活性分布图而产生。
同样地,转录活性分布图作图可以用于试验侯选药物。在这样的应用中,可以在细胞培养中测试侯选药物以确定它是否诱导了预期的转录活性。
在本发明的另一个方面,使用本发明方法发现的转录活性可以被用来设计用于基因表达监测的微阵列。例如,转录图谱可以被用于鉴定新的转录本。可以设计靶向新的转录本的探针,并将其固定在基质上形成一个能够用于监测该新的转录本的表达的微阵列。
本发明的探察阵列也可以用于大规模(例如基因组规模)检测DNA蛋白结合位点、复制原点和其它的基因组活动。将利用阵列探察基因组获得的信息组合起来,对于理解基因组的生物功能是一个有力的工具。
IV、实施例——21和22号染色体中的人类基因组大规模转录活性下面的实施例说明了本发明的各个方面。
为了证明本发明方法的威力,本方法被用来在核苷酸水平上开发了人类基因组转录活性区域的经验图谱,并将该图谱与从其它方法获得的序列解释建立了关联。
寡核苷酸探针阵列产生了能够以系统的方式探察人类21和22号染色体序列的带有寡核苷酸探针的阵列,使用了均匀间隔的探针,可以探察每个碱基或平均每30个碱基对(bp)。这种方法的优点有几个,包括鉴定了通过以前的实验或序列分析没有观察到的新的转录区域,检测到了没有或几乎没有编码能力的RNA转录本,以及鉴定了以前注释的基因的可替代的RNA同工型。
样品制备这个鉴定21和22号染色体的转录活性区域的实验努力的一个重要方面是制备将要被作图的靶细胞RNA转录本。RNA样品的制备是首先通过将细胞核与胞质的细胞区室分离开来,然后将RNA转录本分成总的RNA或含有polyA的RNA的部分。在搜索21和22号染色体的转录活性区域时样品的制备方法执行了一种无倾向性的策略,允许将分析集中在被特异性转运到细胞质中并富集了大多数成熟的和加工形式的RNA的亚群上。这样,就允许对稀少的和有潜在兴趣的RNA转录本进行检测和鉴定,由于稀释效应它们以前还没有在这个RNA库中被观察到。
实验设计和误差估计总共使用了11个来自各种发育来源的不同的细胞系来获得RNAsA-375(黑素瘤,ATCC No CRL-1619);CCRF-CEM(急性成淋巴细胞白血病;T成淋巴细胞);COLO 205(结肠直肠腺癌,ATCC No CCL-222);FHs738Lu(正常胎儿肺成纤维细胞,ATCC No HTB-157);HepG2(肝胚细胞瘤,ATCC No HB-8065);Jurkat(急性T细胞白血病);NCCIT(畸胎癌,ATCC NoCRL-2073);NIHOVCAR-3(卵巢腺癌,ATCC No HTB-161);PC3(前列腺癌,ATCC No CRL-1435);SK-N-AS(成神经细胞瘤,ATCC No CRL-2137);U-87 MG(星形细胞瘤,ATCC No HTB-14)。Jurkat和CCRF-CEM从Jacques Corbeil博士处获得(加州大学San Diego分校爱滋病研究中心和退伍军人医学研究基金会)。每个细胞系的制备都将细胞核和细胞质区室分离,并在每个细胞系中存在的RNAs被分级以获得含有polyA的亚级分。总的细胞质RNA及其含有polyA的级分通过使用RNeasy和Oligotex试剂盒(Qiagen)按照制造商的说明进行制备。将mRNA与随机的六聚体(83.3ng/μg mRNA;Life Technologies)和细菌的对照转录本(参见下面)混合,在PE GeneAmp9600 PCR系统中按照下面的循环条件进行扩增70℃10分钟,在用10分钟降低到25℃,然后加入5x Superscript II第一条链缓冲液(Life Technologies)、DTT和四种dNTPs到终浓度分别为1x、10mM和0.5mM,然后在25℃保温10分钟。此时加入Superscript II RTase(200单位/μg mRNA;Life Technologies),然后用10分钟将温度升高到42℃,在42℃保温60分钟。
第一条链cDNA合成反应的体积是20μl/3μl mRNA。在70℃ 15分钟使反转录酶失活后,将第一条链cDNA分成20μl的等份,用做模板合成第二条链cDNA,使用SuperScript选择系统cDNA合成手册(LifeTechnologies)中描述的条件进行。在第二条链合成反应后,利用RNAseA/T1鸡尾酒(Ambion)和RNAseH(Life Technologies)组合将mRNA模板降解。每个细胞系的第二链合成反应液被合并,使用QIAquick PCR纯化试剂盒(Qiagen)纯化,乙醇沉淀,加入限量的DNAse I(Epicenter Technologies)消化产生50-100bp的片段。cDNA的标记在70μl的体系中进行,使用100个单位的末端转移酶(Roche)和71.4μM生物素-N6-ddATP,37℃ 2小时,然后直接用于杂交,杂交在下面的混合液中进行30mM MES(Sigma M-2933),74mM MES·Na(Sigma M-3058),3M四甲基氯化铵(Sigma T-3411),0.1mg/ml鲱鱼精子DNA(Life Technologies),0.02%Triton X-100,1X真核生物杂交对照物(Affymetrix),0.05nM对照的生物素化的寡聚体948或213(Affymetrix)。一般来说,每个杂交使用1-2μg双链的标记的cDNA。
杂交和检测用于探察转录活性的寡核苷酸探针阵列(芯片)在45℃杂交16-18小时。使用如Affymetrix表达分析技术手册中所述的抗体扩增方案进行清洗。芯片在GeneArray扫描仪上扫描,使用最高的PMT设置和2μm的点阵。每个样品杂交三份。
因为从该亚级分的RNA拷贝而来的cDNAs是标记的并用做阵列的靶,在这个步骤中应该小心以避免可能的DNA污染。来自NCCIT和COLO205细胞系的细胞质含有polyA的RNA用无RNase的DNAse I(2单位/μgmRNA,Roche)在存在10mM Tris-乙酸(pH7.5)、10mM乙酸镁、50mM乙酸钾、1单位/μl ANTI-RNAse(Ambion)的情况下,于37℃处理1小时。作为DNAse I消化的对照,在反应液中加入对照DNAs(1ng/μg mRNA),它们对应于含有三个细菌的每个对照当中的片段LYS 328-1344、PHE2016-3331、THR 247-2231的质粒(参见下面对这些对照基因的完整的描述)。在DNAse I消化后,mRNA通过苯酚/氯仿抽提和乙醇沉淀进行纯化,用于cDNA的合成和与上述的21-22号染色体和DGCR阵列杂交。在已知的外显子内和解释的区域外杂交的探针的数目被计算出来,发现与相应的未处理的样品的数目相比没有显著的不同(数据未显示)。作为另一个基因组DNA污染的对照,总的细胞质RNA及其含有polyA的级分在RT-PCR反应前预先用无DNAse的RNAse(Roche)处理。
此外,使用了可以购买到的高密度寡核苷酸阵列(例如GeneChipHG_U-95探针阵列)对存在于细胞核和细胞质中的RNAs的分离进行了评估。来自每个细胞系的细胞质或细胞核级分的总RNA如上所述使用随机引物被转化成单链cDNA,用DNAse I片段化,并用末端转移酶进行末端标记,但是不进行第二链cDNA的合成。将该cDNA与GeneChipHG_U-95A阵列杂交,实验进行双份。使用探针组38446_at对人类Xist基因的表达进行监测,发现它是核特异性的,并且只存在于雌性来源的细胞系中。此外,许多含有LINE、HERV和其它类型的重复序列以及独特区域的未知功能的cDNA在细胞核中经常能够被检测到,但是在各个细胞系的细胞质级分中不能检测到。
存在于GeneChipHG_U-95A阵列(Affymetrix)上的被选择用于探察X染色体失活基因(Xist)的寡核苷酸探针组被用来测试细胞核/细胞质分离技术的质量。对从Jurkat、CCRF-CEM、SK-N-AS、A375、HepG2、NCCIT和FHs 738Lu细胞系获得的细胞核和细胞质RNA级分的分析表明,Xist基因的表达只在雌性来源的CCRF-CEM、SK-N-AS和A375细胞系的细胞核RNA级分中才被检测到。该基因的表达在雄性来源的细胞系的细胞核级分和任何细胞系获得的细胞质RNAs中都不能检测到(数据未显示)。此外,细胞核和细胞质RNA区室的分离允许对低拷贝数RNAs进行富集。
在伴随细胞核和细胞质的分级而富集了RNA后,能够观察到对总基因的表达的检测增加了大约10-20%。
从11个细胞系的细胞质含有polyA的RNA级分中制备的标记cDNAs被杂交到高密度的寡核苷酸(25聚体)阵列上,单个的合成功能点为14×14微米。这些阵列含有大约800000个探察探针。使用这种探针密度利用了两个阵列设计。第一个阵列设计对每个碱基使用了一个完全互补(PM)和错配(MM)互补的寡核苷酸探针组来探察22号染色体的362,901个连续的的核苷酸。这种单碱基探察设计(DGCR阵列)被用来对定位在22号染色体上(22q11.2)的DiGeorge氏综合症关键区域(DGCR)的RNA转录进行作图(Driscoll,D.A.等,Am.J.Hum.Genet.50,924(1992);Greenberg,F.等,Am.J.Hum.Genet.43,605(1988);Cary,A.H.等,Am.J.Hum.Genet.51,964(1992))。第二个阵列设计使用了在三个阵列组上合成的1,011,768个探针对探察了21和22号染色体(21_22号染色体阵列)的三千五百万个非重复性的碱基对。寡核苷酸探针序列的选择使用了Affmetrix开发的基于经验的规则,并根据Unigene 95数据库以及21和22号染色体的序列进行修剪,去掉潜在的完全或部分的同源物。21_22号染色体阵列上的每个探针对探察平均30个碱基的非重复基因组序列。这些染色体的重复序列区使用RepeatMasker软件进行了鉴定(http//www.genome.washington.edu/UWGC/analysistools/repeatmask.htm)。数据分析确定一个探针对是否检测到了一个RNA靶,是通过使用PM与MM测量值的比率(R)和PM-MM值的差(D)的阈值范围来作出的。一个具有扣除背景后的完全匹配强度PM和错配强度MM的探针对,如果PM/MM的比率超过了某个比率的阈值R并且PM-MM的差超过差阈值D,就被称为是阳性的,否则被称为阴性的。对阈值的改变导致不同水平的灵敏度和特异性。图谱的产生使用R的范围在1.1到1.5,D的范围在4Q到12Q,其中的Q为功能点内点阵的变量,属于芯片探针强度的第二个百分率数值,是对噪音变化的估计。由于用在DGCR阵列设计中的探察探针有重叠,因此对每个探针对通过询问邻近的探针是否也具有超过R和D阈值的数值,有可能增加每个探针对访问的可信度。通过设置邻近探针的最小数量(minrun)和邻近探针之间的最大间隙(maxgap),具有相邻的RNA运行(重叠群)的图谱可以建立。考虑到探针在渐进的两步过程中的行为可以对图谱进行改进。在第一次操作中,在阳性探针对之间运行的阴性探针对,如果在运行长度上至多达到最大间隙碱基长度,就可以被重新分类为阳性的。在第二次操作中,阳性探针对运行的长度少于最小数量碱基就可以被重新分类为阴性的。这个步骤的效果是减少假阴性和假阳性的比例。所用的最大间隙和最小数量的值分别为5和20。
由于在设计中所用的探针之间的距离,没有建立21_22染色体阵列数据的重叠群。通过在任何细胞系实验中固定R和D阈值,有可能计算出假阳性、特异性和灵敏度比率。含有特定的序列缺失的细菌RNA转录本被放置在每个含有polyA的RNA样品中。枯草芽孢杆菌(Bacillus subtilis)的基因/操纵子被用来估计FP比率lys(LYS,1612bp,Acc.No.X17013);spo0B,obg,pheB,pheA(PHE,3360bp,Acc.No.M24537),thrC,thrB(THR,2400bp,Acc.No.X04603);jojC-birA(DAP,6540bp,Acc.No.L38424);trp操纵子(TRP,2525bp,Acc.No.K01391bp.1883-4404)。这些位点的完整序列被铺在DGCR芯片上。对于21_22号染色体阵列,使用与其余的基因组序列相同的探针选择规则从所用的每个基因/位点的下列区域中大约每30bp挑选一个探针LYS 328-1344;PHE 2016-3331;THR 247-2231;DAP1357-3196;TRP 1-2517。相应于5个位点中每个的一种较小片段的多聚腺苷化转录本被产生用于评估阵列的灵敏度,而在掺入区域之外的细菌区域被用来确定FP比率。对应于掺入的转录本的每个基因/位点的区域是LYS 817-1344;PHE 2852-3331;THR 1221-2231;DAP 1357-2493;TRP 1-1261。对照的细菌转录本在cDNA合成步骤之前以下列浓度(拷贝/细胞)被掺入到人类含polyA的制备物中LYS和PHE为3;THR和DAP为10;TRP为30,其中假设在人类细胞中有300000个不同的mRNA种类,并且一个转录本的平均大小为1300nt。
对这些阵列实验的假阴性(FN)比率的估计使用了该掺入的细菌RNA对照转录本和被确定为存在于从每个细胞系中提取的含有polyA的RNA样品中的外显子序列,通过反转录酶介导的PCR(RT-PCR)扩增分析来进行。在提取的含有polyA的RNA中检测到了总共52/99的外显子区域。从这些实验,对于每个细胞系,对于一组固定的R和D值20,也可能确定假阳性(FP)、灵敏度(Sn)和特异性(Sp)值。
某些靶假阳性比率的图的产生是通过固定最大间隙、最小数量和D值,然后在1.1到1.5的范围内调整R直到在细菌对照中达到了该靶假阳性比率。如果在特定的R范围内不能达到靶比率,使用最接近达到的值。
对于探察22号染色体DGCR中的每个碱基的阵列来说,表1A说明了在5%FP比率时,细菌对照序列的Sn在47-65%的范围内,人类外显子RNA序列的Sn在15-26%的范围内。表1B为固定R和D值的21_22号染色体阵列实验提供了同样的数据。这些数据突出了一点,使用细菌对照序列作为对照评估Sn和Sp值可能获得比使用人类外显子序列作为对照更高的灵敏度。细菌和人类的Sn值的差别可以归因于存在于细菌和人类靶之间浓度的差别,归因于根据它们与在人类细胞中发现的竞争性RNA的相互作用而推出的两种类型的对照(人类和细菌的)在核苷酸组成和序列上的差别。
表1、灵敏度和特异性估算A.DGCR(22q 11.2)1细胞系 BacSp22BacSn3HumSn4pct.Pos5pct.PosUnq6A-3750.8570.4870.16721.72 14.561CCRF-0.8170.6130.22120.642 11.077CEMCOLO 205 0.8200.6520.18518.772 8.279FHs 738Lu0.7750.4730.26122.872 14.499HepG20.7950.5550.24023.203 15.82Jurkat 0.7830.5420.15320.064 9.876NCCIT0.8040.5450.16221.664 9.584NIH0.7850.5040.24320.721 10.908OVCAR-3PC3 0.7920.5590.16117.35 6.765SK-N-AS 0.8730.2590.10916.708 9.676U-87MG 0.8220.6410.18718.76 7.3351除了A-375(FP=3%)和SK-N-AS(FP=1.4%)之外,估算都是在FP比率大约5%时作出的,R值范围从1.17到1.47(17,18)。2细菌的特异性。3细菌的灵敏度。4人类的灵敏度。5在全部360kb的DGCR中阳性探针的百分率。6在360kb的DGCR的非重复性序列中阳性探针的百分率。对于细菌对照FP比率被计算为在样品中不存在细菌对照区域中称作阳性的探针的比例;BacSp2是从公式TP/(TP+FP)计算出来的,其中TP是在细菌对照的存在区域中阳性探针的数量,FP是在细菌对照缺失的区域中阳性探针的数量,以及BacSn从TP/(TP+FN)计算出来,其中FN是在细菌对照的存在区域中阴性探针的数量。对于人类的DGCR区域HumSN是在相应于已知的基因(DGCR6、DGCR2外显子6-10、DGS-I、DGS-H、DGS-A、SLC25A1外显子1-4和网格蛋白)和一个有效的位点RP8的52个外显子或外显子部分中称作阳性的探针的部分,这些基因和位点已经通过RT-PCR被显示存在于人类细胞系中。用于计算HumSn比率的区域的准确座标和描述可以在http;//www.netaffx.com/transcriptome上发现。
B.21-22号染色体1细胞系 BacSp2BacSnBacFp pct.Pospct.PosExnA-375 0.94 10.711 0.046 0.062 0.272CCRF-0.88 0.8610.121 0.115 0.44CEMCOLO 2050.858 0.8640.148 0.121 0.445FHs 738Lu 0.874 0.7350.117 0.094 0.341HepG2 0.886 0.8590.114 0.099 0.386Jurkat 0.926 0.7420.061 0.073 0.335NCCIT 0.904 0.7870.088 0.086 0.341NIH0.86 0.8170.139 0.107 0.433OVCAR-3PC3 0.853 0.8290.151 0.145 0.447SK-N-AS 0.949 0.6460.036 0.059 0.234U-87MG 0.839 0.8540.170.127 0.441对于所有的细胞系阈值被固定为R=1.3和D=12Q(17)。BacFP比率变量,参见表1A的注脚。
DGCR的高分辨图谱正如预料的那样,为21和22号染色体产生的图谱是高度片段化的,其原因包括对于杂交使用了单独一套热力学条件,探针对的特异性杂交性质,间隔相对稀疏的探针对与部分互补序列的交叉杂交,以及为预测两个相邻阳性探针之间的结构关系而对开发算法的需要。减少图谱片段化本质的一个方法是增加探察探针的密度。DGCR(22q11.2)的转录活性区的图谱是使用362,901个间隔为一个碱基对的寡核苷酸探针作出的。使用该阵列对重复性(42%)和非重复性(58%)的序列都进行了探察。该区域的一部分的第一个转录图谱是由Gong等构建的(Gong,W.等,Human MolGenet 5,789(1996);Gong,W.等,Human Mol Genet 6,267(1997))。13个表征明确的基因(99个外显子)和2个假基因已标示在DGCR图谱中。一个描述了被注释的外显子序列和基于阵列检测到的转录活性区的位置的高分辨率图谱已被开发,来自该区域的4个被标注的基因描绘在图1A-1D中。重叠的探针对的应用允许在该区域内构建重叠群,并有助于图谱中碎片的去除。这个图谱重叠群的形成,允许我们将11个细胞系中每种的FP比率的估算降低到大约3-5%,同时基于人类的对照序列的灵敏度范围为15-25%(表1A)。与使用21和22号染色体的图谱观察到的相同,大部分检测的转录本(59.4%-65.9%)的位置远离被注释的外显子和EST序列(表2B)。
表2被转录的基因组的比例A.21和22号染色体1
1(1,011,768个探针,26,516个查询外显子被标注在已知的mRNAs例如RefSeqs、Sanger手绘mRNA和GenBank mRNAs中,ESTs不被包括作为基因组已表达的一部分。
B.DGCR(22q11.2)1.
1.该值是在213,009个探察非重复性碱基的探针的基础上计算出来的,其中61,842个探针定位于被注释的DGCR的表达区中;2.每一个单独细胞系的靶FP比率。3.参考表2A中提到的数据库以及对该区所有的ESTs图谱。
通过结合使用更高分辨率的分析阵列,以及选择从细胞核中特异性转运的最成熟的RNA转录本的亚级分,也可以获得有关转录体被注释部分的其他信息。例如,DiGeorge关键区基因6(DGCR6)是DGCR中的第一个基因(Demczuk,S.等,Human Mol Genet 5,633(1996))。利用DGCR阵列,这个被注释区的转录活性的分析提供了关于该基因的外显子和内含子结构的新的信息。图1A显示了当前被注释的DGCR6的结构,是用Sanger-手绘(hand curated)数据库创建的(http//www.sanger.ac.uk/HGP/Chr22)。使用5%FP误差估算由DGCR阵列产生的图谱表明外显子1和5也许比原先提到的要长,在内含子3中有转录活性的证据。RT-PCR分析和后来对PCR产物的克隆/测序证实了阵列数据,并且导致鉴定了DGCR6外显子1和5的经典的和可替代的两种形式,以及内含子3中的转录活性。有趣的是,Edelmann等最近的研究支持了这些数据,即外显子1长度的延长和未除去内含子3的DGCR6的可替代的剪接形式(26.Edelmann,L.等,Genome Research 11,208(2001))。
对于22号染色体DGCR的三个其它区域的注释也可以作出同样的改变(图1B-1D)。有十个外显子的DGCR2基因(图1B)在内含子3(DGSyndD)和5(DGSyndE)中含有两个非编码基因(22)。RT-PCR分析和随后的内含子5中转录本的测序表明DGSyndE的延长形式和该基因的5’转录本。另外限制性的RT-PCR分析为在DGCR2位点存在其它的转录本提供了确定的证据(图1B)。同样地,在DGCR5的内含子1(图1D)和高表达的SCL25A基因的5’区中也观察到并证实存在新的转录本。对于在DGCR中观察到的对阵列检测的转录本的其它支持证据来自该区的ESTs图谱。因此,这些图谱不仅可用于估计已被转录的人类基因组的全部级分,而且可以指导进一步的生物化学和分子工作以分离新的转录本。DGCR的完整序列以及21和22号染色体的非重复序列的高分辨率图谱也可以获得。
21和22号染色体的转录活性位点21和22号染色体分别有至少225个和545个表征明确和预测的基因。这些基因中大约有127和247个是充分表征的“已知基因”(Dunham,I等,Nature 402,489(1999);Hattori,M.等,Nature 405,311(2000))。这些表征明确的基因在21和22号染色体上分别有近1430和3134个外显子(在Refseq、cmma和Sanger序列中最好的基因组比对已用于产生一个外显子组集合的列表)。图2A-2B提供了在21和22号染色体上以前识别的和用阵列预测的转录活性的概况。通过将21和22号染色体上的非重复性基因组序列(~35Mb)分成57Kb的增量(21号染色体上每个基因的平均长度)(Hattori,M.等,Nature 405,311(2000)),在两个染色体上总共产生了620个基因大小的位点。假如每个探察探针对之间的平均距离为30bp,每个位点的阳性探针和外显子的密度(它是这样计算的,阳性探针的分数为在11个细胞系的至少8个中使用R=1.5和D=12Q所确定的阳性探针对数量除以在21和22号染色体的非重叠的57Kb窗口中探察探针对的数量。)可以作图并进行比较。外显子和阳性探针密度之间的相关性,在两个染色体序列的大多数的长度中被证明是是非随机的关系。在用来探察两个染色体的大约35,000,000个非重复bp的1,011,768个探针对中,26,516个(2.6%)探针对被定位在4,564个表征明确的基因的标注外显子中。在11个细胞系的至少1个或5个中,分别总共有69.8%和40.7%的这些注释所关注的探针检测到了RNA转录本(表2A)。被检测到的总的阳性探针的百分率在11个细胞系的1或5个中分别是1,011,768个探针的34.8%和9.6%。这表明在11个细胞系的1或5个中分别有94%和88%的检测转录本的探针被定位在标注外显子以外。这些阳性探针中大约有50%的位置距离最近的标注外显子大于300bp。这反映在阳性探针和外显子密度之间紧密的相关性上。
作图结果的证实在探针对水平上检测一个互补RNA靶的误差是使用掺入的和内源的RNA对照序列通过测量FP和FN的比率来估算的。对用DGCR和21_22阵列检测的RNAs的结构的确定包括应用三种不同的实验方法。在21和22号染色体上远离被标注的外显子的14个分散的基因大小的位置中,选择了14个单独的用阵列预测的转录位点作为独立的证实和分析的位点(表3)。使用从阵列检测到的阳性探针区的序列衍生的引物,以细胞质中含有polyA的RNA作为模板,进行了反转录酶介导的PCR反应(RT-PCR)(PT-PCR的过程使用C.therm.聚合酶一步RT-PCR系统来进行(Roche)。RT-PCR方法参考制造商的说明,使用10-50ng来自每个具体的细胞系的细胞质含有polyA的RNA。为了看到产物至少需要40个循环的扩增。PCR产物被克隆在pCR4-TOPO载体上(Invitrogen)并对产物的序列进行测定)。从12个这样的位点获得的大小范围大约为178至1036bp的预测的PCR产物被克隆和测序。这些PCR产物中有5个的核苷酸序列是染色体21或22所独有的。剩余被分析的区域在其它染色体上具有同源的拷贝。从每一个同源位点转录的RNA产物与源于被分析的染色体的转录本是可以区别开的。在所有的情况中,至少一部分被检测到的RNA转录本源自于染色体21或22的同源物,并且与已公布的人类基因组序列相关。对阵列预测的结果的其它置信度是通过由HepG2和NIHOVCAR-3细胞系的细胞质RNA产生的cDNA文库对12个位置中的9个产生预定长度和序列的PCR产物而获得的。在从cDNA文库获得PCR产物的9个位点中,部分的或全长的克隆被分离和测序。最后,用来自11个细胞系中的7个的含有polyA的RNA作为靶进行Northern杂交试验(A-375,CCRF-CEM,COLO205,FHs738Lu,HepG2,Jurkat,NIHOVCAR-3)(Northern印迹试验使用标准技术进行(Sambrook J.,Fritsch E.F,和Maniatis,T.,《分子克隆实验室手册》第二版,冷泉港实验室出版社,冷泉港,NY)。从每个具体的细胞系获得的3-5μg细胞质含有polyA的RNA被上胶。DNA探针使用随机的六聚体标记试剂盒(Roche)用[α-32P]-dCTP(Amersham)标记。滤膜在pH7.2的0.5M磷酸钠缓冲液、1%牛血清白蛋白、7%SDS中于65℃杂交过夜。杂交后,滤膜于65℃在2XSSC、0.1%SDS,1XSSC、0.1%SDS和0.3XSSC、0.1%SDS中连续洗涤,每次洗15分钟并暴露于X-光胶片3个星期。每一个被克隆和测序的RT-PCR产物被标记,并作为探针用于这些杂交试验。在被试验的7个细胞系的至少1个中,位于21和22号染色体上的12个位点中的4个含有可以被鉴定的全长转录本(图3A-3D)。其中有一个位点(Chr21-9)与大小范围为1-10Kb的异源转录本杂交(数据未显示)。使用Northern杂交分析,分析了DGCR2区的另外4个位点。杂交结果指出了额外的两个异源的转录子组。因此,通过Northern杂交分析,16个位点中的7个产生了可检测的转录本,几个位点以多个大小相同或不同的转录本为特征,其大小范围从0.6到10kb。
总之,对细胞质中含有polyA的RNA样品和cDNA文库的RT-PCR和序列分析表明,12/14由阵列实验预测是新的转录本的位点被转录了。此外,使用Northern杂交实验直接检测和确定这些RNAs的全长大小的实验揭示了它们通常是成熟的、已被加工的RNAs。有趣地是,某些Northern杂交产物表明从RT-PCR扩增子收集得到的序列接近全长或其大部分的大小。对这些扩增子产物的序列分析表明在这些被鉴定部分的新的转录本中几乎不存在编码能力。最后,基于滤膜的杂交实验表明被观测到的新的RNAs以非常低的拷贝数存在于在每一个细胞中,这为为什么以前没有观测到这些转录本提供了一些解释。同时有7个位点缺乏可以被Northern杂交实验所检测到的RNAs,这也与这些转录本的非常低的拷贝数的表象是一致的,重要的在于强调这些转录本是作为cDNA文库的一部分加以检测的,所述cDNA文库使用其序列由阵列数据所建议的引物对而被检查到的。
表3阵列检测的转录本的RT-PCR证实1
1为根据芯片确定为阳性的区域中的14个位点分别设计了几个引物对。引物一般被挑选在或靠近阳性探针或重叠群(在DGCR区域的情况下),与正向和反向引物之间的距离在200-500bp的数量级。一般来说,3到15个引物对被设计用于每一个位点。对于DGCR区域(Chr22 DGCR),5%FP图谱用于引物的选择,而对于染色体21区(Chr21),采用R=1.3和D=12的11个图谱中的一个被使用。对于某些位点,通过RT-PCR证实了一个以上的区域。每一个被证实的区域的起点与终点也被显示在铺于Chr22 DGCR位点的芯片上的DGCR区的序列的座标上,或显示在Chr21区的2000年10月冻结的Golden Path序列的座标上。来自HepG2和NIHOVCAR-3的cDNA文库被用于检测克隆,所述克隆含有与从这些细胞系的含有polyA的RNAs分离到的相同的RT-PCR产物。在其它染色体上具有与在RT-PCR产物中被鉴定的相同的序列的位置由BLAT检索(http//genome-test.cse.ucsc.edu/cgi-bin/hgBlat)显示。在基因组上的其它地方鉴定到了同源物的所有情况下,观察到了在21和22号染色体上对被探察的位点特异的RT-PCR产物,这是因为21或22号染色体的位点特异性的SNPs。*对于这些位点没有检测到RT-PCR。N/T-未测试N/D-未检测到。
结论该实施例显示出本发明方法的示例性实施方案是探索转录子组的有力工具。例如,在本实施例中,从11个发育不同的细胞系获得的细胞质含有polyA的RNA表明了,转运至细胞质的成熟RNA的转录位点可能比根据以前标注的人类基因组的序列所解释的位点要多9倍。
可以理解的是,以上描述目的是为了说明而不是限制。对于本领域的专业技术人员来说,看过上面的描述后,对本发明进行多种改动是显而易见的。本发明的范围将参考附带的权利要求以及所有与这些权利要求所要求的范围等同的范围来确定。所有被引用的文献、包括专利和非专利的文献,在此为所有的目的以其全文引为参考。
权利要求
1.一种确定基因组转录活性的方法,包括从细胞区室中获得含有polyA的RNA样品;将含有polyA的RNA或从该RNA衍生的核酸与一种寡核苷酸探针阵列杂交,其中寡核苷酸探针阵列含有至少10000个完全匹配(PM)的探针,其中每个完全匹配的探针靶向一个基因组区域的不同的转录本序列;以及如果针对基因组序列的探针与靶杂交了就可以确定该基因组序列被转录了。
2.权利要求1的方法,其中所述基因组区域是至少20MB。
3.权利要求2的方法,其中所述基因组区域是至少50MB。
4.权利要求3的方法,其中所述基因组区域是一个染色体中25%的DNA序列。
5.权利要求4的方法,其中所述基因组区域是一个染色体中50%的DNA序列。
6.权利要求5的方法,其中所述基因组区域是一个染色体的DNA。
7.权利要求6的方法,其中所述基因组区域是整个基因组的DNA序列。
8.权利要求2的方法,其中所述探针以至少100bps的分辨率靶向基因组的转录本序列。
9.权利要求2的方法,其中所述探针以至少30bps的分辨率靶向基因组的转录本序列。
10.权利要求2的方法,其中所述探针以至少10bps的分辨率靶向基因组的转录本序列。
11.权利要求2的方法,其中所述探针以1bp的分辨率靶向基因组的转录本序列。
12.权利要求2的方法,其中所述细胞区室是细胞核。
13.权利要求2的方法,其中所述细胞区室是细胞质。
14.权利要求13的方法,其中所述寡核苷酸探针阵列含有至少100000个寡核苷酸探针,每个探针靶向一个基因组不同区域的转录本序列。
15.权利要求14的方法,其中所述寡核苷酸探针阵列含有至少500000个寡核苷酸探针,每个探针靶向一个基因组不同区域的转录本序列。
16.权利要求15的方法,其中所述寡核苷酸探针阵列含有至少800000个寡核苷酸探针,每个探针靶向一个基因组不同区域的转录本序列。
17.权利要求2的方法,其中所述寡核苷酸阵列还含有错配(MM)的探针,其中每个错配的探针与完全匹配的探针有一个碱基的差别。
18.权利要求17的方法,其中每个错配的探针与完全匹配的探针的差别在中间的位置上。
19.权利要求2的方法,其中完全匹配的探针靶向基因组非重复性序列的转录本。
20.权利要求17的方法,其中如果PM与MM的比率(R)达到一个阈值,RNA靶就被检测到。
21.权利要求17的方法,其中如果PM与MM的差(D)达到一个阈值,RNA靶就被检测到。
22.权利要求17的方法,其中如果PM与MM的比率(R)达到一个阈值并且PM与MM的差(D)达到一个阈值,RNA靶就被检测到。
23.权利要求22的方法,其中R在从1.1到1.5的范围内,以及D在从4Q到12Q的范围内,其中Q是噪音的估计。
24.权利要求23的方法,其中Q是功能点内点阵的变量,属于探针阵列的探针强度的第二个百分率数值。
25.权利要求22的方法,其中检测考虑到了相邻探针的杂交行为。
26.权利要求25的方法,其中在阳性探针之间运行的阴性探针,如果在运行长度上至多达到探针间的最大间隙,就可以被重新分类为阳性的。
27.权利要求26的方法,其中最大间隙是5。
28.权利要求26的方法,其中阳性探针运行的长度少于最小运行碱基数就可以被重新分类为假阳性的。
29.权利要求28的方法,其中最小运行碱基数是20。
30.一种比较两个生物样品转录活性的方法,包括从第一个样品的一个细胞区室中获得第一个含有polyA的RNA样品;从第二个样品的一个细胞区室中获得第二个含有polyA的RNA样品;将第一个和第二个含有polyA的RNA或从第一个和第二个含有polyA的RNA衍生的核酸与一种寡核苷酸探针阵列杂交,其中寡核苷酸探针阵列含有至少10000个完全匹配(PM)的探针,其中每个完全匹配的探针靶向一个基因组区域的不同的转录本序列;以及对于第一个和第二个样品中的每个,如果针对基因组序列的探针与靶杂交了就可以确定该基因组序列被转录了;以及在第一个和第二个样品间比较被转录的序列。
31.权利要求30的方法,其中第一个和第二个含有polyA的RNA或从第一个和第二个含有polyA的RNA衍生的核酸是被差别标记的。
32.权利要求31的方法,其中杂交包括将第一个和第二个含有polyA的RNA或从第一个和第二个含有polyA的RNA衍生的核酸与两个同样类型的寡核苷酸阵列杂交。
33.权利要求32的方法,其中所述基因组区域是至少20MB。
34.权利要求33的方法,其中所述基因组区域是至少50MB。
35.权利要求34的方法,其中所述基因组区域是一个染色体中25%的DNA序列。
36.权利要求35的方法,其中所述基因组区域是一个染色体中50%的DNA序列。
37.权利要求36的方法,其中所述基因组区域是一个染色体的DNA。
38.权利要求37的方法,其中所述基因组区域是整个基因组的DNA序列。
39.权利要求32的方法,其中所述探针以至少100bps的分辨率靶向基因组的转录本序列。
40.权利要求32的方法,其中所述探针以至少30bps的分辨率靶向基因组的转录本序列。
41.权利要求32的方法,其中所述探针以至少10bps的分辨率靶向基因组的转录本序列。
42.权利要求32的方法,其中所述探针以1bp的分辨率靶向基因组的转录本序列。
43.权利要求32的方法,其中所述细胞区室是细胞核。
44.权利要求43的方法,其中所述细胞区室是细胞质。
45.权利要求44的方法,其中所述寡核苷酸探针阵列含有至少100000个寡核苷酸探针,每个探针靶向一个基因组不同区域的转录本序列。
46.权利要求45的方法,其中所述寡核苷酸探针阵列含有至少500000个寡核苷酸探针,每个探针靶向一个基因组不同区域的转录本序列。
47.权利要求46的方法,其中所述寡核苷酸探针阵列含有至少800000个寡核苷酸探针,每个探针靶向一个基因组不同区域的转录本序列。
48.权利要求32的方法,其中所述寡核苷酸阵列还含有错配(MM)的探针,其中每个错配的探针与完全匹配的探针有一个碱基的差别。
49.权利要求48的方法,其中每个错配的探针与完全匹配的探针的差别在中间的位置上。
50.权利要求49的方法,其中完全匹配的探针靶向基因组非重复性序列的转录本。
51.权利要求50的方法,其中如果PM与MM的比率(R)达到一个阈值,RNA靶就被检测到。
52.权利要求50的方法,其中如果PM与MM的差(D)达到一个阈值,RNA靶就被检测到。
53.权利要求52的方法,其中如果PM与MM的比率(R)达到一个阈值并且PM与MM的差(D)达到一个阈值,RNA靶就被检测到。
54.权利要求53的方法,其中R在从1.1到1.5的范围内,以及D在从4Q到12Q的范围内,其中Q是噪音的估计。
55.权利要求53的方法,其中Q是功能点内点阵的变量,属于探针阵列的探针强度的第二个百分率数值。
56.权利要求55的方法,其中检测考虑到了相邻探针的杂交行为。
57.权利要求56的方法,其中在阳性探针之间运行的阴性探针,如果在运行长度上至多达到探针间的最大间隙,就可以被重新分类为阳性的。
58.权利要求57的方法,其中最大间隙是5。
59.权利要求58的方法,其中阳性探针运行的长度少于最小运行碱基数就可以被重新分类为假阳性的。
60.权利要求59的方法,其中最小运行碱基数是20。
61.一种用于探察转录活性的寡核苷酸探针阵列,包括基质;固定在基质上的至少100000个不同的寡核苷酸探针,其中每个探针靶向一个基因组的转录本。
62.权利要求61的寡核苷酸探针阵列,其中所述寡核苷酸探针以100bps的分辨率靶向基因组的转录本。
63.权利要求61的寡核苷酸探针阵列,其中所述寡核苷酸探针以30bps的分辨率靶向基因组的转录本。
64.权利要求61的寡核苷酸探针阵列,其中所述寡核苷酸探针以1bp的分辨率靶向基因组的转录本。
全文摘要
在本发明的某些实施方案中,提供了探察转录活性的方法。本方法利用了大量的寡核苷酸探针与从一个细胞区室中的RNA衍生的核酸之间的杂交。
文档编号G06F19/00GK1602362SQ02824884
公开日2005年3月30日 申请日期2002年12月10日 优先权日2001年12月11日
发明者托马斯·R·金格莱斯 申请人:阿菲梅特里克斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1