染色体构象芯片捕获(4c)测定的制作方法

文档序号:432355阅读:5307来源:国知局
专利名称:染色体构象芯片捕获(4c)测定的制作方法
技术领域
本发明涉及4C技术(即capture and characterise colocalised chromatin(捕获和表征共定位的染色质)),其提供了以高通量分析核空间中两个或更多个核苷酸序列相互作用的频率的方法。
4C(捕获和表征共定位的染色质)技术是3C技术的修改版本,其能在无偏好的基因组广度上搜索与所选择的基因座相互作用的DNA片段。简而言之,3C分析如常进行,但省略了PCR步骤。3C模板包含连接于许多不同的目的核苷酸序列(代表该基因的基因组环境)上的诱饵(如所选的包含目的基因的限制性片段)。用另一种第二限制性内切酶裂解模板并连接。有益的是,用至少一个(优选至少2个)寡核苷酸引物扩增连接于靶核苷酸序列的一个或多个目的核苷酸序列,其中至少一个引物与在目的核苷酸序列的侧翼的DNA序列杂交。通常,这产生了在独立扩增反应之间高度可重复的和特异针对给定组织的PCR片段模式。在一个具体实施方式
中,HindIII和DpnII被用作第一和第二限制性内切酶。接下来可标记扩增的片段并任选与阵列杂交,通常相对于含有用相同组合的限制性内切酶消化的基因组DNA的对照样品。
在本发明一个优选的具体实施方式
中,用第二限制性内切酶切割的连接片段随后被重新连接以形成小的DNA环。
因此修改了3C技术从而使所有与靶核苷酸序列相互作用的目的核苷酸序列被扩增出。这实际是指不用特异于人们所希望分析的片段的引物进行扩增反应,而利用与在目的核苷酸序列的侧翼的DNA序列杂交的一个或多个寡核苷酸引物进行扩增。有益的是,4C对包括在PCR扩增步骤中的PCR引物设计没有偏好,并因此能被用于搜索完整的基因组中的相互作用DNA元件。
发明的简要方面 本发明的各方面出现在所附的权利要求书中。
在第一个方面,提供了分析靶核苷酸序列与一个或多个目的核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括以下步骤(a)提供交联DNA的样品;(b)用第一限制性内切酶消化交联的DNA;(c)连接交联的核苷酸序列;(d)解除交联;(e)用第二限制性内切酶消化核苷酸序列;(f)将已知核苷酸组成的一个或多个DNA序列与在一个或多个目的核苷酸序列侧翼的可用的一个或多个第二限制性内切酶消化位点连接;(g)利用至少两个寡核苷酸引物扩增一个或多个目的核苷酸序列,其中每个引物与在目的核苷酸序列侧翼的DNA序列杂交;(h)将扩增的一个或多个序列与阵列杂交;和(i)确定DNA序列间相互作用的频率。
在第二个方面,提供了分析靶核苷酸序列与一个或多个核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括以下步骤(a)提供交联DNA的样品;(b)用第一限制性内切酶消化交联的DNA;(c)连接交联的核苷酸序列;(d)解除交联;(e)用第二限制性内切酶消化核苷酸序列;(f)环化核苷酸序列;(g)扩增与靶核苷酸序列连接的一个或多个核苷酸序列;(h)任选将扩增的序列与阵列杂交;和(i)确定DNA序列间相互作用的频率。
在第三个方面,提供了环化的核苷酸序列,其包括第一和第二核苷酸序列,其中第一和第二核苷酸序列的每个末端由不同的限制性内切酶识别位点分隔,而且其中所述第一核苷酸序列是靶核苷酸序列并且所述第二核苷酸序列是由交联基因组DNA而获得的。
在第四个方面,提供了制备环化的核苷酸序列的方法,其包括以下步骤(a)提供交联DNA的样品;(b)用第一限制性内切酶消化交联的DNA;(c)连接交联的核苷酸序列;(d)解除交联;(e)用第二限制性内切酶消化核苷酸序列;和(f)环化核苷酸序列。
在第五个方面,提供了分析靶核苷酸序列与一个或多个核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括使用环化的核苷酸序列。
在第六个方面,提供了固定于支持物上的探针阵列,其包括与环化的核苷酸序列杂交或能杂交的一个或多个探针。
在第七个方面,提供了探针组,所述探针在序列上与基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点的相邻核酸序列互补。
在第八个方面,提供了制备探针组的方法,其包括以下步骤(a)鉴定基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点;(b)设计能够与基因组DNA中每一个第一限制性内切酶识别位点的相邻序列杂交的探针;(c)合成探针;和(d)将探针组合在一起以形成探针组或基本上形成探针组。
在第九个方面,提供了由或可由本文所述的方法得到的探针组或基本上得到的探针组。
在第10个方面,提供了阵列,其包括本文所述的探针阵列或基本上包括本文所述的探针组。
在第11个方面,提供了阵列,其包括本文所述的探针组。
在第12个方面,提供了制备阵列的方法,其包括将本文所述的探针阵列或主要的探针组固定在固相支持物上的步骤。
在第13个方面,提供了制备阵列的方法,其包括将本文所述的探针阵列或探针组固定在固相支持物上的步骤。
在第14个方面,提供了由或可由本文所述的方法得到的阵列。
在第15个方面,提供了鉴定一种或多种指示特定疾病状态的DNA-DNA相互作用的方法,其包括执行本发明第一和第二方面的步骤(a)-(i)的步骤,其中步骤(a)中交联DNA的样品由患病和未患病的细胞提供,而且其中来自患病和未患病的细胞的DNA序列间相互作用的频率之间的差异表明DNA-DNA相互作用指示特定疾病状态。
在第16个方面,提供了诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的方法,其包括执行本发明第一和第二方面的步骤(a)-(i)的步骤,其中步骤(a)包括提供来自受试者的交联DNA的样品;而且其中步骤(i)包括将DNA序列间相互作用的频率与未受影响的对照的频率进行比较;其中得自对照的值和得自受试者的值之间的差异指示受试者正罹患该疾病或综合征或指示受试者将罹患该疾病或综合征。
在第17个方面,提供了诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的方法,其包括以下步骤进行本发明第一和第二方面的步骤(a)-(i),其中步骤(a)包括由受试者提供交联DNA的样品;而且其中所述方法包括额外步骤(j)鉴定一个或多个经历与疾病相关的基因组重排的基因座。
在第18个方面,提供了鉴定一种或多种调节DNA-DNA相互作用的试剂的测试方法,其包括以下步骤(a)将样品与一种或多种试剂接触;和(b)进行本发明第一和第二方面的步骤(a)至(i),其中步骤(a)包括由样品提供交联的DNA;其中(i)在存在试剂的情况下的DNA序列间相互作用的频率和(ii)在无试剂的情况下的DNA序列间相互作用的频率之间的差异指示试剂能调节DNA-DNA相互作用。
在第19个方面,提供了检测平衡的和/或不平衡的断点(如易位)的位置的方法,其包括以下步骤(a)进行本发明第一和第二方面的步骤(a)至(i);和(b)将DNA序列间相互作用的频率与对照的频率进行比较;其中样品中DNA-DNA相互作用频率相对于对照从低至高的转变指示断点的位置。
在第20个方面,提供了检测平衡的和/或不平衡的倒位的位置的方法,其包括以下步骤(a)进行本发明第一和第二方面的步骤(a)至(i);和(b)将DNA序列间相互作用的频率与对照的频率比较;其中样品的DNA-DNA相互作用频率相对于对照呈倒转模式指示倒位。
在第21个方面,提供了检测缺失位置的方法,其包括以下步骤(a)进行本发明第一和第二方面的步骤(a)至(i);和(b)将DNA序列间相互作用的频率与对照的比较;其中样品的DNA-DNA相互作用频率相对于对照降低指示缺失。
在第22个方面,提供了检测重复(duplication)的位置的方法,其包括以下步骤(a)进行本发明第一和第二方面的步骤(a)至(i);和(b)将DNA序列间相互作用的频率与对照的频率比较;其中受试者的DNA-DNA相互作用频率相对于对照增加或减少表明重复或插入。
在第23个方面,提供了由或可由本文所述的测试方法得到的试剂。
在第24个方面,提供了环化的核苷酸序列用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
在第25个方面,提供了环化的核苷酸序列用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
在第26个方面,提供了本文所述的探针阵列或探针组用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
在第27个方面,提供了本文所述的探针阵列或探针组用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
在第28个方面,提供了本文所述的阵列用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
在第29个方面,提供了本文所述的阵列用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
在第30个方面,提供了基本上如本文所述的和参考任意实施例或附图的方法、探针阵列、探针组、过程、阵列、测试方法、试剂、或用途。
优选的
具体实施例方式 优选地,步骤(f)中的连接反应能导致DNA环的形成。
优选地,靶核苷酸序列选自由基因组重排、启动子、增强子、沉默子、隔离子、基质附着区、基因座控制区、转录单位、复制起始点、重组热点、易位断点、着丝粒、端粒、基因密集区、基因稀少区、重复元件和(病毒)整合位点组成的组。
优选地,靶核苷酸序列是与疾病相关的或造成疾病的核苷酸序列,或在线性DNA模板上位于与疾病相关的或造成疾病的基因座相距多至或大于15Mb处。
优选地,靶核苷酸序列选自由AML1,MLL,MYC,BCL,BCR,ABL1,IGH,LYL1,TAL1,TAL2,LMO2,TCRα/δ,TCRβ和HOX或其他与疾病相关的基因座组成的组,所述其他与疾病相关的基因座描述于“Catalogue ofUnbalanced Chromosome Aberrations in Man”第2版.Albert Schinzel.柏林Walter de Gruyter,2001.ISBN 3-11-011607-3中。
优选地,第一限制性内切酶是识别6-8bp识别位点的限制性内切酶。
优选地,第一限制性内切酶选自由BglII、HindIII、EcoRI、BamHI、SpeI、PstI和NdeI组成的组。
优选地,第二限制性内切酶是识别4或5bp核苷酸序列识别位点的限制性内切酶。
优选地,第二限制性内切酶识别位点位于与靶核苷酸序列中第一限制酶位点相距大于约350bp处。
优选地,核苷酸序列是标记的。
优选地,探针在序列上与基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点的每一侧的相邻核酸序列互补。
优选地,探针在序列上与和基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点相距小于300个碱基对的核酸序列互补。
优选地,探针与和基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点相距小于300bp的序列互补。
优选地,探针与和基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点相距200-300bp的序列互补。
优选地,探针与和基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点相距100-200bp或0-100bp的序列互补。
优选地,两个或更多个探针能够与基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点的相邻序列杂交。
优选地,探针重叠或部分重叠。
优选地,重叠少于10个核苷酸。
优选地,探针序列对应于第一限制性内切酶的每一个第一限制性内切酶识别位点和第二限制性内切酶的第一个相邻的第二限制性内切酶识别位点中的每一个之间的所有或部分序列。
优选地,每个探针至少是25聚体。
优选地,每个探针是25-60聚体。
优选地,探针是PCR扩增产物。
优选地,阵列包括约300,000-400,000个探针。
优选地,阵列包括约385,000或更多个探针,优选约750,000个探针,更优选6×750,000个探针。
优选地,阵列包括给定物种完整基因组的较低解析度的代表或由所述代表组成。
优选地,排列在线性染色体模板上的每2、3、4、5、6、7,8、9或10个探针中的一个被包含于阵列中。
优选地,相互作用频率从低至高的转变指示平衡的和/或不平衡的断点的位置。
优选地,受试者样品的DNA-DNA相互作用频率相对于对照的相互作用频率呈倒转模式指示平衡的和/或不平衡的倒位。
优选地,受试者样品的DNA-DNA相互作用频率相对于对照的相互作用频率降低,以及与更远区域的DNA-DNA相互作用频率增加的组合,指示平衡的和/或不平衡的缺失。
优选地,受试者样品的DNA-DNA相互作用频率相对于对照的相互作用频率增加或减少指示平衡的和/或不平衡的重复或插入。
优选地,在进行所述方法前使用光谱核型分析和/或FISH。
优选地,疾病是遗传疾病。
优选地,疾病是癌症。
优选地,两个或更多个被扩增的序列是不同标记的。
优选地,当两个或更多个被扩增的序列位于不同染色体上时,这些序列是被同样标记的。
优选地,当两个或多个被扩增的序列序列位于相同染色体上、其距离足够远以使得DNA-DNA相互作用信号间的重叠最小时,则这些序列是被同样标记的。
优选地,其中诊断或预测是产前诊断或预测。
优点 本发明有许多优点。这些优点将在以下描述中明确。
举例来说,本发明是有益的,这是因为它提供了特别可商用的核苷酸序列、方法、探针和阵列。
进一步举例来说,本发明是有益的,这是因为它提供了以高通量分析核空间中两种或多种核苷酸序列的相互作用的频率的方法。
进一步举例来说,本发明有益的,这是因为利用常规的3C技术,每种DNA-DNA相互作用必须通过包括独特引物对的独特PCR反应来分析。因此,只有PCR是自动的时,高通量分析才有可能,但是如此多的引物的成本会很高。因此,用常规3C技术进行高通量(基因组范围的)DNA-DNA相互作用分析是不可行的。相反,本发明现在能同时筛选上千个DNA-DNA相互作用。本发明所述的DNA-DNA相互作用的高通量分析将极大增加分析等级和解析度。
进一步举例来说,本发明是有益的,这是因为利用常规3C技术,筛选将偏向于那些其寡核苷酸引物被设计、被排列和包括在分析中的DNA序列。选择这些寡核苷酸引物通常是基于对据信会与正被研究的核苷酸序列交联的诸如(远处的)增强子和/或其他调节元件/高敏感位点的位置的认识。因此,常规3C偏向于包括在PCR扩增步骤中的PCR引物的设计,而4C是无偏好的而且能用于对完整的基因组搜索DNA元件相互作用。这是因为在4C中扩增交联的序列不是基于对与正在研究的核苷酸序列交联的序列的预先认识。更确切地,在一个4C的具体实施方式
中,利用与该核苷酸序列杂交的PCR引物可扩增与第一(靶)核苷酸序列交联的序列。因此,本发明能无偏好地在基因组广度筛选DNA-DNA相互作用。
进一步举例来说,本发明是有益的,这是因为利用常规3C技术仅能选择性扩增单一DNA-DNA相互作用。这在与阵列杂交时是无法提供出信息的。该技术已被改善,从而使所有与第一(靶)核苷酸序列相互作用的片段在现在被扩增出,如选择性地扩增出。
进一步举例来说,本发明是有益的,这是因为4C技术能用于检测核酸(例如,染色体)中平衡的或不平衡的遗传异常——如所有类型的易位、缺失、倒位、重复和其他基因组重排。4C技术(其测量DNA片段的接近度)甚至能确定受试者获得某些易位、缺失、倒位、重复和其他基因组重排(如平衡的或不平衡的易位、缺失、倒位、重复和其他基因组重排)的倾向性。较当前策略的优势是它无需知道改变的确切位置,因为4C技术的解析度使它即使在‘4C-诱饵’(如由被分析的第一和第二限制性内切酶识别位点所限定的)远离变化(如多至一百万个碱基或甚至更多)时也可用于检测重排。另一个优势是4C技术能对变化进行准确作图,这是因为它能用于限定改变发生处之间的两个(第一)限制酶位点。另一个优势是细胞不需要在固定前被培养。因此,也可分析诸如实体肿瘤的基因组重排。
进一步举例来说,本发明是有益的,这是因为4C技术也能在恶变前状态中(即在所有细胞包含这些变化前)检测改变(如重排)。因此,该技术不仅可用于诊断疾病,而且用于预测疾病。
进一步举例来说,本发明所述的阵列设计比现有的基因组嵌合阵列(如Nimblegen基因组嵌合阵列)尤其有优势,这是因为该设计能在每个单一阵列中代表大得多的基因组部分。举例来说,对于识别六个核苷酸的序列的限制性内切酶,例如,3个阵列(每个带有约385,000个探针)将足以覆盖完整的人或小鼠基因组。对于识别超过6bp的限制性内切酶,例如,约385,000个探针的单一阵列可用于覆盖例如完整的人或小鼠基因组。阵列设计的优势有(1)每个探针能提供很多信息,这是因为每个探针分析独立的连接事件,极大方便了结果的解释;和(2)基因组的大代表物可在单一阵列上被发现,其是成本低廉的。
4C技术可有益地用于对最初由细胞生成方法(光学显微镜、FISH、SKY等)检测到而没有很好表征的重排进行细致作图。
4C技术可有益地用于在单一阵列上同时筛选发生在多个基因座附近的重排的组合。
附图简述

图1 3C技术的原理 图2 (a)4C技术的一个具体实施方式
的原理。如常用诸如HindIII(H)作为限制性内切酶,进行3C分析。解除交联后,DNA混合物将包含第一(靶)核苷酸序列,其连于许多不同的片段。用扩增方法(如反向PCR)利用第一(靶)核苷酸序列特异性引物在诸如DpnII环上扩增并标记这些片段。标记的扩增产物可与本文所述的阵列杂交。以HindIII和DpnII做例子,但也可使用其他限制性内切酶组合(如6或8-和4或5-切割酶)。(b)来自两个独立的胎儿肝(L1,L2)和脑(B1,B2)样品的通过凝胶电泳分离的PCR结果。(c)示意性表示微阵列探针位置。探针被设计在HindIII位点的100bp内。因此,每个探针分析一个可能的连接配体。
图3 4C技术检测β-球蛋白的基因组环境(染色体7)。显示了未处理过的比率(针对β-球蛋白HS2的4C信号除以对照样品所得的信号),其针对位于小鼠染色体10、11、12、14、15、7和8(从上至下;显示的区域处于距离每个相应的着丝粒的相同距离处)上~35Mb基因组区的探针。注意到染色体7(第6行)上(球蛋白)诱饵周围有大丛强信号,其证实了4C技术检测到线性染色体模板附近的基因组片段(符合以下事实,即相互作用频率基因组位点分隔成反比)。注意到显示高信号密度的诱饵周围顺式相连的区域是大的(>5Mb),这暗示诸如易位甚至能用距离断点超过1MB的诱饵来检测。
图4 4C技术检测Rad23A的基因组环境(染色体8)。显示了未处理过的比率(针对Rad23A的4C信号除以对照样品所得的信号),其针对位于小鼠染色体10、11、12、14、15、7和8(从上至下;显示的区域处于距离每个相应的着丝粒的相同距离处)上~15Mb或更远的基因组区的探针。注意到染色体8(第7行)上(Rad23A)诱饵周围有大丛强信号,其证实了4C技术检测到线性染色体模板附近的基因组片段(符合以下事实,即相互作用频率与基因组位点分隔成反比)。注意到显示高信号密度的诱饵周围顺式相连的区域是大的(>5Mb),这暗示诸如易位甚至能用距离断点超过1MB的诱饵来检测。
图5 转录组织(胎儿肝)和非转录组织(胎儿脑)中染色体7(~135Mb)上β-球蛋白的4C相互作用(由连续平均(running mean)法分析而得)。注意到与β-球蛋白的长程相互作用在组织间有差异(可能依赖于基因转录状态)。强4C信号在诱饵周围划分了大区域(>5Mb),而与组织无关。
图6 在胎儿肝细胞中,Uros和Erαf与β-球蛋白相互作用。4C法揭示两种基因(Erαf和Uros)与位于~30Mb以外的β-球蛋白基因座相互作用超过>30Mb。这两种相互作用以前被不同的技术(荧光原位杂交)所发现,其描述于Osborne等.,Nature Genetics 36,1065(2004)中。该例子显示4C技术检测到的长程相互作用可通过FISH检验并真实地反映了核接近情况。
图7 4C技术准确地鉴定出顺式相连的不相关基因组区域间的转换。对于这些实验,使用转基因小鼠,其包含人β-球蛋白基因座控制区(LCR)表达盒(~20kb),该表达盒(通过同源重组)插入到小鼠染色体8上的Rad23A基因座中。4C技术在转基因小鼠E14.5胚胎肝上进行,该转基因小鼠中插入物是纯合的。整合表达盒(HS2)内的HindIII片段被用作‘4C诱饵’。数据显示,4C技术准确地确定了转基因表达盒的两个末端(底下一行仅人LCR(~20kb)中的探针得到4C信号,而余下~380kb人β-球蛋白序列中的探针不行),清楚地揭示了小鼠染色体8上的整合位置(上排将染色体8上的信号(对于整合位置,参见箭头)与6个其他小鼠染色体上的信号作比较)(完整染色体被描述)。该例子显示,4C技术可用于检测异位整合的DNA片段(病毒、转基因等)的基因组位置。它显示,顺式相连的不相关基因组区域间的转换能被准确鉴定出,其可用于鉴定基因组断点和易位配偶体。
图8 4C技术产生了可重复的数据,这是因为针对HS2和β-球蛋白的图谱非常相似。4个生物学独立的4C实验在E14.5胎儿肝上进行,其使用了β-球蛋白基因β-major(上2行)或β-球蛋白HS2(底下2行)作为诱饵。这些诱饵在线性染色体模板上相距~40kb,但以前显示在核空间中接近(Tolhuis等,Molecular Cell 10,1453(2002))。所描述的是小鼠染色体7上的~5Mb区域,其与β-球蛋白基因座相距20-20Mb。数据在独立实验间显示出高度可重复性,证实了在核空间中接近的2个片段共有位于基因组其他地方的相互作用配体。
图9 4C技术被用于测量在来自健康人(顶部)和带有易位的患者(A;B)(底部)的细胞中(染色体A上的)序列X的DNA-DNA相互作用频率。代表DNA-DNA相互作用频率的信号强度(Y轴)相对于在线性染色体模板上排列的探针(X轴)进行作图。在正常细胞中,在序列X周围的染色体A上检测到了频繁的DNA-DNA相互作用。在患者细胞中,对于位于断点(BP)另一边的染色体A上的探针,相互作用频率观察到降低50%(将灰色曲线(患者)与黑线(健康人)作比较)。而且,易位使部分染色体B在物理上接近于序列X,而且对于染色体B上的该区域,现在观察到了频繁的DNA-DNA相互作用。该染色体上的相互作用频率从低至高的突然转变标志着其断点的位置。
图10 4C技术可检测一个或多个(平衡的)倒位。相较于非患病的(点曲线)受试者,DNA-DNA相互作用频率的倒转模式(由4C技术以杂交信号强度测量)在患病的(实曲线)受试者中被观察到了,这揭示了倒位的存在和大小。
图11 由4C技术进行的杂合缺失检测。相比于非患病的(黑曲线)受试者,在患病的(灰曲线)中DNA-DNA相互作用频率降低(由4C技术以杂交信号强度测量)的探针揭示了缺失区域的位置和大小。患病的受试者的缺失区域中的剩余杂交信号来自完整的等位基因(杂合缺失)。缺失通常伴随着直接位于缺失区域外的探针的信号强度的增加(注意到灰曲线在缺失的右边位于黑曲线之上),这是因为这些区域在物理上更接近于4C序列(诱饵)。
图12 由4C技术检测到的重复。与正常(黑曲线)受试者相比,在患者(灰曲线)中杂交信号增加的探针指明了重复的位置和大小。由4C技术检测到的重复通常伴随着与非患病的受试者相比在重复区域之外的探针的杂交信号的降低(重复增加它们与4C序列的基因组位点分离)。
图13 4C技术揭示的与β-球蛋白的长程相互作用。a,4C相对于对照杂交信号的未处理的比率揭示了染色体7内的β-球蛋白HS2与2种无关的染色体(8和14)的相互作用。b-c,针对2种独立的胎儿肝(顶部,红色)和胎儿脑样品(底部,蓝色)的未处理的数据沿着染色体7上2个不同的1-2Mb区域进行绘图。在2个胎儿肝样品(b)或2个脑样品(c)中观察到了高度可重复的相互作用群。d-e,针对相同区域的running mean数据。错误发现率被设置在5%(点线)。f,与染色体7上活化的(胎儿肝,顶部)和失活的(胎儿脑,底部)β-球蛋白相互作用的区域的示意图。
图14 活化的和失活的β-球蛋白分别与活化的和失活的染色体区域相互作用。a,对胎儿肝中β-球蛋白长程相互作用之间作比较(4C连续平均,顶部),在胎儿肝中进行微阵列表达分析(对数坐标,中间)和沿着含基因Uros(距离β-球蛋白~30Mb)的4Mb区域作图的基因位置(底部),表明活化的β-球蛋白优先与其他活性转录基因相互作用。b,同样比较胎儿脑中距离球蛋白~38Mb处的OR基因束的周围,显示失活的β-球蛋白优先与失活的区域相互作用。c,根据基因成分和活性来表征与胎儿肝(左)和脑(右)中β-球蛋白相互作用的区域。
图15 普遍表达的Rad23A与胎儿肝和脑中非常相似的活性区域相互作用。a,与胎儿肝(顶部,红色)和脑(底部,蓝色)中活化的Rad23A相互作用的染色体8上区域的示意图。b,比较Rad23A长程相互作用(4C连续平均)和胎儿肝中微阵列表达分析(对数坐标)作比较(顶部两排),Rad23A长程相互作用(4C连续平均)和胎儿脑中微阵列表达分析(对数坐标)(第3和4排),和沿着染色体8的3Mb区域作图的基因位置(底部一排)。c,根据基因成分和活性来表征与胎儿肝(左)和脑(右)中Rad23A相互作用的区域。
图16 低温FISH确证了4C技术真正能鉴定出相互作用的区域。a,部分的低温切片(200nm)的例子显示出超过10个核,其中一些含β-球蛋白基因座(绿色)和/或Uros(红色)。由于切片的缘故,许多核不含针对这两个基因座的信号。b-d,完全(b)和部分(c)重叠信号和接触信号(d)的例子,这些都被评为相互作用阳性。e-g,含非接触性等位基因的核(e-f)和仅含β-球蛋白的核(g)的例子,其将所有相互作用评分为阴性。h-i,低温FISH结果的示意图。与β-球蛋白(h)和Rad23A(i)相互作用的百分比在染色体上方用于指示通过4C技术鉴定为阳性(红色箭头)和鉴定为阴性(蓝色箭头)的区域。同一BAC用于两种组织。通过低温FISH测量的胎儿肝和脑中两个远的OR基因束之间的相互作用频率写在染色体下方。
图17 4C分析HS2和β-major,得出高度相似的结果。(a)4个独立E14.5肝样品的未处理的4C数据显示出与HS2的相互作用(顶部)和与β-major的相互作用(底部)之间非常相似的模式。(b)大量重叠存在于在HS-2实验中被评为相互作用阳性的探针和β-major实验中被评为相互作用阳性的探针之间。
图18 对顺式和反式相互作用作比较。(a)来自2个独立实验的未处理的4C数据显示了β-球蛋白与鉴定为阳性的顺式区域(染色体7,顶部)和含α-球蛋白基因座的反式区域(染色体11,底部)的相互作用。(b)来自2个独立实验的未处理的4C数据显示了Rad23A与鉴定为阳性的顺式区域(染色体8,顶部)和根据最高连续平均值排列时位于最顶端的反式区域(染色体11,底部)的相互作用。没有反式区域达到能鉴定长相互作用的顺式区域的严格条件。
图19 与β-球蛋白相互作用的区域也频繁互相接触。包含活跃转录的基因、并由4C技术鉴定为能与胎儿肝中β-球蛋白相互作用的2个区域(几乎相距60Mb),通过低温FISH显示共定位频率为5.5%,其显著大于背景共定位频率。
发明详述 3C技术 3C方法已经详细描述于Dekker等.(2002),Tolhuis等.(2002),Palstra等.(2003),Splinter等.(2004)和Drissen等.(2004)中。简而言之,3C的进行为用第一限制性内切酶消化交联的DNA,然后以非常低的DNA浓度进行连接。在这些条件下,交联片段的分子内连接大大优于随机片段的分子间连接。然后,解除交联并通过聚合酶链式反应(PCR)利用基因座特异性引物检测和定量各个连接产物。两个特异性基因座的交联频率(X)由定量PCR反应利用对照和交联模板来确定,而且X被表示为用交联模板和用对照模板得到的产物量的比率。
根据本发明,利用Splinter等,(2004)Methods Enzymol.375,493-507所述的方法制备3C模板。(即甲醛固定、(第一)限制性内切酶消化、重连接交联的DNA片段并纯化DNA)。简而言之,样品(如细胞、组织或核)利用交联剂(如甲醛)固定。然后,进行第一限制性内切酶消化,从而在交联的核的范围内消化DNA。然后,以低DNA浓度(例如,约3.7ng/μl)进行分子内连接,其对交联的DNA片段间的连接(即分子内连接)胜于非交联的DNA片段间的连接(即分子间或随机连接)。接下来,解除交联并纯化DNA。产生的3C模板包含被连接的限制性片段,这是因为它们原来在核空间中是接近的。
由于在分子内连接步骤前将第一限制性内切酶用于消化DNA,第一限制性内切酶的酶识别位点将分隔第一(靶)核苷酸序列和已经连接的核苷酸序列。因此,第一识别位点位于第一(靶)核苷酸序列和连接的核苷酸序列(即连接的第二序列)之间。
核苷酸序列 本发明涉及核苷酸序列(如3C模板、4C模板、DNA模板、扩增模板、DNA片段和基因组DNA)的用途,其可用于数据库中。
核苷酸序列可以是基因组的、合成或重组来源的DNA或RNA,如cDNA。例如,重组核苷酸序列可用PCR克隆技术来制备。这将包括制备在需要克隆的序列区域侧翼的引物对,将引物与得自诸如哺乳动物(如动物或人细胞)或非哺乳动物细胞的mRNA或cDNA接触,在能扩增所需区域的条件下进行聚合酶链式反应(PCR),分离扩增的片段(如通过在琼脂糖凝胶上纯化反应混合物)并收获扩增的DNA。可设计引物包含合适的限制性内切酶识别位点,从而使扩增的DNA能被克隆进合适的克隆载体中。
核苷酸序列可以是双链的或单链的,无论其代表正义或反义链或其组合。
对于一些方面,优选核苷酸序列是单链DNA——如单链引物和探针。
对于一些方面,优选核苷酸序列是双链DNA——如双链3C和4C模板。
对于一些方面,优选核苷酸序列是基因组DNA——如一个或多个基因组基因座。
对于一些方面,优选核苷酸序列是染色体DNA。
核苷酸序列可包含第一(靶)核苷酸序列和/或第二核苷酸序列。
第一和第二限制性内切酶识别位点将会互不相同,并通常将在核苷酸序列中只出现一次。
在一个方面,提供了环化的核苷酸序列,其包含第一核苷酸序列和(如连接于)第二核苷酸序列,所述第一和第二核苷酸序列由第一和第二限制性内切酶识别位点分隔(如分开或分割),其中所述第一核苷酸序列是靶核苷酸序列而且所述第二核苷酸序列可由交联基因组DNA(如在体内或体外)而得到。第一和第二限制性内切酶识别位点将会互不相同并通常将在核苷酸序列中仅出现一次。
在另一方面,提供了环化的核苷酸序列,其包含第一核苷酸序列和(如连接于)第二核苷酸序列,所述第一和第二核苷酸序列由第一和第二限制性内切酶识别位点分隔(如分开或分割),其中所述第一核苷酸序列是靶核苷酸序列,而且其中所述第一和第二核苷酸序列可由以下过程而得,其包括以下步骤(a)交联基因组DNA(如在体内或体外);(b)用第一限制性内切酶消化交联的DNA;(c)连接交联的核苷酸序列;(d)解除交联;和(e)用第二限制性内切酶消化核苷酸序列来环化核苷酸序列。
优选,第二核苷酸序列切分(如对切)第一(靶)核苷酸序列。因此,核苷酸序列包含第二核苷酸序列,其将第一(靶)核苷酸序列分隔成两个部分或片段——如2个大小大致相等的部分或片段。通常该部分或片段的长度将至少为约16个核苷酸。
第一核苷酸序列 第一核苷酸序列是靶核苷酸序列。
本文所用的术语“靶核苷酸序列”指用作诱饵序列的序列,以此鉴定与它交联的一个或多个序列(如一个或多个目的核苷酸序列或未知核苷酸序列组成的一个或多个序列)。
靶核苷酸序列的序列已知。
交联表明,靶核苷酸序列和与其交联的序列最初在核空间中接近。通过确定序列相互接近的频率,例如,可能去理解核空间关系(如在体内或体外)中染色体和染色体区域的构象。而且,例如当增强子或其他转录调节元件与顺式或甚至反式定位的启动子互相联络时,可能理解基因组中复杂的结构组织。此外,甚至可能去理解给定的基因组区相对于出现在相同染色体上(顺式)的核苷酸序列以及在其他染色体上(反式)的核苷酸序列的定位。因此,可能对频繁共有核空间中位点的不同染色体上的核苷酸序列作图。此外,甚至可能检测平衡的和/或不平衡的遗传异常——如平衡的和/或不平衡的易位、缺失、倒位、重复和其他基因组重排(如一个或多个染色体中的缺失或易位)。在这方面,遗传异常会导致DNA-DNA相互作用在变化发生的位置上发生改变,这是可以被检测的。
根据本发明所述的第一(靶)核苷酸序列可以是任何希望确定其与一个或多个其他序列在核空间中相互作用的频率的序列。
在一个具体实施方式
中,第一(靶)核苷酸序列的长度将大于约350bp,这是因为所选择的第二限制性内切酶在距离第一限制性位点约350bp或更远处切割第一(靶)核苷酸序列。这可使因拓扑学约束而对环形成带来的偏好最小化(Rippe等.(2001)Trends in Biochem.Sciences 26,733-40)。
适宜的是,扩增后的第一(靶)核苷酸序列包含至少约32bp,这是因为用于扩增第二核苷酸序列的至少2个扩增引物的最小长度分别约为16个碱基。
在优选的具体实施方式
中,第一(靶)核苷酸序列可包含完整或部分(如其片段)的如下序列或与其接近(如临近)启动子、增强子、沉默子、隔离子、基质附着区、基因座控制区、转录单位、复制起始点、重组热点、易位断点、着丝粒、端粒、基因密集区、基因稀少区、重复元件、(病毒)整合位点、其缺失和/或突变与某种效应(如疾病、生理学上的、功能性的或结构性的效应——如SNP(单核苷酸多态性))相关的核苷酸序列、或含这样的缺失和/或突变的核苷酸序列、或任何其中需要确定核空间中与其他序列相互作用的频率的序列。
如上所述,第一(靶)核苷酸序列可包含完整或部分(如片段)的其中遗传异常(如缺失和/或突变)与某种效应(如疾病)相关的核苷酸序列、与这样的核苷酸序列接近(如临近)。因此根据本发明的这个具体实施方式
,第一(靶核苷酸序列)可以是其中的变化与疾病(如遗传或先天疾病)相关或有关的核苷酸序列(如基因或基因座),(在实体的DNA模板上)与其邻近、或处在这样的基因组区中。换句话说,第一(靶)核苷酸序列可以是或者以其与临床表型的关联性为基础来选择。在优选的具体实施方式
中,变化是在一个或多个染色体中的变化,而且疾病可以是诸如其中一个或多个缺失、一个或多个易位、一个或多个重复、和/或一个或多个倒位等的结果。这些基因/基因座的非限制性例子是AML1、MLL、MYC、BCL、BCR、ABL1、免疫球蛋白基因座、LYL1、TAL1、TAL2、LMO2、TCRα/δ、TCRβ、HOX和其他在各种成淋巴细胞白血病中的基因座。
其他例子在电子数据库中有描述,如 http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=cancerchromosomes http://cgap.nci.nih.gov/chromosomes/Mitelman http://www.progenetix.net/progenetix/P14603437/ideogram.html http://www.changbioscience.com/cytogenetics/cytol.pl?query=47,xy http://www.possum.net.au/ http://www.lmdatabases.com/ http://www.wiley com/legacy/products/subject/life/borgaonkar/index.html http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM http://www.sanger.ac.uk/PostGenomics/decipher/ http://agserver01.azn.nl8080/ecaruca/ecaruca.jsp 其他例子描述于“Catalogue of Unbalanced Chromosome Aberrations inMan”第2版.Albert Schinzel.柏林Walter de Gruyter,2001.ISBN3-11-011607-3中。
在一个具体实施方式
中,术语“邻近”指“直接相邻”,从而使在2个相邻序列间没有插入的核苷酸。
在另一个具体实施方式
中,在核酸序列和第一限制性内切酶识别位点的上下文中的术语“邻近”指“直接相邻”,从而使在核酸序列和第一限制性内切酶识别位点间没有插入的核苷酸。
第二核苷酸序列 第二核苷酸序列是通过交联基因组DNA(如体内或体外)而可得到、得到、鉴定到、可鉴定到。
第二核苷酸序列(如目的核苷酸序列)在用交联剂处理样品并消化/连接交联的DNA片段后变成与第一(靶)核苷酸序列连接。该序列与第一(靶)核苷酸序列交联,这是因为它们最初在核空间中接近并连接于第一(靶)核苷酸序列上,因为连接条件相对于随机连接事件而言更倾向于交联DNA片段间的(分子内)连接。
基于例如易位、缺失、倒位、重复和其他基因组重排的改变的疾病一般由异常的DNA-DNA相互作用造成。4C技术测量出DNA-DNA相互作用的频率,其主要是基因组位点分离的函数,即DNA-DNA相互作用频率与出现在相同实体DNA模板上的2个DNA基因座间的线性距离(以千碱基计)成反比(Dekker等.,2002)。因此,产生新的和/或物理上不同的DNA模板的改变伴随着DNA-DNA相互作用的改变,而且这可通过4C技术来测量。
适宜的是,第二核苷酸序列至少有40个碱基对。
交联剂(如甲醛)可用于将蛋白质与其他邻近蛋白质和核酸交联。因此,两种或多种核苷酸序列可以仅通过结合于这些核苷酸序列(之一)的蛋白质来交联。除了甲醛之外的交联剂也可根据本发明所述而使用,包括那些直接交联核苷酸序列的交联剂。交联DNA的试剂的例子包括但不限于紫外光、丝裂霉素C、氮芥、美法仑、1,3-丁二烯二环氧化物、顺式二氨基二氯铂(cis diaminedichloroplatinum)(II)和环磷酰胺。
适宜的是,交联剂将形成连接相对短的距离(如约2)的交联,由此选出可逆转的密切相互作用。
交联的进行可以是诸如,于室温在2%甲醛中孵育细胞——如通过在10ml添加了2%甲醛、10%FCS的DMEM中于室温孵育1×107个细胞10分钟。
第一限制性内切酶 本文所用的术语“第一限制性内切酶”指用于消化交联的DNA的第一限制性内切酶。
第一限制性内切酶的选择取决于要分析的靶序列(如基因座)的类型。希望进行预实验以优化消化条件。
第一限制性内切酶可选自识别至少6bp序列或更多碱基的DNA的限制性内切酶。
识别6个bp序列DNA的限制性内切酶包括但不限于,AclI、HindIII、SspI、BspLU11I、AgeI、MluI、SpeI、BglII、Eco47III、StuI、ScaI、ClaI、AvaIII、VspI、MfeI、PmaCI、PvuII、NdeI、NcoI、SmaI、SacII、AvrII、PvuI、XmaIII、SplI、XhoI、PstI、AflII、EcoRI、AatII、SacI、EcoRV、SphI、NaeI、BsePI、NheI、BamHI、NarI、ApaI、KpnI、SnaI、SalI、ApaLI、HpaI、SnaBI、BspHI、BspMII、NruI、XbaI、BclI、MstI、BalI、Bsp1407I、PsiI、AsuII和AhaIII。
识别超过6bp的序列的DNA的限制性内切酶包括但不限于BbvC I、AscI、AsiS I、Fse I、Not I、Pac I、Pme I、Sbf I、SgrA I、Swa I、Sap I、Cci NI、FspA I、Mss I、SgfI、Smi I、SrfI和Sse8387 I。
对于本发明的一些方面,对于识别6bp序列的限制性内切酶来说,优选BglII、HindIII或EcoRI。
术语“第一限制性内切酶识别位点”指被第一限制性内切酶识别和切割的核苷酸序列中的位点。
第二限制性内切酶 本文所用的术语“第二限制性内切酶”指第一限制性内切酶消化、连接交联的DNA、去交联并(任选)纯化DNA之后使用的第二限制性内切酶。在一个具体实施方式
中,第二限制性内切酶被用于为目的核苷酸序列提供确定的DNA末端,从而能将已知核苷酸组成的序列与目的核苷酸序列侧翼的第二限制性内切酶识别位点连接。
在一个具体实施方式
中,将已知核苷酸组成的序列与目的核苷酸序列侧翼(如在每一侧或每一端)的第二限制性内切酶识别位点连接,涉及在稀释的条件下连接以促进在靶核苷酸序列侧翼的第二限制性内切酶识别位点和连接的目的核苷酸序列之间的分子内连接。这有效地导致了DNA环的形成,其中已知靶核苷酸序列位于目的未知序列的侧翼。
在另一个具体实施方式
中,将已知核苷酸组成的序列连接于在目的核苷酸序列侧翼(如在每一侧或每一端)的第二限制性内切酶识别位点上涉及添加核苷酸组成已知的独特DNA序列,然后在促进在目的核苷酸序列侧翼的第二限制性内切酶识别位点和导入的已知核苷酸组成的独特DNA序列之间的分子间连接的条件下进行连接。
在一个具体实施方式
中,选择第二限制性内切酶从而不使第二限制性内切酶位点在距离第一限制性位点约350bp(如350-400bp)以内处。
在另一个具体实施方式
中,选择第二限制性内切酶从而使同一第二限制性内切酶位点很可能位于连接的核苷酸序列(即连接的交联序列)中。由于第一(靶)核苷酸序列和连接的核苷酸序列的末端可以是相适应的粘(或平)末端,因此甚至可以连接序列从而使DNA环化。因此,消化步骤后,在促进分子内相互作用的稀释条件下连接,并任选通过相适应的末端使DNA环化。
优选地,第二限制性内切酶识别位点是4或5bp核苷酸序列识别位点。识别4或5bp序列的DNA的酶包括但不限于TspEI、MaeII、AluI、NlaIII、HpaII、FnuDII、MaeI、DpnI、MboI、HhaI、HaeIII、RsaI、TaqI、CviRI、MseI、Sth132I、AciI、DpnII、Sau3AI和MnlI。
在优选的具体实施方式
中,第二限制性内切酶是NlaIII和/或DpnII。
术语“第二限制性内切酶识别位点”指核苷酸序列中被第二限制性内切酶识别和切割的位点。
用第二限制性内切酶消化后,进行进一步的连接反应。在一个具体实施方式
中,该连接反应将已知核苷酸序列组成的DNA序列与一个或多个与靶核苷酸序列相连的序列上的第二限制性内切酶消化位点连接。
第三限制性内切酶 本文所用的术语“第三限制性内切酶”指第二限制性内切酶步骤后为了在扩增前线性化环化的DNA而可任选使用的第三限制性内切酶。
第三限制性内切酶优选是识别6bp或更多的核苷酸识别位点的酶。
第三限制性内切酶优选消化第一和第二限制性内切酶识别位点之间的第一(靶)核苷酸序列。如普通技术人员所能理解的,希望第三限制性内切酶在消化第一(靶)核苷酸序列时不太靠近第一和第二限制性内切酶识别位点,以防使扩增的引物不再杂交。因此,优选第三限制性内切酶识别位点至少与第一和第二限制性内切酶识别位点相距与所用的引物长度相同的距离,从而使一个或多个扩增引物仍能杂交。
在优选的具体实施方式
中,第三限制性内切酶是识别6-bpDNA序列的限制性内切酶。
术语“第三限制性内切酶识别位点”指核苷酸序列中被第三限制性内切酶识别并切割的位点。
识别位点 限制性内切酶是裂解DNA糖-磷酸骨架的酶。在最实用的配置中,给定的限制性内切酶切割一段仅几个碱基长的双螺旋DNA的两条链。限制性内切酶的底物是被称为识别位点/序列的双链DNA序列。
限制性识别位点的长度可变化,这取决于所用的限制性内切酶。识别序列的长度控制酶将如何频繁地在DNA序列中进行切割。
举例来说,许多限制性内切酶识别4bp的DNA序列。序列和识别4bp的DNA序列的酶包括但不限于AATT(TspEI)、ACGT(MaeII)、AGCT(AluI)、CATG(NlaIII)、CCGG(HpaII)、CGCG(FnuDII)、CTAG(MaeI)、GATC(DpnI、DpnII、Sau3AI&MboI)、GCGC(HhaI)、GGCC(HaeIII)、GTAC(RsaI)、TCGA(TaqI)、TGCA(CviRI)、TTAA(MseI)、CCCG(Sth132I)、CCGC(AciI)和CCTC(MnlI) 进一步举例来说,许多限制性内切酶识别6bp的DNA序列。序列和识别6个碱基对的DNA序列的酶包括但不限于AACGTT(AclI)、AAGCTT(HindIII)、AATATT(SspI)、ACATGT(BspLU11I)、ACCGGT(AgeI)、ACGCGT(MluI)、ACTAGT(SpeI)、AGATCT(BglII)、AGCGCT(Eco47III)、AGGCCT(StuI)、AGTACT(ScaI)、ATCGAT(ClaI)、ATGCAT(AvaIII)、ATTAAT(VspI)、CAATTG(MfeI)、CACGTG(PmaCI)、CAGCTG(PvuII)、CATATG(NdeI)、CCATGG(NcoI)、CCCGGG(SmaI)、CCGCGG(SacII)、CCTAGG(AvrII)、CGATCG(PvuI)、CGGCCG(XmaIII)、CGTACG(SplI)、CTCGAG(XhoI)、CTGCAG(PstI)、CTTAAG(AflII)、GAATTC(EcoRI)、GACGTC(AatII)、GAGCTC(SacI)、GATATC(EcoRV)、GCATGC(SphI)、GCCGGC(NaeI)、GCGCGC(BsePI)、GCTAGC(NheI)、GGATCC(BamHI)、GGCGCC(NarI)、GGGCCC(ApaI)、GGTACC(KpnI)、GTATAC(SnaI)、GTCGAC(SalI)、GTGCAC(ApaLI)、GTTAAC(HpaI)、TACGTA(SnaBI)、TCATGA(BspHI)、TCCGGA(BspMII)、TCGCGA(NruI)、TCTAGA(XbaI)、TGATCA(BclI)、TGCGCA(MstI)、TGGCCA(BalI)、TGTACA(Bsp1407I)、TTATAA(PsiI)、TTCGAA(AsuII)和TTTAAA(AhaIII)。
进一步举例来说,许多限制性内切酶识别7bp的DNA序列。序列和识别7bp的DNA序列的酶包括但不限于CCTNAGG(SauI)、GCTNAGC(EspI)、GGTNACC BstEII和TCCNGGA PfoI。
进一步举例来说,许多限制性内切酶识别8bp的DNA序列。序列和识别8bp的DNA序列的酶包括但不限于ATTTAAAT(SwaI)、CCTGCAGG(Sse8387I)、CGCCGGCG(Sse232I)、CGTCGACG(SgrDI)、GCCCGGGC(SrfI)、GCGATCGC(SgfI)、GCGGCCGC(NotI)、GGCCGGCC(FseI)、GGCGCGCC(AscI)、GTTTAAAC(PmeI)和TTAATTAA(PacI)。
许多这些序列包含序列CG,序列CG可在体内甲基化。许多限制性内切酶对该甲基化敏感,而且将不会切割甲基化的序列,如HpaII不会切割序列CCmGG,而其同裂酶MspI对该修饰不敏感,能切割甲基化的序列。因此,在一些情况下,不使用真核甲基化敏感的酶。
在一个具体实施方式
中,识别位点是消化位点。
在一个具体实施方式
中,限制性内切酶识别位点是限制性内切酶消化位点。
环化 根据本发明的一个具体实施方式
,用于4C的材料通过用第二限制性内切酶消化3C模板、然后连接、从而产生DNA环来制备。
优选地,选择在距离第一限制性位点大于约350bp(如350-400bp)处切割第一(靶)核苷酸序列的第二限制性内切酶。有益的是,这使因拓扑学约束而对环形成的偏好最小化(Rippe等.(2001)Trends in Biochem.Sciences 26,733-40)。
第二限制性内切酶优选是识别4或5bp限制性内切酶识别位点的频繁切割分子。因此可能获得对扩增期间所有连接的片段提供相等扩增效率的最小限制性片段。
在第二限制性内切酶消化和连接之前,DNA模板将包含第一(靶)核苷酸序列中的一个第二酶识别位点,其与第一限制酶位点相距大于约350-400bp,和另一个第二酶识别位点,其位于已经连接的核苷酸序列中(即在第二核苷酸序列中)。
第二限制性内切酶消化步骤优选进行1小时以上至过夜,然后使酶热失活。
该反应混合物中的DNA优选用现有已知的常规方法/试剂盒来纯化。
在第二限制性内切酶消化步骤之后,第二限制性内切酶位点将与第一(靶)核苷酸序列中的第一限制酶位点相距大于350-400bp,而且另一个第二限制性内切酶位点将位于被连接的核苷酸序列(即第二核苷酸序列)中。由于第一(靶)核苷酸序列和被连接的核苷酸序列的末端具有相适应的末端,因此可连接序列以使DNA环化。
消化步骤后,在有利于分子内相互作用的稀释的条件下连接,并通过相适应的末端使DNA环化。
连接反应优选以约1-5ng/μ1的DNA浓度来进行。
连接反应优选在约16-25℃进行超过1小时(如2、3、4或更多小时)。
因此,连接反应后,可制备环化的DNA。环化的DNA将包含至少第二限制性内切酶或第一和第二限制性内切酶的识别位点。在包含第一(靶)核苷酸序列的环化的DNA中,第一限制性内切酶识别位点和第二限制性内切酶识别位点将限定第一(靶)核苷酸序列和被连接的核苷酸序列(即第二核苷酸序列)的末端。因此,第一限制性内切酶识别位点和第二限制性内切酶识别位点将使第一(靶)核苷酸序列和被连接的核苷酸序列隔开(如分开)。
扩增 可进行一个或多个扩增反应以扩增4C DNA模板。
可利用许多现有已知的不同方法来进行DNA扩增。例如,可利用聚合酶链式反应(Saiki等.,1988);连接介导的PCR、Qb复制酶扩增(Cahill,Foster和Mahan,1991;Chetverin和Spirin,1995;Katanaev,Kurnasov和Spirin,1995);连接酶链式反应(LCR)(Landegren等.,1988;Barany,1991);自动维持序列复制系统(Fahy,Kwoh和Gingeras,1991)和链置换扩增(Walker等.,1992)来扩增DNA。
优选用PCR来扩增DNA。“PCR”指K.B.Mullis的美国专利4,683,195、4,683,202、和4,965,188的方法,其描述了一种方法来增加基因组DNA混合物中核苷酸序列片段浓度而不进行克隆或纯化。
在一个具体实施方式
中,使用反向PCR。(Ochman等(1988)Genetics120(3),621-3所述的)反向PCR(IPCR)是一种用以快速体外扩增已知序列区域侧翼的DNA序列的方法。该方法使用聚合酶链式反应(PCR),它具有与常规方向相反方向的引物。反向引物的模板是自身连接成环的限制性片段。反向PCR在分子遗传学中有许多应用,例如,扩增和鉴定在转座元件侧翼的序列。为了增加扩增的有效性和可重复性,优选将DNA环线性化,然后用第三限制性内切酶进行扩增。优选使用第三限制性内切酶,其是识别6bp或更多bp的限制性内切酶。第三限制性内切酶优选切割第一和第二限制性内切酶位点之间的第一(靶)核苷酸序列。
用第二限制性内切酶消化3C模板,任选进行环化,连接(如在稀释条件下连接)并任选将含第一(靶)核苷酸序列的环线性化,可产生用于扩增的DNA模板(“4C DNA模板”)。
对于扩增步骤,使用至少2种寡核苷酸引物,其中每一种引物与在目的核苷酸序列的侧翼的DNA序列杂交。在优选的具体实施方式
中,使用至少2种寡核苷酸引物,其中每一种引物与在目的核苷酸序列的侧翼的靶序列杂交。
在一个具体实施方式
中,在引物杂交的上下文中的术语“侧翼”指至少一种引物与和目的核苷酸序列的一个末端(如5’末端)相邻的DNA序列杂交,而且至少一种引物与在目的核苷酸序列的另一个末端(如3’末端)上的DNA序列杂交。优选至少一种正向引物与和目的核苷酸序列的一个末端(如5’末端)相邻的DNA序列杂交,而且至少一种反向引物与在目的核苷酸序列的另一个末端(如3’末端)上的DNA序列杂交。
在优选的具体实施方式
中,在引物杂交的上下文中的术语“侧翼”指至少一种引物与和目的核苷酸序列的一个末端(如5’末端)相邻的靶序列杂交,而且至少一种引物与在目的核苷酸序列的另一个末端(如3’末端)上的靶序列杂交。优选至少一种正向引物与和目的核苷酸序列的一个末端(如5’末端)相邻的靶序列杂交,而且至少一种反向引物与在目的核苷酸序列的另一个末端(如3’末端)上的靶序列杂交。
本文所用的术语“引物”指寡核苷酸,无论是以纯化的限制性消化物的形式天然产生的还是合成生产的,其都能在置于能诱导合成与核酸链互补的引物延伸产物的条件下(即,在核苷酸和诱导剂(如DNA聚合酶)存在时,并且以合适的温度和pH)时用作合成起始点。引物优选是单链的,从而有最大扩增效率,但可以是双链的。如果是双链的,则首先处理引物以分开其链,然后用于制备延伸产物。引物优选是寡脱氧核糖核苷酸。引物必须足够长到能在诱导剂存在的条件下引发合成延伸产物。引物的确切长度将取决于许多因素,包括温度、引物来源和所用的方法。
适宜的是,引物长度将是至少15、优选至少20、例如至少25、30或40个核苷酸。优选扩增引物长度为16至30个核苷酸。
优选将引物设计成尽可能靠近分隔第一(靶)核苷酸序列和第二核苷酸序列的第一和第二限制性内切酶识别位点。可设计引物从而使它们相距第一和第二限制性内切酶识别位点在约100个核苷酸之内——如约90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、2或1个核苷酸。
适宜的是,设计扩增引物以使它们的3’末端向外朝着第一和第二限制性内切酶识别位点,从而使延伸立即穿过限制酶位点进入第二核苷酸序列。
如果所用的扩增方法是反向PCR,则优选在约100-400ng 4C模板DNA(每个约50μl PCR反应混合物中)或重复PCR反应能得到可重复的结果(参见图1)并在每个PCR反应中包括最大数量的连接事件的其他DNA量上进行扩增反应。
优选根据厂商说明利用缓冲液1,用Expand Long Template PCR系统(Roche),进行反向PCR扩增反应。
样品 本文所用的术语“样品”具有其正常的含义。样品可以是任何物质实体,其包含交联或能交联的DNA。样品可以是或可以源自生物材料。
样品可以是或可以源自一个或多个实体——如一个或多个细胞、一个或多个核、或一个或多个组织样品。实体可以是或可以源自其中存在DNA,如染色质的任何实体。样品可以是或可以源自一个或多个分离的细胞或一个或多个分离的组织样品、或一个或多个分离的核。
样品可以是或可以源自活细胞和/或死细胞和/或核溶解产物和/或分离的染色质。
样品可以是或可以源自患病和/或没有患病的受试者。
样品可以是或可以源自怀疑罹患疾病的受试者。
样品可以是或可以源自要测试他们将来将罹患疾病的可能性的受试者。
样品可以是或可以源自活的或不活的患者材料。
Splinter等.,(2004)Methods Enzymol.375,493-507中详细描述了固定细胞和组织用于制备3C模板。
标记 优选,核苷酸序列(如扩增的4C DNA模板、引物或探针等)是标记的,从而辅助它们的下游应用——如阵列杂交。举例来说,4C DNA模板可利用随机引发或缺口翻译来标记。
可用许多种标记物(如报告分子)来标记本文所述的核苷酸序列,尤其在扩增步骤中。合适的标记包括放射性核素、酶、荧光、化学发光、或发色剂以及底物、辅助因子、抑制剂、磁性颗粒等。教导应用这些标记的专利包括US-A-3817837;US-A-3850752;US-A-3939350;US-A-3996345;US-A-4277437;US-A-4275149和US-A-4366241。
其它标记包括而不限于β-半乳糖苷酶、转化酶、绿色荧光蛋白、荧光酶、氯霉素、乙酰转移酶、β-葡糖醛酸酶、外切葡聚糖酶和葡糖淀粉酶。也可用荧光标记、以及带有特定化学性质的特异合成的荧光试剂。可用许多种测量荧光的方式。例如,一些荧光标记展示出激发或吸收光谱的变化,一些当其中一种荧光报告分子放出荧光而第二种吸收荧光时展示出共振能量转移,一些展示出荧光丧失(淬灭)或显示荧光,而一些报告旋转运动。
为了获得足以进行标记的材料,可汇集多次扩增,而不用增加每个反应中的扩增循环数量。另外,标记的核苷酸可被整合进最后几个扩增反应循环中(如30个循环的PCR(无标记)+10个循环的PCR(有标记))。
阵列 在特别有益的具体实施方式
中,根据本文所述方法制备的4C DNA模板可与阵列杂交。因此,可用阵列(如微阵列)技术来鉴定频繁与第一(靶)核苷酸序列共有核位点的核苷酸序列(如基因组片段)。
根据本发明,可用现有的阵列(如表达和基因组阵列)。可是,本发明还寻求提供新的如本文所述的阵列(如DNA阵列)。
“阵列”是有意产生的核酸集合,其可合成或生物合成制备,并可以各种不同形式(如,可溶性分子文库;和连在树脂珠、硅片、或其他固相支持物上的寡聚物文库)来筛选生物活性。另外,术语“阵列”包括那些通过将几乎任意长度(如,从1至约1000个核苷酸单体长度)的核酸点样在基质上而制备的核酸的文库。
阵列技术和与其相关的各种技术和应用一般在大量教科书和文献中有描述。这些包括Lemieux等.,1998,Molecular Breeding 4,277-289,Schena和Davis.Parallel Analysis with Biological Chips.摘自PCR Methods Manual(M.Innis,D.Gelfand,J.Sninsky编),Schena和Davis,1999,Genes,Genomesand Chips.摘自DNA MicroarraysA Practical Approach(M.Schena编),Oxford University Press,Oxford,英国,1999),The Chipping Forecast(NatureGenetics特刊;1999年1月增刊),Mark Schena(编),Microarray BiochipTechnology,(Eaton Publishing Company),Cortes,2000,The Scientist 14[17]25,Gwynne和Page,Microarray analysisthe next revolution in molecularbiology,Science,1999年8月6日;和Eakins和Chu,1999,Trends inBiotechnology,17,217-218。
阵列技术克服了传统分子生物学方法的缺点,传统分子生物学方法一般以“一个实验中一个基因”为基础进行作业,是低通量的并且不能形成基因功能的“全景图”。当前,阵列技术的主要应用包括鉴定序列(基因/基因突变)和确定基因表达水平(丰度)。基因表达谱可运用阵列技术,任选还合并运用蛋白质组技术(Celis等,2000,FEBS Lett,480(1)2-16;Lockhart和Winzeler,2000,Nature 405(6788)827-836;Khan等.,1999,20(2)223-9)。阵列技术的其它应用也是现有已知的;例如,基因发现、癌症研究(Marx,2000,Science 2891670-1672;Scherf,等,2000,Nat Genet;24(3)236-44;Ross等,2000,Nat Genet.2000 Mar;24(3)227-35)、SNP分析(Wang等,1998,Science,280(5366)1077-82)、药物发现、药物基因组学、疾病诊断(例如,利用微流体学设备Chemical&Engineering News,1999年2月22日,77(8)27-36)、毒理学(Rockett和Dix(2000),Xenobiotica,30(2)155-77;Afshari等.,1999,Cancer Resl;59(19)4759-60)和毒理基因组学(综合了功能基因组学和分子毒理学的学科)。
一般而言,任何文库都可通过在空间上分隔文库的成员来以有序方式排列成阵列。合适的阵列文库的例子包括核酸库(包括DNA、cDNA、寡核苷酸等文库)、肽、多肽和蛋白质文库、以及包含任何分子的文库,如配体库,以及其它。
样品(如,库的成员)一般被固定或固定化在固相上,优选在固体基质上,由此限制样品的扩散和混合。在优选的具体实施方式
中,可制备结合配体的DNA库。尤其可将库固定在基本上平的固相上,包括膜和无孔基质(如塑料和玻璃)上。另外,样品优选以方便标引(即,提供对特定样品的参考或提取)的方式排列。通常样品被用作网格形式中的点。为此可修改普通测试系统。例如,阵列可固定在微板表面上,一个孔中有多个样品,或每个孔中有单个样品。此外,固体基质可以是膜,如硝化纤维素或尼龙膜(例如,用于印迹实验中的膜)。其它基质包括基于玻璃或硅的基质。因此,样品可用任何合适的现有已知的方法来固定,例如,通过电荷相互作用,或通过化学偶联于孔壁或底上、或膜表面上。可用其它排列和固定方法,例如,用吸管点、滴落接触、压电法、喷墨和喷泡沫技术、静电应用等。对于基于硅的芯片来说,可用照相平版印刷来将样品排列并固定于芯片上。
通过“点”在固体基质上来排列样品;这可以手工进行或通过使用机器人技术来点样样品。一般而言,阵列可被描述成大阵列或微阵列,其区别是样品点的大小。大阵列通常含约300微米或更大的大小的样品点并可方便地通过现有的凝胶和印迹扫描仪来成像。微阵列中的样品点直径大小通常小于200微米,而且这些阵列通常含上千个点。因此,微阵列需要专门的机器人技术和成像设备,其可能需要定制。所用的仪器在Cortese,2000,The Scientist 14[11]26中有一般性的综述。
产生固定的DNA分子文库的技术在现有技术中有过描述。一般而言,大多数现有技术方法描述了如何合成单链核酸分子文库,其利用诸如隐蔽技术在固体基质上的各种离散位置处产生各种序列改变。美国专利5,837,832描述了一种基于大规模整合技术的改进的方法来产生固定于硅基质上的DNA阵列。尤其是,美国专利5,837,832描述了一种被称为“铺瓦”的策略在基质上空间确定的位置上合成特定探针组,其可用于产生本发明固定的DNA库。美国专利5,837,832也提供了所涉及的也可使用的较早技术的参考。
也可用光沉积化学来制造阵列。
肽(或肽模拟物)阵列也可以在表面上合成,其方式是将每个独特的文库成员(如,独特的肽序列)置于离散的、预先确定的阵列位置上。每个文库成员的身份是由阵列中空间位置确定的。确定阵列中预先确定的分子(如,靶或探针)和反应性库成员之间发生的结合性相互作用的位置,由此基于空间位置来鉴定反应性库成员的序列。这些方法描述于美国专利5,143,854;WO90/15070和WO92/10092;Fodor等.(1991)Science,251767;Dower和Fodor(1991)Ann.Rep.Med.Chem.,26271中。
为了帮助检测,通常使用(如上所述的)标记,如任何方便检测的报道分子,例如,荧光、生物发光、磷光、放射性等报道分子。这些报道分子、其检测、与靶/探针的偶联等在本文的其它地方有讨论。探针和靶的标记还公开于Shalon等.,1996,Genome Res6(7)639-45中。
特定DNA阵列的例子如下 I型利用机器人点样将探针cDNA(500~5,000个碱基长)固定于固体表面(如玻璃),并将其暴露于一组分离或混合的靶。该方法被广泛认为是由斯坦福大学开发的(Ekins和Chu,1999,Trends in BioTechnology,1999,17,217-218)。
II型寡核苷酸(20-25聚寡聚物,优选是40-60聚寡聚物)或肽核酸(PNA)探针阵列被原位(芯片上)合成或常规合成并之后固定在芯片上。将阵列暴露于标记的样品DNA,杂交,并确定互补序列的身份/丰度。该DNA芯片由Affymetrix,Inc.以GeneChip商标销售。Agilent和Nimblegen也提供了合适的阵列(如基因组嵌合阵列)。
一些可商购的微阵列型号的例子在下表1中列出(也可参见Marshall和Hodgson,1998,Nature Biotechnology,16(1),27-31). 表1当前可用的杂交微阵列型号的例子 为了从基于阵列的测试中产生数据,检测表明探针和核苷酸序列间存在或缺少杂交的信号。本发明还关注直接和间接标记技术。例如,直接标记将荧光染料直接整合到与阵列相连的探针杂交的核苷酸序列上(如,在存在标记的核苷酸或PCR引物情况下通过酶催化合成将染料整合到核苷酸序列)。直接标记方案能产生强杂交信号,其通常利用化学结构和性质相似的荧光染料家族,并易于实现。在优选的包括直接标记核酸的具体实施方式
中,将青色素或alexa类似物用于多重荧光比较阵列分析中。在其它具体实施方式
中,间接标记方案可用于在与微阵列探针杂交之前或之后将表位整合在核酸上。一种或多种染色过程和试剂可用于标记杂交的复合物(如,结合表位的荧光分子,由此通过与杂交物的表位连接的染料分子可提供荧光信号)。
数据分析也是涉及阵列的实验中的重要部分。阵列实验中得到的未加工的数据通常是图像,其需要转成矩阵——表,其中行代表诸如基因,列代表诸如各种样品(如组织)或实验条件,而且每个单元中的数字表征诸如特定序列(优选是与第一(靶)核苷酸序列连接的第二序列)在特定样品中的表达。如果要提取出任何有关的生物学过程的知识,这些矩阵必须进一步被分析。数据分析方法(包括有指导的和无指导的数据分析以及生物信息学方法)被公开于Brazma和Vilo J(2000)FEBS Lett 480(1)17-24中。
如本文所述,标记的并之后与阵列杂交的一个或多个核苷酸序列(如DNA模板)包含富含带有独特重要性的小段序列的核苷酸序列,即横跨在3C过程期间与第一(靶)核苷酸序列相连的第一限制性内切酶识别位点和它们各自相邻的第二限制性内切酶识别位点之间的核苷酸序列。
单个阵列可包含多种(如两种或多种)诱饵序列。
探针 本文所用的术语“探针”指分子(如,寡核苷酸,无论其是以纯化的限制性消化物形式天然产生的还是合成、重组或通过PCR扩增而产生的),其能够与另一种目的分子(如,另一种寡核苷酸)杂交。当探针是寡核苷酸时,它们可以是单链或双链的。探针可用于检测、鉴定和分离特定的靶(如,基因序列)。如本文所述,关注的是,本发明所用的探针可以是用标记物标记的,从而可在任何检测系统中检测,其包括但不限于酶(如,ELISA、以及基于酶的组织化学测试)、荧光、放射性、和发光系统。
至于阵列和微阵列,术语“探针”被用于指任何为了检测已经与所述探针杂交的核苷酸序列而可固定于阵列上的可杂交材料。这些探针优选是25-60聚或更长的。
探针设计策略被描述于WO95/11995、EP 717,113和WO97/29212中。
由于4C能对相互作用进行无偏好的基因组广度的搜索,因此其能有益地制备阵列,其中带有的探针能探测基因组中每个可能的(如独特/非重复的)第一限制性内切酶识别位点。因此,阵列设计仅依赖于第一限制性内切酶的选择,而不依赖于第一或第二核苷酸的实际序列。
尽管可根据本发明所述使用现有的阵列,优选使用其它构型。
在一种构型中,设计阵列上的一个或多个探针,从而使它们能杂交于由第一限制性内切酶消化的位点附近。一个或多个探针更优选是在距离第一限制性内切酶识别位点约20bp内。一个或多个探针更优选是在距离第一限制性内切酶识别位点约50bp内。
适宜的是,一个或多个探针是在距离第一限制性内切酶识别位点约100bp(如约0-100bp、约20-100bp)内。
在一种优选的构型中,单个、独特的探针被设计在由第一限制性内切酶消化的位点之每一侧的100bp内。
在另一种优选的构造中,相对于第一限制性内切酶消化的位点位置的第二限制性内切酶消化的位点位置也纳入考量。在这种构型中,单个、独特的探针仅被设计在第一限制性内切酶消化的位点之每一侧上,其与最接近的第二限制性内切酶识别位点距离大到足够在第一和第二限制性内切酶识别位点间设计给定长度的探针。例如,在这种构型中,没有探针被设计成位于与同一侧的第二限制性内切酶识别位点距离10bp之内的特定第一限制性内切酶识别位点的一侧。
在另一种构型中,设计阵列上的探针,从而使它们能与第一限制性内切酶消化的位点之任一侧杂交。适宜的是,可使用第一限制性内切酶识别位点每一侧上的单个探针。
在又一种构型中,两种或多种(如3、4、5、6、7或8或更多)探针可被设计在第一限制性内切酶识别位点之每一侧上,然后其可用于研究同一连接事件。对于探针相对于每一个第一限制性内切酶识别位点的数量和位置,可考量其相邻的第二限制性内切酶识别位点的确切基因组位置。
在又一种构造中,两种或多种(如3、4、5、6、7或8或更多)探针可被设计成位于每个第一限制性内切酶识别位点附近,而不考虑最接近的第二限制性内切酶识别位点。在这种构型中,所有探针应仍旧靠近第一限制性内切酶识别位点(优选在限制性位点的300bp内)。
有益的是,后者的设计,还有每个第一限制性内切酶识别位点(的一边)1个探针的设计,都能应用不同的第二限制性内切酶与给定的第一限制性内切酶的组合。
有益的是,每个第一限制性内切酶识别位点应用多个(如2、3、4、5、6、7或8或更多)探针可使由于单个探针的不良表现而得到假阴性结果的问题最小化。而且,它也可增加单个芯片实验中得到的数据的可靠性,并减低得到统计学上可信结论所需的阵列数量。
用于阵列中的探针可大于40个核苷酸长而且可以是等温的。
优选排除含重复DNA序列的探针。
用于侦测在第一核苷酸序列紧邻的侧翼或附近的限制酶位点的探针预计能带来非常强的杂交信号,并也可排除出探针设计。
阵列可涵盖任何基因组,包括哺乳动物(如人、小鼠(如染色体7))、脊椎动物(如斑马鱼))、或非脊椎动物(如细菌、酵母、真菌或昆虫(如果蝇))基因组。
在进一步优选的具体实施方式
中,阵列含在每个独特的第一限制酶位点周围、而且尽可能地接近限制性内切酶消化位点的2-6个探针。
距限制性内切酶消化位点的最大距离优选是约300bp。
在本发明进一步优选的具体实施方式
中,提供了针对限制性内切酶(如HindIII、EcoRI、BglII和NotI)的阵列,其涵盖了哺乳动物或非哺乳动物基因组。有益的是,本文所述的阵列设计克服了对每个靶序列重新设计阵列的要求,只要在相同物种中进行分析。
探针组 本文所用的术语“探针组”指探针组合或集合,所述探针与基因组中第一限制性内切酶的第一限制性内切酶识别位点之每一个杂交。
因此,在另一方面,提供了探针组,所述探针在序列上与和基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点相邻的核酸序列互补。
适宜的是,探针组在序列上与和基因组DNA中每一个第一限制性内切酶识别位点相邻的最初25-60(如35-60、45-60、或50-60)或更多个核苷酸互补。探针组在序列上可与第一限制性内切酶识别位点之(任)一侧或两侧互补。因此,探针在序列上可与基因组DNA中每一个第一限制性内切酶识别位点之每一侧相邻的核酸序列互补。
也可能确定其中该组的一个或多个探针可被设计的窗口(如距离第一限制性内切酶识别位点300bp或更少,如250bp、200bp、150bp或100bp)。对于确定窗口(在窗口中设计探针)而言重要的因素为诸如GC-含量、缺少能形成发夹结构的回文序列、单一类型核苷酸区段的最大尺寸。因此,探针组在序列上可与距离基因组DNA中每一个第一限制性内切酶识别位点小于300bp的核酸序列互补。
也可能确定距离第一限制性内切酶识别位点约100bp的窗口以鉴定出在每个限制性位点附近的最优探针。
在本发明的其它具体实施方式
中,探针组与距离基因组DNA中每一个第一限制性内切酶识别位点小于300bp的序列互补,与距离基因组DNA中每一个第一限制性内切酶识别位点200-300bp的序列互补和/或与距离基因组DNA中每一个第一限制性内切酶识别位点100-200bp的序列互补。
在本发明的其它具体实施方式
中,探针组与距离基因组DNA中每一个第一限制性内切酶识别位点0-300bp的序列互补,与距离基因组DNA中每一个第一限制性内切酶识别位点0-200bp的序列互补和/或与距离基因组DNA中每一个第一限制性内切酶识别位点0-100bp的序列互补(如距离基因组DNA中每一个第一限制性内切酶识别位点约10、20、30、40、50、60、70、80或90bp)。
甚至可设计两种或多种能够与和基因组DNA中每个第一限制性内切酶识别位点相邻的序列杂交的探针。
探针可重叠或部分重叠的。如果探针重叠,则优选重叠小于10个核苷酸。
也可用代表在每个第一限制性内切酶识别位点侧翼的最初1-300个核苷酸(如1-20、1-40、1-60、1-80、1-100、1-120、1-140、1-160、1-180、1-200、1-220、1-240、1-260或1-280个核苷酸)的PCR片段。
PCR片段也可用作探针,其严格对应于其两侧分别为第一限制性内切酶识别位点和第一个邻近的第二限制性内切酶识别位点的每个基因组位点。因此,探针序列可对应于每一个第一限制性内切酶识别位点和每一个第一个相邻的第二限制性内切酶识别位点之间的全部或部分序列。
通常,探针、探针阵列或探针组将固定于支持物上。支持物(如固相支持物)可由各种材料制成,如玻璃、硅石、塑料、尼龙或硝化纤维素。支持物优选是刚性的并具有平坦的表面。支持物通常有约1-10,000,000个离散的可空间编址的区域、或单元。具有约10-1,000,000或约100-100,000或约1000-100,000个单元的支持物是常见的。单元密度通常至少为每平方厘米约1000、10,000、100,000或1,000,000个单元。在一些支持物中,所有单元都被汇聚的探针或探针组混合物占据。在另一些支持物中,一些单元被汇聚的探针或探针组混合物占据,而其他单元被至少用合成方法可得的纯度程度的单一类型的寡核苷酸占据。
本文所述的阵列优选每个第一限制性内切酶识别位点包含至少一种探针,例如对于识别6bp的限制性内切酶而言,其在每个人或小鼠基因组中出现约750,000次。
例如对于识别>6bp的识别序列的限制性内切酶,可用约有2×750,000个探针的单个阵列来涵盖完整的人或小鼠基因组,在每个限制性位点的每一侧上有1个探针。
在优选的阵列设计中,存在于阵列上的给定核苷酸序列的探针分子总数大大超过4C样品中存在的要与该阵列杂交的同源片段。考虑到4C技术的性质,代表与线性染色质模板上要分析的核苷酸序列相邻的基因组区域的片段将在4C杂交样品中大大过量(如图2所述)。为了得到有关该丰富片段杂交效率的定量信息,可能必须减少要杂交的样品量和/或增加阵列上给定的寡核苷酸序列探针的分子数。
因此,为了检测频繁接触诸如基因启动子元件的DNA调节元件,可能必须使用其中探针仅代表所选的基因组区域(如约0.5-10Mb)的阵列,但其中每个特定探针出现在阵列上多个(如约100、200、1000个)位置处。该设计也可优选用于诊断目的用于检测位点(如目的基因)周围局部(如在约10Mb内)的基因组重排(如缺失、倒位、重复等)。
阵列可包含约3×750,000个探针、4×750,000个探针、5×750,000个探针、或优选6×750,000个探针。阵列更优选包含6×750,000个探针,其中每个限制性位点的每一侧上有2、3、4、5、6、7或8或更多个探针。阵列最优选包含6×750,000个探针,其中每个限制性位点之每一侧有3个探针。
探针阵列或探针组可在支持物上以按步就班的方式合成,或可以预先合成的形式来附着。一种合成方法是VLSIPS.TM.(如US 5,143,854和EP 476,014所述),其必须用光指导寡核苷酸探针在高密度、小型化的阵列中合成。如US 5,571,639和US.5,593,839所述的算法被用来设计能减少合成周期数的覆盖物(mask)。如EP 624,059所述,阵列也可以组合方式通过机械限制的轨道将单体递送到支持物单元来合成。阵列也可通过用喷墨打印机将试剂点样到支持物上来合成(例如参见,EP 728,520)。
在本发明的内容中,术语“基本上的探针组”、“基本上的探针阵列”指探针组或阵列包括至少约50、60、70、80、90、95、96、97、98或99%的全部或完整的探针组或阵列。探针组或阵列优选是全部或完整的探针组(即100%)。
在优选的具体实施方式
中,阵列在每个出现于给定基因组的第一限制性内切酶识别位点之每一侧包括单个独特的探针。如果这一探针数超过单个阵列所能包含的探针数,则阵列可优选仍包含给定物种完整基因组的代表,但解析度较低,例如按序排列在线性染色体模板上每2、3、4、5、6、7、8、9、10、102、103或104个等探针中的一个存在于阵列上。例如在要找易位配体的情况下,以次优化解析度涵盖完整的人或其他基因组的阵列可比涵盖相同基因组的一部分的高解析度阵列更优选。
较低解析度的给定物种完整基因组的代表优选可通过阵列上的探针来获得,所述探针每个代表用第一限制性内切酶消化后得到的单个限制性片段。这优选通过每隔二个、三个、四个、五个、六个、七个、八个、九个、十个、二十个、三十个、四十个、五十个、六十个、七十个、八十个、九十个或一百个等等与相同限制性片段杂交的探针忽略一个而得到。
给定物种完整基因组的较低解析度的代表优选包括沿线性染色体模板平均分布的探针。这优选通过忽略显示最高探针密度的基因组区域中一个或多个探针来获得。
杂交 本文所用的术语“杂交”应当包括“核酸链通过碱基配对与互补链结合的过程”以及在聚合酶链式反应(PCR)技术中进行的扩增过程。
能选择性杂交的核苷酸序列一般将与相应互补核苷酸序列在至少20、优选至少25或30、例如至少40、60或100或更多个核苷酸区域上有至少75%、优选至少85或90%和更优选至少95%或98%同源性。
“特异杂交”指在严紧条件(如65℃和0.1×SSC{1×SSC=0.15M NaCl,0.015M柠檬酸钠pH 7.0})下使分子只与特定核苷酸序列结合、二聚、或杂交。严紧条件是探针将与其靶序列杂交但不与其它序列杂交的条件。严紧条件是序列依赖性的,而且在不同情况下是不同的。较长的序列在较高的温度时特异杂交。一般而言,在确定的离子强度和pH下,所选的严紧条件低于特定序列的热熔点(Tm)约5℃。Tm是(在确定的离子强度、pH、和核酸浓度的条件下)其中互补于靶序列的探针中50%与靶序列平衡杂交的温度(因为靶序列一般过量存在,在Tm时,50%的探针被平衡占据)。通常,严紧条件包括盐浓度在pH 7.0-8.3时至少为约0.01-1.0M Na(或其他盐)离子浓度,而且对于短探针,温度至少为约30℃。严紧条件也可添加去稳定剂(如甲酰胺或四烷基季铵盐)来获得。
如所属领域技术人员将会理解的,可用最大严紧度的杂交来鉴定或检测相同的核苷酸序列,而可用中等(或低)严紧度的杂交来鉴定或检测相似或相关的多核苷酸序列。
将探针阵列与标记的或未标记的核苷酸序列杂交的方法也有描述。可控制特定杂交反应条件来改变杂交(如,增加或减少探针/靶结合严紧度)。例如,反应温度、阴离子和阳离子浓度、去污剂的加入等都可改变阵列探针和靶分子的杂交特征。
相互作用频率 对限制性片段连接频率定量可测量它们的交联频率。适宜的是,则可利用PCR用如Splinter等.(2004)(见上)所述的常规3C技术来获得。简而言之,通过在溴化乙锭染色的琼脂糖凝胶上分离、然后用Typhoon 9200成像仪(Molecular Dynamics,Sunnyvale,CA)扫描信号强度来测量PCR产物的形成。适宜的是,也如Splinter等.(2004)(见上)所述,用几个对照来正确解释数据。
由于本文所述的4C技术提供了高通量分析核空间中两个或更多个核苷酸序列相互作用的频率的方法,因此优选利用本文所述的阵列来定量限制性片段的连接频率。
为了定量,4C样品中所得的信号用对照样品所得的信号来正态化。4C样品和一个或多个对照样品用不同的和可分辨的标记物(如染料)标记,并将同时与阵列杂交。一个或多个对照样品通常将包含所有等摩尔量的DNA片段(即与第一(靶)核苷酸序列连接了的所有潜在的第二核苷酸序列),并且为了排除杂交效率的偏好,它们应与一个或多个第二核苷酸序列大小相似。因此,对照模板通常将包含(与用于获得4C模板的基因组DNA具有相同遗传背景的)基因组DNA,其用第一和第二限制性内切酶消化,并用与4C模板相同的方法(如随机引发)来标记。这样的对照模板有可能校正杂交效率中探针-与-探针的差异。将4C阵列信号相对于对照阵列信号正态化使得以富集方式而不是随机事件方式表述结果成为可能。
标记的4C模板甚至可以与带有或不带有不同标记的对照样品和带有或不带有一个或多个不同标记的其它4C模板的阵列杂交。其他4C模板可与该4C模板无关,例如它可以得自不同的组织和/或用不同组的反向PCR引物来获得。例如,第一4C模板可以是患者的材料,而第二4C模板可得自健康的受试者或对照样品。
考虑到基因重排所预计到的惊人的杂交模式,不总是必须将患病的受试者与健康的受试者作比较。因此,多个(如两个或多个)4C模板(其每一个都可研究来自相同患者或受试者的不同基因座)可与一个(如一个或多个)阵列杂交。
4C模板可以是不同标记的(如用两种或多种颜色杂交),和/或在该基因座正常地位于不同染色体上或在相同染色体上的距离足够远使得DNA-DNA相互作用信号间的重叠最小的情况下,可以是相同标记的。例如,可以处理患有T细胞白血病的受试者的材料,以获得针对TCRα/δ(其用一种颜色标记,从而能检测易位)、和MLL、TAL1、HOX11和LMO2(每0个用相同的第二种颜色标记从而能检测其他基因重排)的4C模板。这5种4C模板可与阵列杂交,从而能在多个基因座处同时分析与疾病相关的基因组重排。
为了定量相互作用的频率,也可考量相对于对照样品的绝对信号强度或比率。另外,线性染色体模板上相邻的探针信号可用于鉴定相互作用的染色体区域。该位置信息优选通过在线性染色体模板上按序排列探针并通过变换窗口法,例如使用连续平均或连续中位数法,来分析绝对信号强度或相对于对照模板信号的比率。
测试方法 在本发明的另一方面,提供了鉴定一种或多种调节DNA-DNA相互作用的试剂的测试方法。
本文所用的术语“调节”指防止、减小、抑制、恢复、抬升、增加或以其它方式影响DNA-DNA相互作用。
在一些情况下,希望评估两种或多种试剂在一起用于调节DNA-DNA相互作用。在这些情况下,测试可通过在第一试剂同时或之后加入该一种或多种额外的试剂来方便地修改。
本发明的方法也可以是筛选方法,由此测试许多试剂能否调节DNA-DNA相互作用的活性。
预计本发明的测试方法适于小和大规模筛选试剂以及进行定量测试。
这些治疗剂的医学应用包括在本发明的范围内,药物开发程序本身和包含这些试剂的药物组合物也包括在其中。例如,药物开发程序可包括取得由或可由本文所述的方法鉴定的试剂,任选修饰它(如修饰它的结构和/或提供包含所述部分的新的组合物)并进行进一步研究(如毒性研究和/或对于活性、结构或功能研究)。可在非人动物上进行试验并最终在人上进行。这些试验一般会包括确定不同剂量水平的一种或多种效果。药物开发程序可利用计算机来分析由筛选方法鉴定的部分(如预测结构和/或功能,鉴定可能的激动剂或拮抗剂,搜索可能具有相似结构或功能的其他部分等)。
诊断测试 当前,各种基因组重排仍难以通过分子-细胞遗传技术来检测。尽管阵列比较基因组杂交技术(阵列-CGH)是新近开发的技术用以以35-300Kb的解析度检测染色体扩增和/或缺失,但是该技术不适于检测平衡的易位和染色体倒位。在另一方面,光谱核型分析(spectral karyotyping,SKY)或常规核型分析经常在患者材料上进行来检测染色体易位以及数量改变,但是确定易位断点的解析度低,通常分别为10-50Mb和5-10Mb。因此,这两种方法(尤其是SKY)得到的结果将要导致进行费时、费力的验证实验,像荧光原位杂交(FISH)和分子断点克隆策略。
4C技术包括可基于物理连接的DNA序列间相互作用频率的改变检测任何染色体重排的过程。所以,4C技术可用于为大多数人恶性肿瘤/多种先天畸形或智力迟钝鉴定(复发的)染色体重排。4C技术的重要优势是它能非常准确地将断点作图在仅几千个碱基对的区域上。4C技术的另一个优势是不需要事先知道确切的断点位置,这是因为即使4C-诱饵序列距离断点1-5Mb时也能检测到断点。这也具有相同的诱饵序列可用于检测覆盖大断点区域的特定染色体重排的优势。通过4C技术将基因组重排准确作图将大大方便鉴定涉及疾病或遗传病的一个或多个异常表达的基因,这对于更好地理解基因型-表型的相互关系将发挥重要贡献,帮助做出治疗决定,并增加重要的预测信息。
在本发明的一个具体实施方式
中,为了提供诊断或预测疾病的基础,要建立受试者的正常或标准值。这通过测试取自正常受试者(如动物或人)的样品来获得。DNA-DNA相互作用的频率可通过将它与一系列稀释度的阳性对照比较来定量。然后,得自正常样品的正常值可与得自受或潜在将受疾病或病症影响的受试者样品的值来比较。标准和受试者值之间的偏差确立了疾病状态的存在。
可修改这些诊断测试来评估特定治疗方案的功效并用于动物研究、临床试验、或用于监测单个患者的治疗。为了提供诊断疾病的基础,要确立DNA-DNA相互作用的正常或标准图谱。得自正常样品的标准值可与得自受或潜在将受疾病或病症影响的受试者样品的值来比较。标准和受试者值之间的偏差确立了疾病状态的存在。如果确定了疾病,则可给药现有的治疗剂,并产生治疗图谱或值。最终,有规律地重复该方法来评估该值是否朝正常或标准模式进行或回归正常或标准模式。连续治疗图谱可用于显示几天或几个月内治疗的功效。
4C技术准确地检测了与要分析的核苷酸序列顺式连接的至少5Mb的基因组DNA(参见图2-3和5)。有益的是,4C技术可用于检测任何伴随着重排序列和所选的4C序列(诱饵)之间基因组位点分离的改变的基因组异常。例如,该改变可以是基因组位点分离的增加或减小,或可以是与4C序列(诱饵)相邻(如距离多至或大于15Mb)的序列的不充分代表(如在缺失中)或过度代表(如在复制中)。通常,该基因组异常或重排是疾病(如癌症(如白血病)和如本文所述的其他遗传或先天疾病)的成因或与之相关。
基因异常(如基因组或染色体异常——如平衡的和/或不平衡的基因组或染色体异常)包括但不限于核酸(如染色体)的重排、易位、倒位、插入、缺失和其他突变以及丢失或获得部分或完整的染色体。它们是遗传病症或疾病(包括先天疾病和获得性病症,如恶性肿瘤)的主要成因。在许多重排中,涉及2条不同的染色体。用这种方式,基因(或基因片段)从特定染色体的正常生理内容物中被去除,而且位于受体染色体上,邻近不相关的基因或基因片段(通常是致癌基因或原癌基因)。
恶性肿瘤可包括急性白血病、恶性淋巴瘤和实体肿瘤。改变的非限制性实例有t(14;18),其通常发生在NHL中;t(12;21),其通常在儿童期的前体-B-ALL中找到;和急性白血病中出现的11q23(MLL(骨髓样-淋巴样白血病或混合谱系的白血病)基因)异常。
染色体区域11q23中的MLL基因涉及ALL和急性髓细胞样白血病(AML)中的几种易位。至今,至少鉴定出了10种配偶体基因。这些易位中的一些(如t(4;11)(q21;q23)、t(11;19)(q23;p13)和t(1;11)(p32;q23))主要发生在ALL中;而其他的,像t(1;11)(q21;q23)、t(2;11)(p21;q23)、t(6;11)(q27;q23)和t(9;11)(p22;q23),则更常在AML中被观察到。涉及11q23区域的重排非常频繁地发生在婴儿急性白血病中(约60-70%),并较少地发生在儿童和成人白血病中(分别约为5%)。
淋巴样恶性肿瘤中的重排通常涉及Ig或TCR基因。实例包括三类在Burkitt氏淋巴瘤中发现的易位(t(8;14),t(2;8),和t(8;22)),其中MYC基因分别与Ig重链(IGH)、Igк(IGK)、或Igλ(IGL)基因片段偶联。此类中的另一种常见类型的易位是t(14;18)(q32;q21),其在约90%的滤泡状淋巴瘤(其为主要NHL类型之一)中被观察到。在该易位中,将BCL2基因重排至JH基因片段内或与之相邻的IGH基因座内的区域。该染色体异常的结果是过量表达BCL2蛋白质,其在生长控制中通过抑制程序性细胞死亡来起存活因子的作用。
BCL2基因由三个外显子组成,但这些分散在大区域中。其中最后一个外显子编码大的3′非翻译区域(3′UTR)。该3′UTR是2个其中有许多t(14;18)断点成群聚集的区域之一,并被称为“主要断点区”;另一个涉及t(14;18)易位的断点区域位于BCL2基因座下游20-30kb处,并被称为“次要成群区”。第三个BCL2断点区——VCR(变体成群区)位于BCL2基因座的5′侧,并处于其他涉及变体易位的区域中,这些其他涉及变体易位的区域即t(2;18)和t(18;22),IGK和IGL基因片段是其配偶体基因。
因此,举例来说,4C技术可用于筛选针对在基因座中或附近的遗传异常的患者材料,这些基因座基于它们与给定的临床表型的频繁相关性而选择。这些基因座的其它非限制性的例子有AML1、MLL、MYC、BCL、BCR、ABL1、免疫球蛋白基因座、LYL1、TAL1、TAL2、LMO2、TCRα/δ、TCRβ、HOX和各种淋巴母细胞白血病中的其他基因座。
有益的是,如果怀疑有遗传异常,则4C技术可用作最初和仅有的筛选方法来验证本文所解释的异常的存在并对其作图。
检测基因组重排 在本发明特别优选的具体实施方式
中,本文所述的方法可用于检测基因组重排。
当前,基因组重排(如易位断点)非常难以检测。例如,比较基因组杂交(CGH)微阵列能检测几类重排,但不能检测易位,如果怀疑患者中有易位但不知道染色体配偶体,则可进行光谱核型分析(SKY)来找出易位配偶体并粗略估计断点位置。可是,解析度非常低(通常不超过~50Mb),通常需要额外的精细作图(其是费时和昂贵的)。这通常利用荧光原位杂交(FISH)来进行,其也仅提供有限的解析度。利用FISH,断点可以最大的解析度定位于+/-50kb的区域中。
DNA-DNA相互作用的频率主要是基因组位点分隔距离的函数,即DNA-DNA相互作用的频率与出现在相同物理DNA模板上的2个DNA基因座之间的线性距离(以千碱基对计)成反比(Dekker等.,2002)。因此,能产生一种或多种新物理DNA模板的易位伴随着断点附近的DNA-DNA相互作用的变化,而且这可通过4C技术来测量。基于易位的疾病通常由异常的DNA-DNA相互作用造成,这是因为易位是断的染色体(DNA)臂物理连接(相互作用)的结果。
因此,为了检测易位。4C技术可用于鉴定那些患病和未患病受试者间不同的DNA-DNA相互作用。
举例来说,4C技术可用于针对基因座附近的易位筛选患者材料,所述基因座基于它们与如本文所述的给定的临床表型的频繁相关性来选择。
如果怀疑患者中有易位但不知道染色体配偶体,则可利用当前可用的方法,像光谱核型分析(SKY),来进行初始作图。这可鉴定易位配偶体并非常粗略地评估断点位置(通常不优于~50Mb的解析度)。然后可用4C技术,例如利用该区域中位于每2Mb、5Mb、10Mb、20Mb(或如本文所述的其他间隔)处的‘诱饵’-序列来对断点精细作图,并鉴定诸如由于易位而错误表达的一个或多个基因。
通常,易位鉴定的方法是通过不含4C-诱饵序列的染色体上、或该相同染色体上其他地方的相互作用频率从低到高的突然变化来进行。
在优选的具体实施方式
中,受试者的样品是处于恶变前的状态的。
在优选的具体实施方式
中,受试者的样品由羊膜穿刺术获得的培养的或未培养的羊水细胞组成,用于产前诊断。
在优选的阵列设计中,单个阵列上出现的探针以最大解析度代表给定物种的完整基因组。因此,通过4C技术检测易位的阵列等包含如本文所述的与给定物种(如人)的基因组中每个第一限制性内切酶识别位点之每一侧互补的探针。
在另一个优选的阵列设计中,单个阵列上出现的探针代表给定物种的完整基因组,但解析度不是最大的。因此,通过4C技术检测易位的阵列等包含如本文所述的仅与给定物种(如人)的基因组中每个第一限制性内切酶识别位点的一侧互补的探针。
在另一个优选的阵列设计中,单个阵列上出现的探针代表给定物种的完整基因组,但解析度不是最大的。因此,通过4C技术检测易位、缺失、倒位、重复和其他基因组重排的阵列包含如本文所述的与沿给定物种(如人)的基因组线性模板排列的每隔一个第一限制性内切酶识别位点的一边互补的探针。
因此,通过4C技术检测易位、缺失、倒位、重复和其他基因组重排的阵列包含如本文所述的其每一个代表用第一限制性内切酶消化后得到的单一限制性片段的探针。这优选通过在每隔二个、三个、四个、五个、六个、七个、八个、九个、十个、二十个、三十个、四十个、五十个、六十个、七十个、八十个、九十个或一百个等与相同限制性片段杂交的探针中忽略一个来实现。通过4C技术检测易位、缺失、倒位、重复和其他基因组重排的阵列可包含如本文所述的沿着线性染色体模板平均分布的探针。这优选通过忽略那些显示出最高探针密度的基因组区中的一个或多个探针来获得。
在另一个优选的阵列设计中,单个阵列上出现的探针代表给定物种的完整基因组,但不是以最大解析度。因此,通过4C技术检测易位、缺失、倒位、重复和其他基因组重排的阵列包含如本文所述的与沿着给定物种(如人)基因组线性模板按序排列的每隔三个、四个、五个、六个、七个、八个、九个、十个、二十个、三十个、四十个、五十个、六十个、七十个、八十个、九十个或一百个等第一限制性内切酶识别位点中的一个的一边互补的探针。通过4C技术检测易位、缺失、倒位、重复和其他基因组重排的阵列可包含如本文所述的代表完整的基因组的探针,每100千碱基一个探针。通过4C技术检测易位、缺失、倒位、重复和其他基因组重排的阵列可包含如本文所述的代表基因组中可由独特的探针序列代表的每个单个第一限制性内切酶识别位点的探针。
在另一种优选的阵列设计中,如本文所述的在单一阵列上的探针代表已知涉及易位、缺失、倒位、重复和其他基因组重排的所0有基因座周围的给定大小——如约50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb或10Mb(如约50kb-10Mb)——的基因组区域。
在另一种优选的阵列设计中,如本文所述的在单一阵列上的探针代表已知涉及易位、缺失、倒位、重复和其他基因组重排的所选基因座周围的给定大小——如约50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb或10Mb(如约50kb-10Mb)——的基因组区域。选择可以按教导的标准来进行,例如它们可仅代表给定的疾病类型中包含的基因座。
在另一种优选的阵列设计中,如本文所述的在单一阵列上的探针代表(部分)染色体或多个染色体的100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、10Mb、20Mb、30Mb、40Mb、50Mb、60Mb、70Mb、80Mb、90Mb,或100Mb(如100kb-10Mb)感兴趣的基因组区域,其中每个探针被代表多次(如10、100、1000次)从而可以定量测量每个探针序列处的杂交信号强度。
在优选的实验性设计中,4C序列(诱饵)处于距离实际重排序列(即易位情况下的断点)约0kb、10kb、20kb、30kb、40kb、50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、10Mb、11Mb、12Mb、13Mb、14Mb或15Mb(如约0-15Mb)或更远之内。
在优选的杂交中,用来自患病和非患病的受试者的1种序列(4C诱饵)得到的2种区别标记的4C模板与相同的阵列同时杂交。DNA-DNA相互作用中的差异能检测顺式(与4C-诱饵在相同染色体上)和反式(在易位配偶体上)的断点。
在优选的杂交中,用来自患病和非患病的受试者的1种序列(4C诱饵)得到的多种区别标记的4C模板与相同的阵列同时杂交。DNA-DNA相互作用中的差异能检测顺式(与4C-诱饵在相同染色体上)和反式(在易位配偶体上)的断点。
有益的是,可用微阵列上的多颜色分析代替双颜色分析来使超过2个样品同时与单个阵列杂交。因此,可在4C技术中使用多颜色杂交。
在优选的杂交中,用来自患病的受试者的1种序列(4C诱饵)得到的多种区别标记的4C模板和来自非患病的受试者的1种区别标记的4C模板与相同的阵列同时杂交。DNA-DNA相互作用中的差异能检测顺式(与4C-诱饵在相同染色体上)和反式(在易位配偶体上)的断点。
在另一种优选的杂交中,用分别代表另一种可能的易位配偶体的2种不同序列(4C-诱饵)获得的、来自同一非患病的受试者的2种区别标记的4C模板能与相同的阵列同时杂交。在与带有目的序列(4C-诱饵)的染色体无关的染色体线性模板上观察到的强杂交信号束将鉴定出易位配偶体染色体和在易位配偶体上的断点。
在另一种优选的杂交中,用分别代表另一种可能的易位配偶体的多种不同序列(4C-诱饵)获得的、来自相同的非患病的受试者的多种区别标记的4C模板能与相同的阵列同时杂交。在与带有目的序列(4C-诱饵)的染色体无关的染色体线性模板上观察到的强杂交信号束将鉴定出易位配偶体染色体和其针对目的序列的断点。
用于通过4C技术检测易位、缺失、倒位、重复和其他基因组重排的材料可通过交联(并如所述的,进一步处理)来自患病和/或非患病的受试者的活细胞和/或死细胞和/或核溶解产物和/或分离(如本文所述)的染色质等来获得。
检测倒位 倒位(如平衡的倒位)不能通过诸如比较基因组杂交技术的方法来检测,但能通过4C技术来检测,尤其在(平衡的)倒位接近4C序列(诱饵)(如多至约1-15Mb或更多)的时候能检测。
(平衡的)倒位的检测基于鉴定那些在患病和非患病的受试者之间有差异的DNA-DNA相互作用。倒位将改变重排区域所有(但除外位于最中心的)序列的物理DNA模板上相对于当作4C序列(诱饵)的相同染色体上的附近序列的相对位置(以千碱基计)。由于DNA-DNA相互作用频率与基因组位点分隔距离成反比,因此患病的受试者与非患病的受试者相比将给出对于所有位于重排基因组区域中的探针呈倒转模式的杂交强度。因此,4C技术能鉴定(平衡的)倒位的位置和大小。
根据本发明的这一方面,优选的专门阵列设计包括在单一阵列上的探针,其代表怀疑有倒位和其他重排的基因座周围给定大小——如约50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、6Mb、7Mb、8Mb、9Mb或10Mb)(如50kb-10Mb)——的基因组区域。
在另一种优选的专门阵列设计中,在单一阵列上的探针代表怀疑有倒位和其他重排的基因座周围的给定大小(50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb等)的基因组区域。为了可靠地定量分析信号强度,存在于阵列上的探针量通常大大过量于与阵列杂交的同类片段的量。所以,可能必须使每种探针在阵列上出现多次(如10、20、50、100、1000次等)。另外,可能必须滴定测量与阵列杂交的模板量。
检测缺失 缺失的检测基于鉴定那些在患病和非患病的受试者之间有差异的DNA-DNA相互作用。缺失将造成与位于缺失区域附近(如约1、2、3、4、5、6、7、8、9、10、11、12、13、14或15Mb或更多)的4C序列(诱饵)的DNA相互作用的缺少。如果缺失存在于两个等位基因上(纯合),则可造成完全缺少针对位于重排区域中所有探针的杂交信号,或者如果缺失存在于仅一个等位基因上(杂合),可造成与非患病的受试者相比患病的受试者信号强度减少。缺失将物理DNA模板上更远处的序列带到与要分析的4C序列(诱饵)更接近,其将导致针对直接位于缺失区较远一边的探针更强的杂交信号。
检测一个或多个重复 重复的检测通常基于鉴定那些在患病和非患病的受试者之间有差异的DNA-DNA相互作用。与来自对照的非患病的受试者的信号相比,在重复区域中的探针将显示出与位于重排区域附近(如约1、2、3、4、5、6、7、8、9、10、11、12、13、14或15Mb或更多)的4C序列(诱饵)的杂交信号增强。重复区较远一边的探针更远离于4C序列,因此将比来自对照的非患病的受试者的信号显示出降低的杂交信号。
受试者样品与对照相比DNA-DNA相互作用频率的增加或降低优选指示重复或插入。
受试者样品与对照相比DNA-DNA相互作用频率的增加和/或针对更远距离区域的DNA-DNA相互作用频率的降低优选指示重复或插入。
产前诊断 有益的是,4C技术也可用于产前诊断。
利用各种现有已知的方法可从胎儿中获得核酸。举例来说,可用羊膜穿刺来获得羊水,由其提取胎儿细胞悬浮液并培养几天(Mercier&Bresson(1995)Ann.Gnt.,38,151-157)。然后从细胞中提取核酸。收集绒毛膜绒毛有可能省却培养步骤并避免收集羊水。这些技术可更早应用(对于收集绒毛膜绒毛,在怀孕的多至7周时间;而对于羊膜穿刺,在13-14周),但微微增加流产的风险。
直接在脐带上收集胎儿血也可用于获得核酸,但这通常需要在该技术上专业化的临床医生团队(Donner等.(1996)Fetal Diagn.Ther.,10,192-199)。
有益的是,遗传异常(如基因组或染色体异常)——如染色体和核酸中的重排、易位、倒位、插入、缺失和其他突变——可在该阶段被检测出。
优选可检测遗传异常(如基因组或染色体异常)——如染色体21、18、13、X或Y中的重排、易位、倒位、插入、缺失和其他突变以及丧失或获得部分或完整染色体21、18、13、X或Y,这是因为这些染色体中发生了大多数胎儿异常。
确定基因组整合位点 当多拷贝被插入在基因组不同位置时,4C技术也能确定病毒和转基因等的基因组整合位点(如图4所述)。
确定获得某种易位的倾向 有益的是,4C技术也可用于非患病的受试者来测量频繁涉及遗传异常的基因座的基因组环境。以这种方式,可能确定受试者获得某种遗传异常的倾向。
因此,除了本文所述的的医学应用,本发明可用于诊断。
受试者 术语“受试者”包括哺乳动物——如动物和人。
试剂 试剂可以是有机化合物或其他化学物质。试剂可以是化合物,其由任何合适的、无论是天然的还是人工的来源获得或产生。试剂可以是氨基酸分子、多肽、或其化学衍生物、或其组合物。试剂甚至可以是多核苷酸分子,其可以是正义或反义分子、或抗体,例如,多克隆抗体、单克隆抗体或单克隆人源化抗体。
已经开发出了各种策略来产生带有人特征的单克隆抗体,其不需要产生抗体的人细胞系。例如,有用的小鼠单克隆抗体通过连接啮齿动物可变区和人恒定区来进行“人源化”(Winter,G.和Milstein,C.(1991)Nature 349,293-299)。这降低了抗体的人抗小鼠免疫原性,但残余的免疫原性仍由外来V区框架而保留。而且,抗原结合特异性主要是鼠供体的。CDR移植和框架操作(EP 0239400)将抗体操作改进并优化到可能产生可在人中进行治疗应用的人源化鼠抗体的程度。人源化抗体可利用现有公知的方法获得(例如US-A-239400中所述的)。
试剂可以通过可以是水解类型的双功能接头的接头与实体(如有机分子)相连。
可以设计或由化合物库中获取实体,所述化合物库包括肽、以及其他化合物,如小的有机分子。
举例来说,实体可以是天然物质、生物大分子、或由诸如细菌、真菌、或动物(尤其是哺乳动物)细胞或组织中制备的提取物、有机或无机分子、合成剂、半合成剂、结构性或功能性模拟物、肽、肽模拟物、从完整蛋白质中切割的肽、或合成(如,举例来说,利用肽合成仪或通过重组技术或其组合)的肽、重组剂、抗体、天然或非天然剂、融合蛋白质或其等价物和突变体、衍生物或其组合。
实体通常会是有机化合物。对于一些情况来说,有机化合物将包含两种或多种烃基。在本文中,术语“烃基”指基团,其至少包含C和H并任选可包含一种或多种其他合适的取代基。这些取代基的例子可包括卤素、烷氧基、硝基、烷基、环基团等。除了取代基可能是环基团之外,取代基的组合可形成环基团。如果烃基包含超过一个C,则那些碳不必互相连接。例如,至少可通过合适的元素或基团连接2个碳。因此,烃基可包含杂原子。合适的杂原子对于所属领域技术人员来说是显而易见的,例如包括硫、氮和氧。对于一些应用来说,实体优选包含至少一个环基团。环基团可以是多环基团,如非稠合的多环基团。对于一些应用来说,实体至少包含与另一个烃基相连的所述环基团中的一个。
实体可包含卤素基团——如氟、氯、溴或碘基。
实体可包含一种或多种烷基、烷氧基、烯基、亚烷基和亚链烯基——其可以是直链或支链的。
前药 所属领域技术人员会理解,实体可衍生自前药。前药的例子包括某些保护基团,其本身并不具有药物活性,但在某些情况下可以(如口服或非肠道)给药并有机会在身体中代谢形成有药物活性的实体。
合适的前药的可包括但不限于,亚德里亚霉素、丝裂霉素、酚芥、甲氨蝶呤、抗叶酸、氯霉素、喜树碱、5-氟尿嘧啶、氰化物、奎宁、双嘧达莫和红豆杉醇。
可进一步理解的是,某些已知是“前体部分”的部分,例如H.Bundgaard的“Design of Prodrugs”,Elsevier,1985所述的,可置于试剂合适的官能性上。这些前药也包括在本发明的范围内。
试剂可以是药学上可接受的盐(如酸加成盐或碱式盐)或其溶剂化物的形式,包括其水合物。对于合适的盐的综述,可参见Berge等,J.Pharm.Sci.,1977,66,1-19。
试剂能显示出其他治疗性质。
试剂可与一种或多种其他药物活性剂一起使用。
如果给药活性试剂的组合,则可同时、分开或顺序给药活性试剂的组合。
立体和几何异构体 实体可以立体异构体和/或几何异构体的形式存在——如实体可拥有一个或多个不对称和/或几何中心,由此可以两种或多种立体异构和/或几何异构形式存在。本发明考量了所有那些实体的各立体异构体和几何异构体以及其混合物的应用。
药物盐 试剂可以药学上可接受的盐的形式给药。
药学上可接受的盐对于所属领域技术人员来说是公知的,例如包括Berge等的J.Pharm.Sci.,66,1-19(1977)中所述的那些。合适的酸加成盐是由能形成无毒盐的酸形成的,包括盐酸盐、氢溴酸盐、氢碘酸盐、硝酸盐、硫酸盐、重硫酸盐、磷酸盐、磷酸氢盐、乙酸盐、三氟醋酸盐、葡萄糖酸盐、乳酸盐、水杨酸盐、柠檬酸盐、酒石酸盐、抗坏血酸炎、琥珀酸盐、马来酸盐、延胡索酸盐、葡萄糖酸盐、甲酸盐、安息香酸盐、甲基磺酸盐、乙基磺酸盐、苯磺酸盐和对甲苯磺酸盐。
当存在一个或多个酸性部分时,则合适的药学上可接受的碱加成盐可由能形成无毒盐的碱形成,包括铝、钙、锂、镁、钾、钠、锌、和诸如二乙醇胺的药物活性胺的盐。
试剂的药学上可接受的盐可通过将试剂溶液和所需的酸或盐在合适的条件下混合在一起来方便地制备。盐可从溶液中沉淀出来并过滤收集,或可通过蒸发溶剂来收获。
试剂可以多晶型而存在。
试剂可包含一个或多个不对称碳原子,因此以两种或更多种立体异构形式存在。当试剂包含烯基或亚链烯基时,也可发生顺(E)和反(Z)异构。本发明包括试剂的各立体异构体,并在合适时包括其各互变异构形式、以及其混合物。
分离非对映异构体或顺和反异构体可通过常规技术来获得,如通过试剂或合适的盐或其衍生物的立体异构混合物的分级结晶、色谱、或H.P.L.C.来获得。试剂的各对映体也可由相应光学纯中间体、或通过解析(如利用合适的手性支持物通过相应消旋体的H.P.L.C.来进行),或通过分级结晶由将相应消旋体与合适的光学活性酸或碱在合适的条件下反应而形成的非对映异构体盐来进行制备。
试剂也可包括试剂或其药学上可接受的盐的所有合适的同位素变体。试剂或其药学上可接受的盐的同位素变体被定义为其中至少一个原子被有相同原子数而其原子量与通常天然发现的原子量不同的原子代替的分子。可整合入试剂和其药学上可接受的盐的同位素的例子分别包括氢、碳、氮、氧、磷、硫、氟和氯的同位素,如2H、3H、13C、14C、15N、17O、18O、31P、32P、35S、18F和36Cl。某些试剂和其药学上可接受的盐的同位素变体,例如整合诸如3H或14C的放射性同位素的那些,可用于药物和/或基质组织分布研究。含氚的(即,3H)和碳-14(即,14C)同位素是尤其优选的,这是因为它们易于制备和检测。另外,用诸如氘(即,2H)的同位素替代可由于更大的代谢稳定性而获得某些治疗优势,例如,增加体内半衰期或降低剂量要求,因此在一些情况下是优选的。本发明的试剂和其药学上可接受的盐的同位素变体一般可通过常规方法利用合适试剂的合适的同位素变体来制备。
药物活性盐 试剂可以药学上可接受的盐给药。通常,药学上可接受的盐可利用所需的酸或碱在合适时方便地制备。盐可从溶液中沉淀出并通过过滤来收集,或可通过蒸发溶剂来收获。
化学合成法 试剂可通过化学合成技术制备。
所属领域技术人员清楚的是,在合成本发明的化合物时,敏感的功能性基团需要被保护和脱保护。这可通过常规技术来获得,例如T W Greene和PG M Wuts的“Protective Groups in Organic Synthesis”,John Wiley和Sons Inc.(1991)、和P.J.Kocienski的“Protecting Groups”,Georg Thieme Verlag(1994)所述的。
在一些反应中,可能使存在的任何立体中心在某些条件下被消旋,例如,如果将碱用于与具有包含碱敏感基团的光学中心的底物反应。这在诸如鸟苷酸化步骤中是可能的。如通过选择反应顺序、条件、试剂、保护/脱保护方案等现有公知的方法,应该能克服潜在的问题。
化合物和盐可通过常规方法来分离和纯化。
分离非对映异构体可通过常规技术来获得,如通过式(I)化合物或合适的盐或其衍生物的立体异构混合物的分级结晶、色谱、或H.P.L.C.来获得。式(I)化合物的各对映体也可由相应的光学纯中间体制备,或通过解析,诸如利用合适的手性支持物对相应消旋体进行H.P.L.C.,或通过对由相应消旋体与合适的光学活性酸或碱反应而形成的非对映异构体盐进行分级结晶来进行。
试剂可利用化学方法合成完整或部分的试剂来产生。例如,如果试剂含肽,则肽可通过固相技术合成,由树脂上裂解下来,并用制备级高效液相色谱来纯化(如,Creighton(1983)Proteins Structures and MolecularPrinciples,WH Freeman and Co,New York NY)。合成肽的组成可通过氨基酸分析或测序来确认(如,Edman降解过程;Creighton,见上)。
肽抑制剂(或其变体、同源物、衍生物、片段或模拟物)的合成可利用各种固相技术来进行(Roberge JY等(1995)Science 269202-204),并可进行自动合成,例如,可根据厂商提供的说明而使用ABI 43 1 A肽合成仪(PerkinElmer)。另外,含试剂的氨基酸序列可在直接合成期间被改变,和/或用化学方法而将之与来自其它亚基、或其任何部分的序列组合起来以产生变体试剂。
化学衍生物 本文所用的术语“衍生物”或“衍生的”包括试剂的化学修饰。这些化学修饰的例子有通过卤素基团、烷基、酰基或氨基来替换氢。
化学修饰 试剂可以是被修饰的试剂——如,但不局限于,化学修饰的试剂。
试剂的化学修饰可增强或减少氢键相互作用、电荷相互作用、疏水相互作用、范德华力相互作用或偶极相互作用。
在一个方面,试剂可用作模型(例如,模板)来开发其它化合物。
药物组合物 在另一方面,提供了药物组合物,其包含由本文所述的测试方法鉴定的试剂,并混合有药学上可接受的载体、稀释剂、赋形剂或佐剂和/或其组合。
在另一方面,提供了疫苗组合物,其包含试剂。
在另一方面,提供了制备药物组合物的方法,其包括将由测试鉴定的试剂与药学上可接受的稀释剂、稀释剂、赋形剂或佐剂和/或其组合混合。
在另一方面,提供了预防和/或治疗疾病的方法,其包括向受试者给药试剂或药物组合物或疫苗。
药物组合物可以人和兽药的形式用于人或动物,其通常将包含一种或多种药学上可接受的稀释剂、载体、或赋形剂。可接受的用于治疗的载体或稀释剂在制药领域是现有已知的,例如在Remington′s PharmaceuticalSciences,Mack Publishing Co.(A.R.Gennaro编,1985)中有描述。药物载体、赋形剂或稀释剂的选择可根据所预想的给药途径和标准药学实践来选择。药物组合物可包含任何合适的一种或多种粘合剂、一种或多种润滑剂、一种或多种悬浮剂、一种或多种包被剂、一种或多种溶剂作为载体、赋形剂或稀释剂,或在载体、赋形剂或稀释剂之外添加任何合适的粘合剂、润滑剂、悬浮剂、包被剂、溶剂。
防腐剂、稳定剂、染料甚至是调味剂都可在药物组合物中被提供。防腐剂的例子包括苯甲酸钠、山梨酸和对-羟基苯甲酸的酯。也可用抗氧化剂和悬浮剂。
根据不同的递送系统可有不同的组合/配方需求。举例来说,本发明的药物组合物可配制成利用微型泵或通过粘膜途径来给药,例如配制成鼻部喷剂或吸入型气雾剂或可摄入溶液,或通过非肠道途径,其中组合物被配置成注射形式来递送,例如通过静脉内、肌肉内或皮下途径来进行。可选的是,可设计剂型从而通过若干途径来给药。
如果试剂通过胃肠粘膜来粘膜给药,则它在通过胃肠道传送期间应当能保持稳定;例如,它应当抗蛋白水解酶降解,在酸性pH下稳定并抗胆汁的去污剂效应。
合适时,药物组合物可通过吸入、以栓剂或阴道栓剂的形式、以洗液、溶液、面霜、膏剂或隔离剂的形式局部、通过应用皮肤贴剂、以含诸如淀粉或乳糖的赋形剂的片剂形式口服、或以胶囊或丸剂单独或与赋形剂混合、或以含调味或着色剂的酏剂、溶液或悬浮液给药,或者可非肠道注射药物组合物,例如静脉内、肌肉内或皮下注射。对于非肠道给药,组合物最好以无菌水溶液的形式使用,其可含其它物质,例如足够的盐或单糖从而使溶液与血液等渗。对于口腔或舌下给药,组合物可以片剂或锭剂的形式给药,其能以常规方式配制。
试剂可与环糊精组合使用。已知环糊精能与药物分子形成包合和非包合复合物。配制药物-环糊精复合物可改变药物分子的溶解性、分解率、生物利用度和/或稳定性。药物-环糊精复合物一般用于大多数制剂形式和给药途径。作为与药物直接复合的替代形式,环糊精可用作辅助添加剂,如用作载体、稀释剂或增溶剂。α-、β-和γ-环糊精是最常用的,合适的例子在WO-A-91/11172、WO-A-94/02518和WO-A-98/55148中有描述。
如果试剂是蛋白质,则所述蛋白质可在要治疗的受试者中原位制备。在这方面,编码所述蛋白质的核苷酸序列可通过使用非病毒技术(如通过使用脂质体)和/或病毒技术(如通过使用反转录病毒)来递送,从而使所述蛋白质由所述核苷酸序列表达出来。
本发明的药物组合物也可与常规治疗组合使用。
给药 术语“给药”包括通过病毒或非病毒技术来递送。病毒递送机制包括而不限于腺病毒载体、腺相关病毒(AAV)载体、疱疹病毒载体、反转录病毒载体、慢病毒载体、和杆状病毒载体。非病毒递送机制包括脂质介导的转染、脂质体、免疫脂质体、转染脂(lipofectin)、阳离子表面两亲分子(CFA)和其组合。
成份可单独给药,但一般作为药物组合物来给药(如当成份与根据所预想的给药途径和标准药学实践而选择的合适的药物赋形剂、稀释剂或载体混合在一起的时候)。
例如,成份可以片剂、胶囊、丸剂、酏剂、溶液或悬浮液的形式给药,其可含调味或着色剂,用于即时、延时、改变、持续、冲击或控制释放应用。
如果药物是片剂,则片剂可包含赋形剂(如微晶纤维素、乳糖、柠檬酸钠、碳酸钙、磷酸氢二钙和甘氨酸)、分解剂(如淀粉(优选玉米、土豆或木薯淀粉)、淀粉乙醇酸钠、交联羟甲纤维素钠和某些复合硅酸盐)、和颗粒粘合剂(如聚乙烯吡咯烷酮、羟基丙甲基纤维素(HPMC)、羟基丙基纤维素(HPC)、蔗糖、明胶和阿拉伯树胶。另外,可包括润滑剂,如硬脂酸镁、硬脂酸、甘油山嵛酸酯和滑石。
相似类型的固体组合物也可用作明胶胶囊中的填充剂。这方面优选的赋形剂包括乳糖、淀粉、纤维素、奶糖或高分子量聚乙二醇。对于水溶性悬浮剂和/或酏剂,试剂可与各种甜味或调味剂、着色物质或染料、与乳化和/或悬浮剂并与稀释剂(如水、乙醇、丙二醇和甘油、和其组合)组合在一起。
给药(递送)的途径可包括但不限于,口服(如作为片剂、胶囊、或作为可吞咽溶液)、局部、粘膜(如作为鼻部喷剂或吸入型气雾剂)、经鼻、非肠道(如通过可注射形式)、胃肠道、脊柱内、腹膜内、肌肉内、静脉内、子宫内、眼内、皮内、颅内、气管内、阴道内、脑室内、脑内、皮下、眼部(包括玻璃体内或眼内(intracameral))、透皮、直肠、口腔、阴道、硬脑膜外、舌下中的一种或多种。
剂量水平 通常,医生会确定最适于各受试者的实际剂量。对于任何特定患者的特定剂量水平和给药频率可以变化并将取决于各种因素,包括所用的特定化合物的活性、代谢稳定性和该化合物作用时间的长短、年龄、体重、综合健康情况、性别、饮食、给药模式和时间、排泄率、药物组合、特定病况的严重程度、和个体经受的疗法。
配方 一种或多种成份可配制成药物组合物,如通过利用现有已知的技术与一种或多种合适的载体、稀释剂或赋形剂混合来进行。
疾病 本发明的方面可用于治疗和/或预防和/或诊断和/或预测疾病——如列于WO-A-98/09985中的那些。
为了便于参考,现在提供该列表的一部分巨噬细胞抑制和/或T细胞抑制活性以及由此产生的抗炎症活性;抗免疫活性,即抗细胞和/或体液免疫应答的抑制效应,包括不与炎症相关的应答;与病毒和/或其他细胞内病原体相关的疾病;抑制巨噬细胞和T细胞与细胞外基质成份和纤连蛋白粘附的能力,以及上调T细胞中fas受体表达;抑制不需要的免疫反应和炎症,包括关节炎、包括类风湿性关节炎、与超敏性相关的炎症、过敏反应、哮喘、全身性红斑狼疮、胶原病和其他自身免疫病、与动脉硬化相关的炎症、动脉硬化、动脉粥样硬化心脏病、灌注损伤、心搏动停止、心肌梗塞、血管炎症疾病、呼吸窘迫综合征或其他心肺疾病、与胃溃疡相关的炎症、溃疡性结肠炎和其他胃肠道疾病、肝纤维化、肝硬化或其他肝病、甲状腺炎或其他腺体疾病、肾小球性肾炎或其他肾和泌尿疾病、耳炎或其他耳鼻喉病、皮炎或其他皮肤病、牙周病或其他牙齿疾病、睾丸炎或附睾睾丸炎、不孕症、睾丸损伤或其他免疫相关的睾丸疾病、胎盘机能障碍、胎盘机能不全、习惯性流产、子痫、子痫前期和其他免疫和/或炎症相关的妇科病、后眼色素层炎、中间眼色素层炎、前眼色素层炎、结膜炎、脉络膜视网膜炎、眼色素层视网膜炎、视神经炎、眼内炎症,如视网膜炎或囊状黄斑水肿、交感性眼炎、巩膜炎、色素性视网膜炎、退化性眼底疾病(degenerativefondus disease)的免疫和炎症成份、眼损伤的炎症成份、感染造成的眼炎、增殖性透明体视网膜病、急性缺血性眼神经病、诸如在青光眼滤过手术后的过度瘢痕、抗眼移植物的免疫和/或炎症反应和其他免疫和炎症相关的眼病、与自身免疫病或病况或病症相关的炎症(其中无论在中枢神经系统(CNS)还是在任何其它器官中抑制免疫和/或炎症会是有益的)、帕金森氏症、来自帕金森氏症治疗的并发症和/或副作用、AIDS相关性痴呆复合HIV相关性脑病、Devic氏症、Sydenham舞蹈病、阿尔茨海默病和其他CNS退行性疾病、病况或病症、中风的炎症成份、脊髓灰质炎后综合征、精神病的免疫和炎症成份、脊髓炎、脑炎、亚急性硬化性全脑炎、脑脊髓炎、急性神经病、亚急性神经病、慢性神经病、Guillaim-Barre综合征、Sydenham舞蹈病、重症肌无力、脑假瘤、唐氏综合征、亨廷顿氏症、肌萎缩性侧索硬化、CNS压迫或CNS外伤或CNS感染的炎症成份、肌萎缩和肌营养不良的炎症成份、和中枢和外周神经系统的免疫和炎症相关疾病、病况或病症、外伤后的炎症、败血病性休克、传染病、外科手术的炎症并发症或副作用、骨髓移植或其他移植的并发症和/或副作用、例如由于病毒载体感染而造成的基因治疗的炎症和/或免疫并发症和副作用、或与AIDS相关的炎症,从而减弱或抑制体液和/或细胞免疫应答,通过降低单核细胞或淋巴细胞的量来治疗或改善单核细胞或白细胞增殖性疾病(如白血病),用于在移植天然或人造细胞、组织和器官(如角膜、骨髓、器官、晶状体、起搏器、天然或人工的皮肤组织)的情况下预防和/或治疗移植排斥。特定癌相关性病症包括但不局限于实体肿瘤;血液产生的肿瘤,如白血病;肿瘤转移;良性肿瘤,例如血管瘤、听神经瘤、神经纤维瘤、沙眼、和生脓性肉芽肿;类风湿性关节炎;牛皮癣;眼血管生成病,例如糖尿病性视网膜病、早产儿视网膜病变、黄斑变性、角膜移植排斥、新生血管性青光眼、晶状体后纤维组织生成、潮红;Osler-Webber综合征;心肌血管生成;斑块新生血管化(plaque neovascularization);毛细血管扩张;血友病关节;血管纤维瘤;伤口肉芽形成;冠状侧支;脑侧支;动静脉畸形;缺血性肢体血管形成;新生血管性亲光眼;晶状体后纤维形成;糖尿病性新生血管化;幽门螺旋杆菌相关的疾病、骨折、血管生成、造血作用、排卵、月经和胎盘形成。
疾病优选是癌,如急性淋巴细胞白血病(ALL)、急性髓细胞样白血病(AML)、肾上腺皮质癌、肛门癌、膀胱癌、血癌、骨癌、脑肿瘤、乳腺癌、女性生殖系统癌、男性生殖系统癌、中枢神经系统淋巴癌、子宫颈癌、儿童横纹肌肉瘤、儿童肉瘤、慢性淋巴细胞白血病(CLL)、慢性髓细胞样白血病(CML)、结肠和直肠癌、结肠癌、子宫内膜癌、子宫内膜肉瘤、食管癌、眼癌、胆囊癌、胃癌、胃肠道癌、毛细胞白血病、头和颈癌、肝细胞癌、霍奇金氏病、咽下部癌、Kaposi氏肉瘤、肾癌、喉癌、白血病、肝癌、肺癌、恶性纤维性组织细胞瘤、恶性胸腺瘤、黑素瘤、间皮瘤、多发性骨髓瘤、骨髓瘤、鼻腔和鼻旁窦癌、鼻咽癌、神经系统癌、成神经细胞瘤、非霍奇金氏淋巴瘤、口腔癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、副甲状腺癌、阴茎癌、咽癌、垂体肿瘤、浆细胞瘤、原发性CNS淋巴瘤、前列腺癌、直肠癌、呼吸系统、成视网膜细胞瘤、唾液腺癌、皮肤癌、小肠癌、软组织肉瘤、胃癌、胃癌、睾丸癌、甲状腺癌、泌尿系统癌、子宫肉瘤、阴道癌、血管系统、瓦尔登斯特伦巨球蛋白血症和Wilms氏肿瘤。
试剂盒 用于本发明方法中的材料是理想地适用于制备试剂盒的。
该试剂盒可包括容器,各自带有用于本文所述的方法中的各种试剂(通常以浓缩的形式)中的一种或多种,例如包括,第一限制性内切酶、第二限制性内切酶、交联剂、用于连接的酶(如连接酶)和解交联的试剂(如蛋白酶K)。
寡核苷酸也可在容器中被提供,其可以是任意形式的,如冻干或溶液(如,蒸馏水或缓冲液)等。
在本发明优选的方面中,提供了试剂盒,其包括如本文所述的探针组、阵列并任选有一种或多种标记。
通常还包括一套说明书。
应用 有益的是,为了获得关于核苷酸序列(如体外或体内的基因组基因座)空间组织信息而使用本发明。
举例来说,4C技术可用于研究一个或多个基因座的三维组织。该技术尤其可用于研究一种或多种转录因子在一个或多个基因座三维组织中的作用。
进一步举例来说,4C技术可用于研究反式作用因子和顺式调节DNA元件的作用。
进一步举例来说,4C技术可用于研究体外或体内的长程基因调节。
进一步举例来说,4C技术可用于研究染色体内邻近区域和相互作用。
进一步举例来说,4C技术可用于研究染色体间邻近区域和相互作用。
进一步举例来说,4C技术可用于鉴定与启动子、增强子、沉默子、隔离子、基因座控制区、复制起始点、MAR、SAR、着丝粒、端粒或任何其它在调节网络中目的序列作用的核苷酸序列。
进一步举例来说,4C技术可用于鉴定其中突变和/或缺失碰巧影响远距离调节元件并因此对它们作图不能提供这样的信息的病例中造成表型(疾病)的基因。
进一步举例来说,4C技术可用于最终重建基因座、大基因组区域或甚至完整染色体的空间构象。
进一步举例来说,4C技术可用于确定在核空间中将某些染色体保持在一起的潜在锚定序列。
进一步举例来说,4C技术可用于最终以高解析度重建染色体相互间的位置。
进一步举例来说,4C技术可用于诊断(如产前诊断)以检测或鉴定基因组重排和/或异常,如易位、缺失、倒位、重复。
一般性的重组DNA方法技术 除非另外指名,本发明使用常规化学、分子生物学、微生物学、重组DNA和免疫学技术,其在所属领域普通技术人员的能力范围内。这些技术在文献中有解释。例如参见,J.Sambrook,E.F.Fritsch,和T.Maniatis,1989,Molecular CloningA Laboratory Manual,第二版,Books 1-3,Cold SpringHarbor Laboratory Press;Ausubel,F.M.等.(1995和定期补录;CurrentProtocols in Molecular Biology,第9、13、和16章,John Wiley & Sons,NewYork,N.Y.);B.Roe,J.Crabtree,和A.Kahn,1996,DNA Isolation andSequencingEssential Techniques,John Wiley & Sons;M.J.Gait(编者),1984,Oligonucleotide SynthesisA Practical Approach,Irl Press;和,D.M.J.Lilley and J.E.Dahlberg,1992,Methods of EnzymologyDNA Structure PartASynthesis and Physical Analysis of DNA Methods in Enzymology,AcademicPress。这些普通课本中的每一本都纳入本文参考。
本发明现在将进一步举例来描述,其目的是用于帮助所属领域普通技术人员实施发明,而并不想以任何方式限制本发明的范围。
实施例1 材料与方法 4C技术 3C技术过程的初始步骤如前述(Splinter等(2004).Methods Enzymol375,493-507(2004)进行,在HindIII片段间产生连接产物。该HindIII连接的3C模板(~50μg)以100ng/μl用50U第二、频繁切割的限制性内切酶消化过夜,所述酶是DpnII(HS2,Rad23A)或NlaIII(β-major)。为了避免DNA环形成受限制(Rippe等.(1995)Trends Biochem Sci 20,500-6),注意选择第二限制性内切酶,其不在距离划分目的限制性片段(即‘诱饵’)的HindIII限制酶位点约350-400bp内切割。第二限制性内切酶消化后,用苯酚抽提DNA,用乙醇沉淀,然后以低浓度连接(用200U连接酶(Roche)于16℃连接溶于14ml中的50μg样品4小时),从而促进DpnII-或DpnII-环形成。用苯酚抽提连接产物并用乙醇沉淀,将糖原(Roche)用作载体(20μg/ml)。用50U在第一和第二限制性内切酶识别位点间切割诱饵的第三限制性内切酶消化过夜,使目的环线性化;第三限制性内切酶为SpeI(HS2)、PstI(Rad23A)和PflmI(β-major)。进行该线性化步骤以帮助接下来在第一轮PCR扩增期间进行引物杂交。用QIAquick核苷酸分离(250)柱(Qiagen)纯化消化的产物。
用Expand Long Template PCR系统(Roche)进行PCR反应,使用经仔细优化的条件来保证最长1.2kb片段的线性扩增(80%的4C-PCR片段小于600bp)。PCR条件如下94℃进行2分钟,94℃15秒、55℃1分钟和68℃3分钟进行30个循环,然后最后步骤为68℃进行7分钟。确定仍旧显示线性扩增范围的最大模板量。为此,向PCR反应中加入连续稀释的模板,扩增的DNA材料在琼脂糖凝胶上分离并用ImageQuant软件定量PCR产物。通常,每50μl PCR反应中用100-200ng模板能在线性扩增范围内产生出产物。合并16至32个PCR反应,并用QIAquick核苷酸分离(250)系统(Qiagen)纯化该4C模板。纯化的4C模板被标记并根据标准ChIP-芯片规程(Nimblegen Systems of Iceland,LLC)与阵列杂交。区别标记的基因组DNA(其用4C过程中所用的第一和第二酶消化)用作对照模板来校正杂交效率的差异。对于每个实验,用交替的染料定位(orientation)标记2个独立处理的样品。
所用的4C-引物序列 HS25’-ACTTCCTACACATTAACGAGCC-3’, 5’-GCTGTTATCCCTTTCTCTTCTAC-3’ Rad23A5’-TCACACGCGAAGTAGGCC-3’, 5’-CCTTCCTCCACCATGATGA-3’ β-major5’-AACGCATTTGCTCAATCAACTACTG-3’, 5’-GTTGCTCCTCACATTTGCTTCTGAC-3’ 4C阵列 基于NCBI建立的m34进行阵列和分析。探针(60-聚体)选自HindIII位点上和下游100bp处的序列。将CG含量朝50%优化,用于使杂交信号均一化。为了避免交叉杂交,从探针组中去除与高丰度重复序列(RepBase 10.09)3具有任何相似性的探针。另外,在基因组中能有超过两个BLAST命中情况的探针也去除出探针组。用MegaBLAST(Zhang等.(2000)J Comput Biol7,203-14)利用标准设置进行序列比对。命中被定义为有30nt或更长的配对排列。
4C数据分析 为每个探针计算4C-样品/基因组DNA的信号比率,并用Nimblegen系统提供的SignalMap软件使数据可视化。用R软件包(http://www.r-project.org)、Spotfire和Excel分析数据。未处理的杂交比率显示沿着染色体模板有由20-50个阳性4C-信号组成的束。为了确定这些束,用连续平均法。使用各种窗口大小,范围从9-39个探针,其都能鉴定同一束。显示的结果基于29个探针的窗口大小(平均60kb),并与在随机数据上进行的连续平均进行比较。每个阵列分别如此进行。因而,所有测量值都相对于特定阵列的振幅和噪声加以评价。假发现率(False Discovery Rate,FDR)被定义为(假阳性数)/(假阳性数+真阳性数),其以如下公式确定(随机化组中的阳性数)/(数据中的阳性数)。利用由上到下的方法(top downapproach)确立阈值水平,以建立FDR<0.05的最小值。
接着比较生物学重复实验。在两个重复实验中都达到阈值的窗口被认为是阳性的。当比较随机化的数据时,在两个重复实验中都没有高于阈值的窗口。染色体模板上直接邻接的阳性窗口被连接的(不允许有缺口),从而产生阳性区域。
表达分析 对于每个组织,根据Affymetrix规程(小鼠430_2阵列)进行3个独立微阵列操作。用RMA ca-tools(www.bioconductor.org)使数据正态化,并对于每个探针组将3个微阵列的测量值加以平均。另外,当多个探针组代表相同的基因时,也将它们平均。用Mas5calls(Affy库www.bioconductor.org)确定“存在”、“不存在”和“边缘”访问(call)。在所有3个阵列中都表示为“存在”访问、表达值大于50的基因被称为表达的基因。将“胎儿肝特异性基因”归类为达到我们在胎儿肝中表达的标准、并且表达值超过胎儿脑5倍的基因。为了测量每个基因周围整体转录活性,运用连续总值。为此,我们使用转换成对数的表达值。对于每个基因,我们计算了在基因起点上游100kb处和末端下游100kb处的窗口中发现的所有基因(包括基因本身)的表达总值。将在阳性4C区域中找到的活性基因(对于肝中的HS2、脑中的Rad23A和肝中的Rad23A,分别为n=124、123和208)的结果值与阳性4C区域外活性基因(分别n=153、301和186,其中n=153对应于染色体7中最着丝粒相互作用区(the most centromeric interacting region)和端粒之间存在的有活性、无相互作用的基因数)而得的值作比较;利用一端拖尾的Wilcoxon秩和检验来比较这两组。
FISH探针 使用以下BAC克隆(BACPAC Resources Centre);针对Hbb-1的RP23-370E12,针对染色体7的80.1Mb处(OR基因束)的RP23-317H16,针对Uros的RP23-334E9,针对染色体7的118.3Mb处的RP23-32C19,针对染色体7的130.1Mb处的RP23-143F10,针对染色体7的73.1Mb处的RP23-470N5,针对染色体7的135.0Mb处(OR基因束)的RP23-247L11,针对Rad23A的RP23-136A15,针对染色体8的21.8Mb处的RI23-307P24,和针对染色体8的122.4Mb处的RP23-460F21。对于染色体7的着丝粒特异性探针,我们使用P1克隆5279(Genome Systems Inc.),其与DNA区段D7Mit21退火。用BioPrime Array CGH Genomic Labeling System(Invitrogen)制备随机引物标记的探针。标记前,用DpnII消化DNA并用DNA clean andconcentrator-5试剂盒(Zymo research)纯化。消化的DNA(300ng)用SpectrumGreen dUTP(Vysis)或Alexa fluor 594 dUTP(Molecular probes)标记,并通过GFX PCR DNA and Gel Band Purification试剂盒(AmershamBiosciences)纯化,来去除未掺入的核苷酸。在由鼠胚胎干细胞制备的中期涂片上测试标记的探针的特异性。
低温FISH 如前所述进行低温FISH5。简而言之,E14.5肝和脑固定于4%多聚甲醛/250mM HEPES(pH 7.5)中20分钟并切成小组织块,然后在8%多聚甲醛中于4℃再固定2小时。固定的组织块于室温浸泡在2.3M蔗糖中20分钟,装在样品座上并在液氮中急速冻结。组织块储存于液氮中,直至进行切片。用带有低温附件的Reichert超薄切片器E(Leica)切成约200nm厚的超薄低温切片。用充满蔗糖的环,将切片转移至盖玻片上并储存于-20℃。为了进行杂交,用PBS洗切片去除蔗糖,于37℃用溶于2xSSC中的250ng/ml RNA酶处理1小时,在0.1M HCL中孵育10分钟,在连续稀释的乙醇中脱水并在70%甲酰胺/2xSSC(pH 7.5)中于80℃变性8分钟。临进行探针杂交前,再次对切片脱水,然后。500ng标记的探针与5μg小鼠Cot1DNA(Invitrogen)共沉淀并溶解于杂交混合液(50%甲酰胺,10%硫酸葡聚糖,2×SSC,50mM磷酸盐缓冲液,pH 7.5)中。探针于95℃变性5分钟,于37℃重新退火30分钟并于37℃杂交至少40小时。杂交后洗涤之后,用溶于PBS/0.05%吐温-20的20ng/ml DAPI(Sigma)复染核,并在ProlongGold抗退色试剂(Molecular Probes)中固定。
用装有CCD照相机和Isis FISH Imaging System软件(Metasystems)的Zeiss Axio Imager Z1落射荧光显微镜(x100倍平面复消色差透镜,1.4倍油物镜)收集图像。最少分析250个β-球蛋白或Rad23A等位基因,并由不知道用于切片的探针组合的人将其评为与位于基因组其他地方的BAC重叠或不重叠。进行重复的吻合度测试(G-统计)6来评估4C-阳性相对于4C阴性区域的测量值之间差异的显著性。表2中提供了结果的总述。
尽管我们在背景(0.4-3.9%)和真实的(5-20.4%)相互作用频率之间发现了有统计学显著性,但是清楚的是由低温FISH测得的频率比例比其他人用不同的FISH规程测得的那些频率更低。切片可能分开了一些相互作用的基因座,因此低温FISH测量将轻微低估真实的相互作用频率。在另一方面,由于在z-方向上有限的解析度,因此当前的2D-和3D FISH规程将高估这些百分比。将来,改进的显微镜技术与更特异的FISH探针的组合将更好地揭示真实的相互作用频率。
实施例2 基本如所述的(Splinter等.,(2004)Methods Enzymol.375493-507)进行3C过程(即用甲醛固定,用(第一)限制性内切酶消化,重新连接交联的DNA片段并进行DNA纯化),产生含限制性片段的DNA混合物(‘3C模板’),这些限制性片段由于它们原来在核空间中接近而被连接。
进行反向PCR来扩增所有与给定的限制性片段(“诱饵”;因为它含启动子、增强子、隔离子、核基质附着区、复制起始点或任何其他第一(靶)核苷酸序列而被挑选)连接的片段。
为此,通过用第二限制性内切酶(优选识别四个或五个核苷酸的序列的频繁切割的酶)消化3C模板,然后在有利于分子内相互作用的稀释的条件下连接,由此产生DNA环。为了使由于拓扑学限制而造成的在环形成中的偏好(Rippe等,(2001)Trends in Biochem.Sciences 26,733-40)最小化,挑选优选在距离第一限制性位点>350-400bp处切割诱饵的第二限制性内切酶。为了增加反向PCR扩增的效率和可重复性,最好用在诊断性第一和第二限制性位点之间切割诱饵的限制性内切酶(如识别6或更多bp的限制性酶)使环线性化,然后进行PCR扩增。
用第二限制性内切酶消化3C模板,在稀释条件下连接来环化,并使含诱饵的环线性化,这些步骤在这些DNA操作的标准条件下进行,以产生用于进行反向PCR扩增的DNA模板(‘4C模板’)。
因此,在100μl中用20U第二限制性内切酶消化10μg 3C模板(过夜),然后使酶热失活并纯化DNA。在10ml中(1ng/μl DNA)用50U T4连接酶进行连接(于16℃4小时,于RT 30分钟),然后进行DNA纯化。最后,在100μl中用20U限制性内切酶使目的环线性化(过夜),然后再次进行DNA纯化。
对于反向PCR,设计两个诱饵特异性引物,每个分别尽可能接近第一限制性内切酶识别位点并与第二限制性内切酶识别位点直接相邻,每种的3’末端朝外,从而使延伸立即穿过限制酶位点进入与诱饵相连的片段。优选(每50μl PCR反应混合物中)使用100-400ng DNA的4C模板实施用这些引物进行的反向PCR,从而使每个PCR反应包括了最大数量的连接事件。我们根据厂商的方法利用缓冲液1应用Expand Long Template PCR系统(Roche)进行反向PCR。
进行以下PCR循环 1.94℃ 2分钟 2.94℃ 15秒 3.55℃ 1分钟 4.68℃ 3分钟 5.重复步骤2-4共29次(或25-40次间的任意次数) 6.68℃ 7分钟 7.结束 进行凝胶电泳来分析各PCR反应间的可重复性。通常应当获得一致的产物模式。
为了通过随机引发和阵列杂交获得足以进行标记的材料,合并多个PCR反应(每个都是30个循环的PCR后所获得的),(而不是在每个反应中增加PCR循环数)。作为随机引发标记的可选方法,可将标记的核苷酸加入PCR的最后的循环中(如30个循环(无标记)+10个循环(有标记))。
实施例3 利用4C技术检测易位 用4C技术测量针对来自健康受试者的细胞中和来自患者的细胞中给定的染色体A上出现的给定的序列X的相互作用频率,所述患者在染色体A和B间带有单一的交互易位,其中断点接近于序列X(如图9所示)。
在正常细胞中,该分析揭示出针对(几乎)每个位于染色体A上序列X的0.2-10Mb内的探针的杂交信号(即与X的频繁相互作用)提高了(显示出强交联信号的染色体区域的实际大小主要依赖于与阵列杂交的样品的复杂性)。在相同染色体A上的其他地方以及在其他染色体上,没有观察到这样带有提高的杂交信号的(在线性DNA模板上)的大的探针区域。
可是在患者细胞中,用位于断点另一边的所有染色体A探针得到的杂交信号减少了~50%(染色体A的一个拷贝仍旧是完整的,并将产生正常的信号),而对于染色体B上断点边缘的探针,则观察到了提高了的杂交信号的独特集中(即不存在于正常细胞中)。事实上,染色体B上显示从无杂交信号探针到强杂交信号探针的突然转变揭示了染色体B上断点的位置。
实施例4 分析4C技术结果 用4C技术表征小鼠β-球蛋白基因座控制区(locus control region,LCR)的基因组环境,关注含其超敏位点2(hypersensitive site2,HS2)的限制性片段。LCR是强红血球特异性转录调节元件,对于高β-球蛋白基因表达水平是必需的。β-球蛋白基因座出现在染色体7上97Mb位置处,其中它位于只在嗅觉神经元中转录的嗅觉受体基因的大的2.9Mb的束中。分析2种组织中的相互作用E14.5胎儿肝(其中LCR是有活性的而且β-球蛋白基因高度转录),和E14.5胎儿脑(其中LCR是无活性的而且球蛋白基因是沉默的)。在两种组织中,绝大多数相互作用在染色体7上的序列中被发现,而6个无关的染色体(8、10、11、12、13、14)只检测到很少的LCR相互作用(图13a)。染色体7上的最强的信号在以β-球蛋白染色体位置为中心的5-10Mb区域内被发现,符合相互作用频率与物理相连的DNA序列间的距离(以碱基对计)成反比的观点。不可能定量说明该区域中的相互作用。我们的理由是这些邻近的序列太频繁地与β-球蛋白在一起,使得它们在我们的杂交样品中大大地过量表达,使相应探针都饱和了。我们用1∶10和1∶100稀释的样品进行杂交,发现了信号强度对于在外边和边缘的探针都降低了,但在该区域内的探针则没有降低(数据未显示),这确证了这个理由。
4C过程成生了高度可重复的数据。图2b-c显示了针对染色体7上两个1.5Mb区域(大约距离β-球蛋白基因25Mb和80Mb)的4C-信号相对于对照杂交信号的未处理的比率。在该解析度水平时,独立处理的样品的结果几乎是相同的。在胎儿肝和脑中,都有阳性信号束在染色体7上被鉴定出,其通常位于距离β-球蛋白上千万碱基的染色体位置上。这些束通常由最少20-50个并列排在染色体模板上的探针组成,所述探针的信号比率增加(图13b-c)。每个在阵列上的探针分析独立连接事件。而且,每个细胞仅有2个拷贝的HS2限制性片段,其每一个仅连接于一个其它限制性片段。因此,检测到与20或更多个邻近限制性片段的独立连接事件强有力地显示了,在多种细胞中,相应基因座与β-球蛋白LCR接触。
为了确定这些束的统计学显著性,各实验的数据按序排列在染色体图谱上并用窗口大小约为60kb的连续平均算法分析。用随机改组的数据的连续平均分布来设定阈值,允许有5%的假发现率。该分析鉴定了胎儿肝中的66个束和脑中的45个束,它们在重复的实验中被重复发现(图13d-f)。确实,高解析度的FISH确认了这些束真实地代表了频繁相互作用的基因座(见下)。
因此,4C技术通过检测在染色体位置集束的多个限制性片段的独立连接事件来鉴定长程相互作用基因座。
用不同的反向PCR引物组进行一系列完全独立的4C实验,研究β-major基因的基因组环境,β-major基因位于HS2下游~50kb处。在胎儿肝中,β-major基因是高度转录的并与LCR频繁接触。在胎儿肝和脑中,发现与β-major长程相互作用的束和HS2的几乎完全相同,进一步证实了这些基因座频繁与β-球蛋白基因座接触(图17)。
实施例5 活化的和失活的β-球蛋白基因座占据不同的基因组环境。
2种组织间的比较揭示,胎儿肝中活跃转录的β-球蛋白基因座和其脑中转录沉默的对应物相比与完全不同组的基因座相互作用(τ=-0.03;Spearman氏秩相关)(图13f)。这排除了结果受探针序列组合的影响。在胎儿肝中,相互作用的DNA片段位于以β-球蛋白基因座为中心的70Mb区域内,其大多数(40/66)朝向染色体7的端粒分布。在胎儿脑中,与胎儿肝相比,相互作用的基因座在距离β-球蛋白相似或甚至更远处被发现,而且最主要的相互作用(43/45)朝向染色体7的端粒分布。这些数据证实了有活性的和无活性的β-球蛋白基因座接触染色体7的不同部分。
微阵列上有另外6个染色体(8、10、11、12、13和14)的代表物。这些染色体上的强杂交信号很少,通常显示为在线性DNA模板上呈分离状态,并经常在重复实验中不存在。另外,沿着这些染色体的连续平均水平从未可重复地接近于针对染色体7计分的水平(图19)。因此,我们的数据显示,β-球蛋白基因座大多与同一染色体上其他地方的基因座接触,符合该基因座在其自身染色体区域内部的优选位置。我们注意到,α-球蛋白基因座也出现在阵列上(染色体11),并没有呈现出与β-球蛋白的阳性相互作用,符合近来由FISH的证明结果,即小鼠α-和β-球蛋白在核空间中不频繁相遇(Brown,J.M.等.(2006)J Cell Biol 172,177-87)。
为了更好地理解染色体7上观察到的长程相互作用的相关性,我们比较了相互作用的基因座与基因的染色体位置。另外,进行Affymetrix表达阵列分析以确定在两种组织中在这些位置上的转录活性。尽管胎儿肝和脑中相互作用区域的平均大小是类似的(分别为183kb和159kb),但是在它们的基因成分和活性上观察到了巨大的差异。在胎儿肝中,80%的β-球蛋白相互作用基因座含一个或多个活跃转录的基因,而在胎儿脑中,大多数(87%)显示没有可检测的基因活性(图15)。因此在两种组织中,β-球蛋白基因座包含在非常不同的基因组环境中。在脑中(其中该基因座是无活性的),它主要接触朝向染色体7着丝粒分布的转录沉默基因座。在胎儿肝中(其中该基因座是有高活性的),它优先与更显著地朝着染色体7端粒侧分布的活跃转录的区域相互作用。重要的是,4C技术能将Uros和Eraf距离(β-球蛋白~30Mb)鉴定为在胎儿肝中与有活性的β-球蛋白基因座相互作用的基因,符合以前由FISH得到的观察结果(Osborne,C.S.等.(2004)Nat Genet36,1065-71(2004))。有趣的是,观察到在脑中另外两个嗅觉受体基因束有接触,其存在于染色体7上,各自位于β-球蛋白的两边,并分别距离β-球蛋白17和37Mb。
在胎儿肝中,并非染色体7上所有的转录区域都与有活性的β-球蛋白基因座相互作用。所以,我们寻找专门由相互作用的基因座共享、而不由胎儿肝中其他活性区域共享的共同特征。β-球蛋白基因——Uros和Eraf都是可由相同的转录因子组调节的红细胞特异性基因,而且吸引人的观点是,这些因子协调了它们的靶基因在核空间中的表达。我们比较了来自E14.5胎儿肝的与胎儿脑的Affymetrix表达阵列数据,以此鉴定胎儿肝中优先表达(>5倍以上)的基因。由此,染色体7上28%的有活性的基因被归类为“胎儿肝特异性的”,其中25%在共定位区域中被发现。因此,我们发现在共定位区域中“胎儿肝特异性”基因并不丰富。更重要的是,66个相互作用的区域中的49个(74%)不含有“胎儿肝特异性”基因,因此断定我们的数据没有显示核空间中组织特异性基因协调表达的证据。β-球蛋白基因以异常高的速率被转录,而且接下来询问基因座是否优先与其他高转录活性区域相互作用,不管这些区域是高表达的基因抑或带有高密度活性基因的区域。利用Affymetrix计数来测定基因活性,我们进行连续总和算法来测量有转录活性的基因周围200kb区域内的总体转录活性。该分析揭示在相互作用的基因周围的转录活性不高于在染色体7上无相互作用活性的基因周围的转录活性(p=0.9867;Wilcoxon秩和)。
实施例6 管家基因的基因组环境在组织之间很大程度上是保守的 接着研究在两种组织中相似表达的基因是否也转换其基因组环境。Rad23A是普遍表达的基因,其位于染色体8上主要由管家基因组成的基因密集束中。在E14.5胎儿肝和脑中,该基因和其直接相邻的许多基因都是有活性的。进行4C分析并鉴定与Rad23A距离长达70Mb处的基因座的许多长程相互作用。重要的是,与Rad23A的相互作用在胎儿肝和脑中高度相关(τ=0.73;Spearman氏秩相关)(图15a)。另外,这些基因座共有的特点是它们含有转录活性的基因。因此,在这两种组织中都约有70%含至少一种有活性的基因(图15b-c)。如连续总和算法所确定的(对两种组织,p<0.001),与染色体其他地方的活性基因相比,相互作用的基因周围的区域显示出统计学上显著更高的基因活性水平。因此,与β-球蛋白基因座不同,位于基因丰富区域中的Rad23A基因优先与其他增加转录活性的染色体区域跨距离相互作用。通过FISH观察到,含Rad23A的染色体区域大多位于其染色体区域的边缘(90%)或外边(10%)(未发表,D.Noordermeer,M.Branco,A.Pombo和W.de Laat)。可是,4C分析仅揭示了染色体内的相互作用,染色体7、10、11、12、13或14上则没有区域能可重复地达到我们的严格的相互作用标准。因此,Rad23A主要参与在两种非常不同的组织中相似的染色体内相互作用。如果Rad23A在这些不相关的染色体上有优选的邻近基因座,则它们的相互作用还不足以在本文4C技术所用的条件下被检测。
实施例7 通过高解析度显微镜验证4C技术 为了验证4C技术得到的结果,进行低温FISH实验。低温FISH是近来开发的显微镜技术,其相对于现有3D-FISH规程的优点在于,它更好地保留核超结构,并通过制备超薄低温切片来改善z轴解析度(Branco,M.R.&Pombo,A(2006).PLoS Biol4,e138)。4C数据的验证是通过在由E14.5肝和脑制备的200nm超薄切片中测量β-球蛋白或Rad23A等位基因(通常n>250)如何频繁地与15个以上的选择的染色体区域共定位而进行的。重要的是,所有通过低温FISH测量的相互作用频率完美地符合4C结果(图17)。例如,通过4C技术鉴定为与β-球蛋白有相互作用的远距离区域比未由4C检测到的介于其间的区域更频繁地共定位(分别为7.4%和9.7%,相对于3.6%和3.5%)。另外,由4C技术鉴定出与胎儿脑而不是肝中β-球蛋白相互作用的两个远距离嗅觉受体基因束在脑中的共定位频率分别被评为12.9%和7%,而肝切片中为3.6%和1.9%。总之,4C技术鉴定为阳性的基因座所测得的共定位频率都显著高于背景基因座所测得的频率(p<0.05;G-检验)。我们断定4C技术如实地鉴定出相互作用的DNA基因座。最后,我们使用低温FISH证明被鉴定为与β-球蛋白相互作用的基因座也频繁地相互接触。对于胎儿肝中跨越大染色体距离的2个活性区域来说(图19)以及对于脑中在染色体上相距较远的两个无活性的OR基因束来说(图17),都是如此。有趣的是,这两个远距离OR基因束间频繁的接触也在胎儿肝中被发现,在这里它们不与含有被活跃转录的β-球蛋白基因座的OR基因束相互作用。这些数据显示,相距较远的OR基因束间的核相互作用不是所分析的胎儿脑组织所独有的。这似乎在推测,这种空间接触对许多OR基因间的联系提供了帮助,这种联系对于确保每个嗅觉神经元中仅一个等位基因被转录是必需的(Shykind,B.(2005)Hum Mol Genet 14 Spec No 1,R33-9。
实施例8 有活性和无活性的染色质结构域的核组织 本文所述的观察结果证实了不仅有活性的、而且无活性的基因组区域也在核空间中形成涉及许多长程接触的独特区域,这有力地提示了每种DNA片段具有其自身优选的相互作用组。我们的数据提示,当β-球蛋白基因座被开启时,它形成转录沉默基因组环境,并进入有益于与活性结构域相互作用的核区域。预计这种在转录活化后戏剧性的再定位很可能仅为达到了某种表达水平、并且更重要的是在线性染色体模板上与其他活性基因分隔开(如对于β-球蛋白的情况)的组织特异性基因的标志。这提示,在无活性的和有活性的基因组基因座之间都鉴定到的长程相互作用的广泛网络反映出细胞与细胞在染色体构象上的差异,而不是间期的动态移动的结果(Chakalova等.(2005)Nat Rev Genet 6,669-77(2005)。推测起来,细胞分裂后不同程度的去凝聚作用驱使有活性的基因组区域远离无活性的染色质(Gilbert,N.等.(2004)Cell 118,555-66(2004)),并通过染色质结合蛋白质间的亲和性使具有相似染色质组成的远距离基因座间的接触稳定。远距离基因座间的空间相邻可以是功能性的,但也可简单地是染色体解折叠模式的结果。尽管单个基因座能在有限的核体积中移动,染色体的一般构象将在整个细胞周期内被极大地保持、并需要细胞分裂才能被重置。该观点符合活细胞成像研究的结果(其显示带标签的DNA基因座在核内受限地运动(Chubb等.(2002)Curr Biol 12,439-45(2002))),而且很好地符合以下研究结果,即显示了核染色质位置信息在细胞分裂过程中被频繁传递而在细胞群体中并不被保存(Essers,J.等.Mol Biol Cell 16,769-75(2005);Gerlich,D.等.Cell 112,751-64(2003))。
其它方面1 本发明进一步的方面在以下编号的段落中被提出。
1.探针组,所述探针与给定物种(如人)基因组中每一个第一限制性内切酶识别位点的每一侧互补。
2.探针组,所述探针仅与给定物种(如人)基因组中每一个第一限制性内切酶识别位点的一侧互补。
3.探针组,所述探针与沿给定物种(如人)基因组线性模板排列的每隔一个第一限制性内切酶识别位点的一侧互补。
4.探针组,所述探针与沿给定物种(如人)基因组线性模板排列的每隔三个、每隔四个、每隔五个、每隔六个、每隔七个、每隔八个、每隔九个、每隔十个、每隔二十个、每隔三十个、每隔四十个、每隔五十个、每隔六十个、每隔七十个、每隔八十个、每隔九十个或每隔一百个第一限制性内切酶识别位点的一侧互补。
5.探针组,其代表已知涉及易位、缺失、倒位、重复和其他基因组重排的所有基因座周围给定大小(如约50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、6Mb、7Mb、8Mb、9Mb或10Mb)(如50kb-10Mb)的基因组区域。
6.探针组,其代表已知涉及易位、缺失、倒位、重复和其他基因组重排的所选的基因座周围给定大小(如约50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、6Mb、7Mb、8Mb、9Mb或10Mb)(如50kb-10Mb)的基因组区域。
7.4C序列(诱饵)优选在距离实际重排序列(即在易位情况下的断点)约50kb、100kb、200kb、300kb、400kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、6Mb、7Mb、8Mb、9Mb、10Mb、11Mb、12Mb、13Mb、14Mb或15Mb或更远距离的范围内。
8.探针组,其代表给定物种的完整基因组,其中每个探针代表由第一限制性内切酶消化后得到或可得到的单一限制性片段。
9.探针组,其代表给定物种的完整基因组,其中探针沿着线性染色体模板平均分布。
10.阵列,其包括根据段落1-10之任一段所述的探针组。
11.分析靶核苷酸序列与一个或多个核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
12.鉴定一种或多种指示特定疾病状态的DNA-DNA相互作用的方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
13.诊断或预测由DNA-DNA改变造成的或与DNA-DNA改变相关的疾病或综合征的方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
14.鉴定一种或多种调节DNA-DNA相互作用的试剂的测试方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
15.检测断点(如易位)位置的方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
16.检测倒位的位置的方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
17.检测缺失的位置的方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
18.检测重复的位置的方法,其包括使用如本文所述的核苷酸序列或探针阵列或探针组或阵列。
19.微阵列在鉴定与所选DNA片段空间密切接近的(所有)DNA片段的4C技术中的用途。
20.微阵列,其包括与DNA序列同源的探针,所述序列直接邻接于分析中所包括的基因组区(其可以是完整的基因组或基因组部分)中出现的第一限制性内切酶识别位点每个探针优选位于距离独特的第一限制性内切酶识别位点100bp内、或最多300bp内,或可选地被设计成在每个第一限制性内切酶识别位点与其最接近的第二限制性内切酶识别位点之间。
21.如本文所述的阵列,其包括与所选的基因座序列互补的探针,其中所述阵列代表给定物种的完整基因组。
22.段落21所述的阵列,其中所述基因座是与一种或多种疾病相关的基因座。
23.段落21或段落22所述的阵列,其中所选的基因座序列包括距离所述基因座多至20Mb的序列。
24.分析靶核苷酸序列与一个或多个目的核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)连接核苷酸序列; (g)利用至少两个寡核苷酸引物扩增一个或多个与靶核苷酸序列相连的目的核苷酸序列,其中每个引物与在目的核苷酸序列的侧翼的已知的DNA序列杂交; (h)将被扩增的一个或多个序列与阵列杂交;和 (i)确定DNA序列间相互作用的频率。
其它方面2 本发明又进一步的方面在以下编号的段落中被提出。
1.环化的核苷酸序列,其包含由第一和第二限制性内切酶识别位点分隔的第一和第二核苷酸序列,其中所述第一核苷酸序列是靶核苷酸序列而且所述第二核苷酸序列可通过交联基因组DNA而获得。
2.段落1所述的环化的核苷酸序列,其中靶核苷酸序列选自由启动子、增强子、沉默子、隔离子、核基质附着区、基因座控制区、转录单位、复制起始点、重组热点、易位断点、着丝粒、端粒、基因密集区、基因稀少区、重复元件和(病毒)整合位点所组成的组。
3.段落1所述的环化的核苷酸序列,其中靶核苷酸序列是与疾病相关的或造成疾病的核苷酸序列,或在线性DNA模板上位于距离与疾病相关的或造成疾病的基因座少于15Mb处。
4.段落1-3之任一段所述的环化的核苷酸序列,其中靶核苷酸序列选自以下组成的组AML1,MLL,MYC,BCL,BCR,ABL1,IGH,LYL1,TAL1,TAL2,LMO2,TCRα/δ,TCRβ和HOX或其他与疾病相关的基因座,所述其他与疾病相关的基因座如“Catalogue of Unbalanced ChromosomeAberrations in Man”第2版.Albert Schinzel.柏林Walter de Gruyter,2001.ISBN3-11-011607-3中所述。
5.段落1-4之任一段所述的环化的核苷酸序列,其中第一限制性内切酶识别位点是6-8bp识别位点,优选选自由BglII、HindIII、EcoRI、BamHI、SpeI、PstI和NdeI所组成的组。
6.前述段落之任一段所述的环化的核苷酸序列,其中第二限制性内切酶识别位点是4或5bp核苷酸序列识别位点。
7.前述段落之任一段所述的环化的核苷酸序列,其中第二限制性内切酶识别位点位于距离第一限制性位点大于约350bp处。
8.前述段落之任一段所述的环化的核苷酸序列,其中核苷酸序列是标记的。
9.核苷酸序列,其包含由第一和第二限制性内切酶识别位点分隔的第一和第二核苷酸序列,其中所述第一核苷酸序列是靶核苷酸序列,第二核苷酸序列可通过交联基因组DNA而获得,而且其中所述第二核苷酸序列与靶核苷酸序列相交。
10.制备环化的核苷酸序列的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列;和 (f)环化核苷酸序列。
11.制备核苷酸序列的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e) 用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列;和 (g)扩增与靶核苷酸序列相连的一个或多个核苷酸序列。
12.段落11所述的方法,其中在扩增前将环化的靶核苷酸序列线性化。
13.段落12所述的方法,其中用识别6bp或更多识别位点的限制性内切酶线性化环化的靶核苷酸序列。
14.段落10-13之任一段所述的方法,其中用PCR扩增交联的核苷酸序列。
15.段落14所述的方法,其中用反向PCR扩增交联的核苷酸序列。
16.段落14或段落15所述的方法,其中使用Expand Long TemplatePCR System(Roche)。
17.分析靶核苷酸序列与一个或多个核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括使用段落1-9任一所述的核苷酸序列。
18.固定于支持物上的探针阵列,其包括与或能与段落1-9所述的核苷酸序列杂交的一个或多个探针。
19.探针组,所述探针在序列上与基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点附近的核酸序列互补。
20.段落19所述的探针组,其中探针在序列上与和基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点的每一侧相邻的核酸序列互补。
21.段落19或段落20所述的探针组,其中所述探针在序列上与距离基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点小于300个碱基对的核酸序列互补。
22.段落19-21之任一段所述的探针组,其中探针与距离基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点小于300bp的序列互补。
23.段落19-22之任一段所述的探针组,其中探针与距离基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点200-300bp的序列互补。
24.段落19-23之任一段所述的探针组,其中探针与距离基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点100-200bp的序列互补。
25.段落19-24之任一段所述的探针组,其中两个或多个探针被设计能够与基因组DNA中第一限制性内切酶的每个第一限制性内切酶识别位点的相邻序列杂交。
26.段落25所述的探针组,其中探针重叠或部分重叠。
27.段落26的探针组,其中重叠小于10个核苷酸。
28.段落19-27之任一段所述的探针组,其中探针序列对应于第一限制性内切酶的每一个第一限制性内切酶识别位点和第二限制性内切酶的每一个第一相邻第二限制性内切酶识别位点之间的全部或部分序列。
29.段落19-28之任一段所述的探针组,其中每种探针至少是25聚体。
30.段落19-29之任一段所述的探针组,其中每种探针至少是25-60聚体。
31.制备探针组的方法,其包括以下步骤 (a)鉴定基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点; (b)设计探针,所述探针能够与基因组DNA中每一个第一限制性内切酶识别位点的相邻序列杂交; (c)合成探针;和 (d)将探针组合在一起形成探针组或基本上形成探针组。
32.段落31所述的方法,其中探针是PCR扩增产物。
33.由或可由段落31或段落32的方法得到的探针组或基本上得到的探针组。
34.阵列,其包括段落18所述的探针阵列或主要包括段落19-30或33之任一段所述的探针组。
35.阵列,其包括段落19-30或33之任一段所述的探针组。
36.段落34或段落35所述的阵列,其中阵列包括约300,000-400,000个探针。
37.段落34-36之任一段所述的阵列,其中阵列包括约385,000或更多探针,优选约750,000个探针,更优选6×750,000个探针。
38.段落34-37之任一段所述的阵列,其中如果探针数超过单个阵列可以包含的探针数,则阵列以较低解析度包含给定物种的完整基因组的代表物或由给定物种的完整基因组的代表物组成。
39.段落38所述的阵列,其中所述阵列中包含按序排列在线性染色体模板上的每2、3、4、5、6、7,8、9或10个探针中的一个探针。
40.制备阵列的方法,其包括基本上将段落18所述的探针阵列或基本上将段落19-30或33之任一段所述的探针组固定在固相支持物上的步骤。
41.制备阵列的方法,其包括基本上将段落18所述的探针阵列或基本上将段落19-30或33之任一段所述的探针组固定在固相支持物上的步骤。
42.由或可由段落40或段落41所述的方法获得的阵列。
43.分析靶核苷酸序列与一个或多个核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与靶核苷酸序列连接的一个或多个核苷酸序列; (h)任选将扩增的序列与阵列杂交;和 (i)确定DNA序列间相互作用的频率。
44.鉴定指示特定疾病状态的一种或多种DNA-DNA相互作用的方法,其包括以下步骤 (a)提供来自于患病和非患病的细胞的交联DNA的样品; (b)用第一限制性内切酶消化每个样品中交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与靶核苷酸序列连接的一个或多个序列; (h)任选将扩增的核苷酸序列与阵列杂交;和 (i)确定DNA序列间相互作用的频率, 其中来自于患病和非患病的细胞的DNA序列间相互作用的频率的差异表示DNA-DNA相互作用指示特定疾病状态。
45.诊断或预测由DNS-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的方法,其包括以下步骤 (a)提供来自受试者的交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与靶核苷酸序列连接的一个或多个序列; (h)任选将扩增的核苷酸序列与阵列杂交; (i)确定DNA序列间相互作用的频率;和 (j)比较DNA序列的相互作用频率与未受影响的对照的相互作用频率; 其中对照获得的值和由受试者获得的值之间的差异表明受试者正罹患疾病或综合征,或表明受试者将罹患疾病或综合征。
46.段落45所述的方法,其中相互作用频率从低至高的转换指示断点的位置。
47.段落45所述的方法,其中受试者样品的DNA-DNA相互作用频率相对于对照呈倒转模式指示倒位。
48.段落45所述的方法,其中受试者样品的DNA-DNA相互作用频率相对于对照的减少,并组合以更远区域的DNA-DNA相互作用频率的增加,指示缺失。
49.段落45所述的方法,其中受试者样品的DNA-DNA相互作用频率相对于对照增加或减少指示重复或插入。
50.段落45-49之任一段所述的方法,其中在进行所述方法前使用光谱核型分析和/或FISH。
51.段落45-50之任一段所述的方法,其中疾病是遗传疾病。
52.段落45-51之任一段所述的方法,其中疾病是癌症。
53.诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的方法,其包括以下步骤 (a)提供来自受试者的交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与一个或多个靶核苷酸序列连接的两个或更多个序列; (h)标记两个或更多个被扩增的序列; (i)将核苷酸序列与阵列杂交; (j)确定DNA序列间相互作用的频率;和 (j)鉴定一个或多个承受与疾病相关的基因组重排的基因座。
54.段落53所述的方法,其中两个或更多个被扩增的序列是区别标记的。
55.段落54所述的方法,其中当该两个或更多个被扩增的序列位于不同的染色体上时,其标记是相同的。
56.段落53所述的方法,其中当该两个或更多个被扩增的序列位于相同染色体上足够远的距离以使DNA-DNA相互作用信号间发生最小的重叠时,该两个或更多个被扩增的序列的标记是相同的。
57.鉴定一种或多种调节DNA-DNA相互作用的试剂的测试方法,其包括以下步骤 (a)将样品与一种或多种试剂接触; (b)提供来自样品的交联的DNA; (c)用第一限制性内切酶消化交联的DNA; (d)连接交联的核苷酸序列; (e)解除交联; (f)用第二限制性内切酶消化核苷酸序列; (g)环化核苷酸序列; (h)扩增与靶核苷酸序列连接的一个或多个核苷酸序列; (i)任选将扩增的核苷酸序列与阵列杂交;和 (j)确定DNA序列间相互作用的频率, 其中(i)存在试剂的情况下DNA序列间相互作用的频率和(ii)在无试剂的情况下DNA序列间相互作用的频率之间的差异指示该试剂能调节DNA-DNA相互作用。
58.检测断点(如易位)位置的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与靶核苷酸序列相连的一个或多个序列; (h)任选将扩增的核苷酸序列与阵列杂交; (i)确定DNA序列间相互作用的频率;和 (j)将DNA序列间相互作用的频率与对照的相互作用频率比较; 其中样品中DNA-DNA相互作用频率相对于对照从低至高的转变指示断点的位置。
59.检测倒位位置的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与靶核苷酸序列相连的一个或多个序列; (h)任选将扩增的核苷酸序列与阵列杂交; (i)确定DNA序列间相互作用的频率;和 (i)将DNA序列间相互作用的频率与对照的相互作用频率比较; 其中样品的DNA-DNA相互作用频率相对于对照的相互作用频率呈倒转模式指示倒位。
60.检测缺失位置的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与靶核苷酸序列相连的一个或多个序列; (h)任选将扩增的核苷酸序列与阵列杂交; (i)确定DNA序列间相互作用的频率;和 (j)将DNA序列间相互作用的频率与对照的相互作用频率比较; 其中样品的DNA-DNA相互作用频率相对于对照的相互作用频率减少指示缺失。
61.检测重复的位置的方法,其包括以下步骤 (a)提供交联DNA的样品; (b)用第一限制性内切酶消化交联的DNA; (c)连接交联的核苷酸序列; (d)解除交联; (e)用第二限制性内切酶消化核苷酸序列; (f)环化核苷酸序列; (g)扩增与靶核苷酸序列相连的一个或多个序列; (h)任选将扩增的核苷酸序列与阵列杂交; (i)确定DNA序列间相互作用的频率;和 (j)将DNA序列间相互作用的频率与对照的比较; 其中受试者样品的DNA-DNA相互作用频率相对于对照的DNA-DNA相互作用频率增加或减少指示重复或插入。
62.由或可由段落57所述的测试方法得到的试剂。
63.段落1-9之任一段所述的核苷酸序列用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
64.段落1-9之任一段所述的核苷酸序列用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
65.段落18所述的探针阵列或段落19-30或33之任一段所述的探针组用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
66.段落18所述的探针阵列或段落19-30或33之任一段所述的探针组用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
67.段落34-39或42之任一段所述的阵列用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
68.段落34-39或42之任一段所述的阵列用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
69.段落64、66或68之任一段所述的用途,其中诊断或预测是产前诊断或预测。
70.基本如本文所述的并参考实施例或附图之任一段的方法。
71.基本如本文所述的并参考实施例或附图之任意的探针阵列。
72.基本如本文所述的并参考实施例或附图之任意的探针组。
73.基本如本文所述的并参考实施例或附图之任意的方法。
74.基本如本文所述的并参考实施例或附图之任意的阵列。
75.基本如本文所述的并参考实施例或附图之任意的测试方法。
76.基本如本文所述的并参考实施例或附图之任意的试剂。
77.基本如本文所述的并参考实施例或附图之任意的用途。
表2
参考文献
Blanton J,Gaszner M,Schedl P.2003.Proteinprotein interactions and thepairing of boundary elements in vivo.Genes Dev 17664-75.
Dekker,J.,Rippe,K.,Dekker,M.,和Kleckner,N.2002.Capturingchromosome conformation.Science 2951306-11.
Drissen R,Palstra RJ,Gillemans N,Splinter E,Grosveld F,Philipsen S,deLaat W.2004.The active spatial organization of the beta-globin locus requiresthe transcription factor EKLF.Genes Dev 182485-90.
Horike S,Cai S,Miyano M,Cheng JF,Kohwi-Shigematsu T.2005.Loss ofsilent-chromatin looping and impaired imprinting of DLX5 in Rett syndrome.Nat Genet 373l-40.
Murrell A,Heeson S,Reik W.2004.Interaction between differentiallymethylated regions partitions the imprinted genes Igf2 and H19 intoparent-specific chromatin loops.Nat Genet 36889-93.
Palstra,R.J.,Tolhuis,B.,Splinter,E.,Nijmeijer,R.,Grosveld,F.,and deLaat,W.2003.The beta-globin nuclear compartment in development anderythroid differentiation.Nat Genet 35190-4.
Patrinos,G.P.,de Krom,M.,de Boer,E.,Langeveld,A.,Imam,A.M.A,Strouboulis,J.,de Laat,W.,and Grosveld,F.G.(2004).Multiple interactionsbetween regulatory regions are required to stabilize an active chromatin hub.Genes&Dev.181495-1509.
Spilianakis CG,Flavell RA.2004.Long-range intrachromosomalinteractions in the T helper type 2 cytokine locus.Nat Immunol 51017-27.
Tolhuis,B.,Palstra,R.J.,Splinter,E.,Grosveld,F.,和de Laat,W.2002.Looping and interaction between hypersensitive sites in the active beta-globinlocus.Molecular Cell 101453-65.
Vakoc CR,Letting DL,Gheldof N,Sawado T,Bender MA,Groudine M,Weiss MJ,Dekker J,Blobel GA.2005.Proximity among distant regulatoryelements at the beta-globin locus requires GATA-1 and FOG-1.Mol Cell.17453-62 以上说明书所述的所有公开文献都纳入本文参考。在不偏离本发明范围和精神的情况下,所述的本发明方法和系统的各种修改和变型对于所述领域技术人员来说是显然的。尽管本发明联系特别优选的具体实施方式
来描述,但是应当理解,本发明所要求保护的内容不应被不正当地局限于这些特定具体实施方式
中。事实上,所述对分子生物学或相关领域技术人员显而易见的执行本发明的模式的各种修改也要在以下权利要求的范围内。
权利要求
1.分析靶核苷酸序列与一个或多个目的核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括以下步骤
(a)提供交联DNA的样品;
(b)用第一限制性内切酶消化交联的DNA;
(c)连接交联的核苷酸序列;
(d)解除交联;
(e)用第二限制性内切酶消化核苷酸序列;
(f)将核苷酸组成已知的一个或多个DNA序列与在一个或多个目的核苷酸序列侧翼的可用的一个或多个第二限制性内切酶消化位点连接;
(g)利用至少两个寡核苷酸引物扩增一个或多个目的核苷酸序列,其中每个引物与目的核苷酸序列例翼的DNA序列杂交;
(h)将一个或多个被扩增的序列与阵列杂交;并
(i)确定DNA序列间相互作用的频率。
2.根据权利要求1所述的方法,其中步骤(f)中的连接反应导致DNA环的形成。
3.根据权利要求1或权利要求2所述的方法,其中靶核苷酸序列选自由基因组重排、启动子、增强子、沉默子、隔离子、基质附着区、基因座控制区、转录单位、复制起始点、重组热点、易位断点、着丝粒、端粒、基因密集区、基因稀少区、重复元件和(病毒)整合位点组成的组。
4.根据前述权利要求之任一项所述的方法,其中靶核苷酸序列是与疾病相关的或造成疾病的核苷酸序列,或在来自与疾病相关的或造成疾病的基因座的线性DNA模板上占据多至15Mb或大于15Mb。
5.根据前述权利要求之任一项所述的方法,其中靶核苷酸序列选自由AML1,MLL,MYC,BCL,BCR,ABL1,IGH,LYL1,TAL1,TAL2,LMO2,TCRα/δ,TCRβ和HOX或其他与疾病相关的基因座组成的组,所述其他与疾病相关的基因座描述于“Catalogue of Unbalanced ChromosomeAberrations in Man”第2版.Albert Schinzel.柏林Walter de Gruyter,2001.ISBN 3-11-011607-3中。
6.根据前述权利要求之任一项所述的方法,其中第一限制性内切酶是识别6-8bp识别位点的限制性内切酶。
7.根据权利要求6所述的方法,其中第一限制性内切酶选自由BglII、HindIII、EcoRI、BamHI、SpeI、PstI和NdeI组成的组。
8.根据前述权利要求之任一项所述的方法,其中第二限制性内切酶是识别4或5bp核苷酸序列识别位点的限制性内切酶。
9.根据前述权利要求之任一项所述的方法,其中第二限制性内切酶识别位点在靶核苷酸序列中位于与第一限制酶位点相距大于约350bp处。
10.根据前述权利要求之任一项所述的方法,其中将核苷酸序列进行标记。
11.分析靶核苷酸序列与一个或多个核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括以下步骤
(a)提供交联DNA的样品;
(b)用第一限制性内切酶消化交联的DNA;
(c)连接交联的核苷酸序列;
(d)解除交联;
(e)用第二限制性内切酶消化核苷酸序列;
(f)环化核苷酸序列;
(g)扩增与靶核苷酸序列连接的一个或多个核苷酸序列;
(h)任选将扩增的序列与阵列杂交;并
(i)确定DNA序列间相互作用的频率。
12.环化的核苷酸序列,其包含第一和第二核苷酸序列,其中第一和第二核苷酸序列的每个末端由不同的限制性内切酶识别位点分隔,而且其中所述第一核苷酸序列是靶核苷酸序列并且所述第二核苷酸序列是由交联基因组DNA而获得的。
13.制备环化的核苷酸序列的方法,其包括以下步骤
(a)提供交联DNA的样品;
(b)用第一限制性内切酶消化交联的DNA;
(c)连接交联的核苷酸序列;
(d)解除交联;
(e)用第二限制性内切酶消化核苷酸序列;和
(f)环化核苷酸序列。
14.分析靶核苷酸序列与一个或多个核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括使用根据权利要求12所述的核苷酸序列。
15.固定于支持物上的探针阵列,其包括与根据权利要求12所述的核苷酸序列杂交或能与所述核苷酸序列杂交的一个或多个探针。
16.探针组,所述探针在序列上与基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点相邻的核酸序列互补。
17.根据权利要求16所述的探针组,其中探针在序列上与基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点的每一侧相邻的核酸序列互补。
18.根据权利要求16或权利要求17所述的探针组,其中所述探针在序列上与和基因组DNA中第一限制性内切酶的第一限制性内切酶识别位点之每一个相距小于300个碱基对的核酸序列互补。
19.根据权利要求16-18之任一项所述的探针组,其中所述探针与和基因组DNA中第一限制性内切酶的第一限制性内切酶识别位点之每一个相距小于300bp的序列互补。
20.根据权利要求16-19之任一项所述的探针组,其中探针和与基因组DNA中第一限制性内切酶的第一限制性内切酶识别位点之每一个相距200-300bp的序列互补。
21.根据权利要求16-20之任一项所述的探针组,其中探针与和基因组DNA中第一限制性内切酶的第一限制性内切酶识别位点之每一个相距100-200bp、或0-100bp的序列互补。
22.根据权利要求16-21之任一项所述的探针组,其中两种或多种探针能够与基因组DNA中第一限制性内切酶的每个第一限制性内切酶识别位点相邻的序列杂交。
23.根据权利要求22所述的探针组,其中探针重叠或部分重叠。
24.权利要求23的探针,其中重叠少于10个核苷酸。
25.根据权利要求16-24之任一项所述的探针组,其中探针序列对应于第一限制性内切酶的每一个第一限制性内切酶识别位点与第二限制性内切酶的每一个第一相邻的第二限制性内切酶识别位点之间的所有或部分序列。
26.根据权利要求16-25之任一项所述的探针组,其中每种探针至少是25聚体。
27.根据权利要求16-26之任一项所述的探针组,其中每种探针是25-60聚体。
28.制备探针组的方法,其包括以下步骤
(a)鉴定基因组DNA中第一限制性内切酶的每一个第一限制性内切酶识别位点;
(b)设计探针,所述探针能够与基因组DNA中每一个第一限制性内切酶识别位点的相邻序列杂交;
(c)合成探针;和
(d)将探针组合在一起以形成探针组或基本上形成探针组。
29.根据权利要求28所述的方法,其中探针是PCR扩增产物。
30.由或可由根据权利要求28或权利要求20所述的方法得到的探针组或基本上得到的探针组。
31.阵列,其包括根据权利要求15所述的探针阵列或基本上包含根据权利要求16-27或30之任一项所述的探针组。
32.阵列,其包括根据权利要求16-27或30之任一项所述的探针组。
33.根据权利要求32或权利要求32所述的阵列,其中所述阵列包括约300,000-400,000个探针。
34.根据权利要求32-33之任一项所述的阵列,其中阵列包括约385,000或更多个探针,优选约750,000个探针,更优选6×750,000个探针。
35.根据权利要求31-34之任一项所述的阵列,其中阵列包括给定物种完整基因组的较低解析度的代表或由所述代表组成。
36.根据权利要求35所述的阵列,其中所述阵列中包含按序排列在线性染色体模板上的每2、3、4、5、6、7,8、9或10个探针中的一个探针。
37.制备阵列的方法,其包括将根据权利要求15所述的探针阵列基本上固定于固相支持物上或将根据权利要求16-27或30之任一项所述的探针组基本上固定在固相支持物上的步骤。
38.制备阵列的方法,其包括将根据权利要求16所述的探针阵列或根据权利要求16-27或30之任一项所述的探针组固定在固相支持物上的步骤。
39.由或可由根据权利要求37或权利要求3 8所述的方法得到的阵列。
40.鉴定一种或多种对特定疾病状态起指示作用的DNA-DNA相互作用的方法,其包括执行权利要求1-11步骤(a)-(i)的步骤,其中由患病和未患病的细胞提供步骤(a)中交联DNA的样品,而且其中来自患病和未患病的细胞的DNA序列间相互作用的频率差异表明该DNA-DNA相互作用指示特定疾病状态。
41.诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的方法,其包括执行权利要求1-11之任一项的步骤(a)-(i)的步骤,其中步骤(a)包括提供来自受试者的交联的DNA样品;而且其中步骤(i)包括将DNA序列间相互作用的频率与未受影响的对照进行比较;其中得自对照的值和得自受试者的值之间的差异指示受试者正罹患所述疾病或综合征或指示受试者将罹患所述疾病或综合征。
42.根据权利要求41所述的方法,其中相互作用频率从低向高转变指示平衡的和/或不平衡的断点的位置。
43.根据权利要求41所述的方法,其中受试者样品的DNA-DNA相互作用频率相对于对照呈倒转模式指示平衡的和/或不平衡的倒位。
44.根据权利要求41所述的方法,其中受试者样品的DNA-DNA相互作用频率相对于对照的降低与更远区域的DNA-DNA相互作用频率的增加的组合指示平衡的和/或不平衡的缺失。
45.根据权利要求41所述的方法,其中受试者样品的DNA-DNA相互作用频率相对于对照的增加或减少指示平衡的和/或不平衡的重复或插入。
46.根据权利要求41-45之任一项所述的方法,其中在进行所述方法前使用光谱核型分析和/或FISH。
47.根据权利要求41-46之任一项所述的方法,其中所述疾病是遗传疾病。
48.根据权利要求41-47之任一项所述的方法,其中所述疾病是癌症。
49.诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的方法,其包括以下步骤进行权利要求1-11之任一项的步骤(a)-(i),其中步骤(a)包括提供来自受试者的交联DNA的样品;而且其中所述方法包括额外步骤(j)鉴定一个或多个经历与疾病相关的基因组重排的基因座。
50.根据权利要求49所述的方法,其中将两个或多个被扩增的序列进行不同标记。
51.根据权利要求49所述的方法,其中当两个或多个被扩增的序列位于不同染色体上时,将所述序列进行相同的标记。
52.根据权利要求49所述的方法,其中当两个或多个被扩增的序列位于相同染色体上、其距离足够远以使得DNA-DNA相互作用信号间的重叠最小时,将这些被扩增的序列进行相同的标记。
53.鉴定一种或多种调节DNA-DNA相互作用的试剂的测试方法,其包括以下步骤
(a)将样品与一种或多种试剂接触;和
(b)进行权利要求1-11之任一项的步骤(a)至(i),其中步骤(a)包括由样品提供交联的DNA;
其中(i)在存在试剂的情况下的DNA序列间相互作用的频率和(ii)在试剂不存在的情况下的DNA序列间相互作用的频率之间的差异指示试剂能调节DNA-DNA相互作用。
54.检测平衡的和/或不平衡的断点(如易位)的位置的方法,其包括以下步骤
(a)进行权利要求1-11之任一项的步骤(a)至(i);和
(b)将DNA序列间相互作用的频率与对照的频率进行比较;
其中样品中DNA-DNA相互作用频率相对于对照从低至高的转变指示断点的位置。
55.检测平衡的和/或不平衡的倒位的位置的方法,其包括以下步骤
(a)进行权利要求1-11之任一项的步骤(a)至(i);和
(b)将DNA序列间相互作用的频率与对照的频率进行比较;
其中样品相对于对照的DNA-DNA相互作用频率的倒转模式指示倒位。
56.检测缺失位置的方法,其包括以下步骤
(a)进行权利要求1-11之任一项的步骤(a)至(i);和
(b)将DNA序列间相互作用的频率与对照的频率进行比较;
其中样品相对于对照的DNA-DNA相互作用频率的降低指示缺失。
57.检测发生重复的位置的方法,其包括以下步骤
(a)进行权利要求1-11之任一项的步骤(a)至(i);和
(b)将DNA序列间相互作用的频率与对照的频率进行比较;
其中受试者的DNA-DNA相互作用频率相对于对照增加或减少指示重复或插入。
58.由或可由根据权利要求53所述的测试方法得到的试剂。
59.根据权利要求12所述的核苷酸序列用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
60.根据权利要求12所述的核苷酸序列用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
61.根据权利要求15所述的探针阵列或根据权利要求16-27或30之任一项所述的探针组用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
62.根据权利要求15所述的探针阵列或根据权利要求16-27或30之任一项所述的探针组用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
63.根据权利要求31-36或39之任一项所述的阵列用于鉴定样品中一种或多种DNA-DNA相互作用的用途。
64.根据权利要求31-36或39之任一项所述的阵列用于诊断或预测由DNA-DNA相互作用变化造成的或与DNA-DNA相互作用变化相关的疾病或综合征的用途。
65.根据权利要求61、63或65之任一项所述的用途,其中所述诊断或预测是产前诊断或预测。
66.基本上如本文所述的和参考任一实施例或附图的方法、探针阵列、探针组、过程、阵列、测试方法、试剂、或用途。
全文摘要
本发明的一个方面涉及分析靶核苷酸序列与一个或多个目的核苷酸序列(如一个或多个基因组基因座)相互作用的频率的方法,其包括如下步骤(a)提供交联的DNA样品;(b)用第一限制性内切酶消化交联的DNA;(c)连接交联的核苷酸序列;(d)解除交联;(e)用第二限制性内切酶消化核苷酸序列;(f)将已知核苷酸组成的一个或多个DNA序列与在一个或多个目的核苷酸序列侧翼的可用的第二限制性内切酶消化位点连接;(g)利用至少两个寡核苷酸引物扩增一个或多个目的核苷酸序列,其中每个引物与在目的核苷酸序列侧翼的DNA序列杂交;(h)将扩增的一个或多个序列与阵列杂交;和(i)确定DNA序列间相互作用的频率。
文档编号C12Q1/68GK101238225SQ200680028794
公开日2008年8月6日 申请日期2006年7月3日 优先权日2005年7月4日
发明者沃特·德拉特, 弗兰克·格罗斯维尔德 申请人:伊拉兹马斯大学医疗中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1