用于分析三维dna结构中的核苷酸序列相互作用的方法

文档序号:10627928阅读:822来源:国知局
用于分析三维dna结构中的核苷酸序列相互作用的方法
【专利摘要】本发明提供了一种用于分析三维DNA结构中来自一个或多个感兴趣的区域的一个或多个核苷酸序列与其它核苷酸序列的相互作用的方法,其包括下述步骤:(a)提供交联的DNA的样品;(b)用第一限制性酶消化交联的DNA;(c)连接交联的核苷酸序列;(d)反转交联;(e)使来自(d)的连接的分子片段化;(f)使来自(e)的片段与代表与第一限制性酶的切割位点相邻的序列的一个或多个寡核苷酸杂交,以富集已经在步骤(c)中与另一个核苷酸序列连接的核苷酸序列的末端;并且(g)分析富集的片段的核苷酸序列以鉴定牵涉相互作用的核苷酸序列。
【专利说明】用于分析三维DNA结构中的核苷酸序列相互作用的方法 发明领域
[0001]本发明涉及用于分析三维DNA结构,如染色质中的核苷酸序列相互作用的方法。
[0002] 发明背景
[0003] 许多最近的研究已经显示了基因组在许多以接头区分开的自身结合域中构造。这 些所谓的"拓扑学域"一般范围为300千碱基对(kb)至1兆碱基对(1Mb)。拓扑学域由一系列 染色质环组成,其中环定义为使染色质的两个部分紧密接近,从而容许区域间的相互作用, 尽管后者不需要如此。这些环是动态的,并且依赖于大量的蛋白质,包括CTCF和粘结蛋白 (cohesion)以及调节域内基因需要的一系列转录因子。认为域内的许多环是完全结构性 的,即实现创建不同域的基因组折叠;而其它环在基因的表达中具有功能。后一类环(染色 体接近)在拓扑学域内是常见的,并且在位于不同拓扑学域中的染色质间少见得多。
[0004] 调节性DNA元件彼此之间及与域内的基因相互作用,并且形成复杂的相互作用网 络。这些元件内的变化及其相互作用(除了基因中的突变外)造成基因表达的变化,这继而 造成物种个体间的差异或引起疾病。如此,这些元件已经对疾病的诊断和治疗变得重要。然 而,这些调节网络仍然是相对未知的,尽管最近已经投入相当大的努力来阐明其功能。
[0005] 调节元件是含有一个或多个用于激活或阻抑基因的转录因子的结合位点的短片 段。调节元件经常远离其靶基因定位,并且尽管它们可以通过结合特定因子(如P300)或染 色质修饰识别,但是经常不清楚它们与哪些基因相互作用。在基因组的空间构造中,它们紧 密接近其靶基因。例如,在多指(Polydactyly)中,尽管影响的增强子在基因组的线性图谱 上与受影响的生长因子基因 Shh相距约IMbp定位,但是它在细胞核的3D空间中与该基因紧 密关联。
[0006] 虽然已经清楚调节元件通过成环调苄基因,但是染色体构象捕捉(3C)通过容许快 速鉴定此类相互作用在该领域中带来革命。3C技术的基本原理是细胞核空间中的DNA片段 的紧密接近可以通过交联,接着限制性酶消化、连接和扩增连接的产物检测。随后,已经开 发出许多3C类型技术,其提供关于相互作用和调苄基因的方式的更多信息:3C/3C-qPCR; 3C-seq/4C_seq;4C(3C-芯片上(on_a chip)) ;5C(3C碳拷贝(carbon copy));和Hi_C。
[0007] 这些方法中的每一种与各种优点和缺点有关(表1)。3(:和4C技术是相当费力的,需 要基因座的在先知识,并且受限于从特定观察点检测相互作用。为了分析几种相互作用,不 得不使用需要分开分析的许多不同观察点。3C和4C技术不产生全基因组数据。
[0008] 5C和HiC技术是更先进的。5C在引物设计中是高度苛求的,并且容许分析许多不同 相互作用,但是不给出全基因组覆盖。HiC是非常昂贵的,因为它需要非常大量的测序以分 析整个基因组,而不提供高分辨率分析(通常为40Kbp)。新近的HiC分析方法使用新算法,并 且提供lOKbp的分辨率。然而,它需要大量的测序(来自6个生物学重复的34亿个定位的配对 末端读出)。在此规模上的测序对于大多数研究小组是不可用的。还有,兴趣经常涉及牵涉 有限组的特定基因座或域,例如参与疾病中的基因组变化的区域的特定问题,这意味着相 当大比例的通过HiC法进行的测序对于这些应用是多余的。
[0009] 如此,需要不受上述限制的用于分析三维染色质结构中的核苷酸序列相互作用的 改善的方法。
[0010] 表1-不同染色质构象捕捉技术间的比较
[0011]
[0012] 附图简述
[0013] 图1:T2C规程的概述
[0014] 在稀释的条件下消化并连接分离的交联染色质以有利于紧密接近的限制性片段 间的连接。在去交联(de cr 〇 s s 1 i nk i ng)和二次消化后,修复突出端,接着进行衔接头连接。 衔接头含有测序方法需要的序列,例如配对末端Illumina或任选的短地址序列。会在不同 样品中使用不同地址以容许多路复用(multiplexing^使不同样品与相同组的寡核苷酸探 针杂交),其中地址序列容许序列与衍生它的样品匹配。使所得的一个或多个文库与阵列上 的独特寡核苷酸探针或可以在珠上捕获的溶液中的寡核苷酸探针的组杂交。独特的寡核苷 酸探针(绿色波形线)尽可能接近第一限制性位点定位。洗脱杂交的DNA,并且它含有选定的 基因组区域的所有相互作用的文库,并且在Illumina HiSeq2000上进行成对末端测序 (pair-end sequencing),然后是生物信息学分析和可视化相互作用(即紧密接近的序列)。 垂直的黑线描绘了一级限制性酶切割位点。橙色小垂直线描绘了二级限制性酶切割位点。
[0015] 图2:与Hi-c数据和4C数据比较通过T2C对人chrl 1ρ15.5区检测的相互作用。
[0016] A)对于頂R90细胞产生的Hi-C数据,覆盖感兴趣的H19/IGF2区,以40Kbp分辨率呈 现(Zuin等(2013),印刷中)。
[0017] B)使用与在(A)中相同的40kbp聚类(bin)呈现在HB2细胞中通过T2C观察到的相互 作用。通过两种方法观察到的总体拓扑学域模式是相似的。
[0018] C)T2C数据,在片段水平上以其实际分辨率呈现。右侧的有色柱形给出从低(蓝色) 至高(黄色)读出数目的每种相互作用的序列读出的频率。读出数目代表两个片段间连接的 频率,并且因此代表细胞核的三维空间中的那些片段间的相互作用。
[0019] D)与IGF2基因接近的一个观察点的4C相互作用数据,与通过T2C对此特定观察点 观察到的相互作用比较(粗红线)。也在(C)中指示观察点,以容许方法间的直接比较。细红 线指示相互作用片段的数目以易于比较。
[0020] 图3:对β-珠蛋白基因座比较区室化(compartmentalization)和相互作用。
[0021 ]在来自E12.5小鼠的小鼠原代红系细胞(A)和小鼠胎脑细胞(B)的β-珠蛋白基因座 周围的~2MB区中进行的T2C。不同生物学材料间的拓扑学域模式似乎是相同的,不依赖于 两种生物学样品中的相互作用的不同数目。对来自E12.5小鼠的小鼠原代红系细胞(C)和小 鼠胎脑细胞(D)的β-珠蛋白基因座周围的相互作用的放大。白线指示β-珠蛋白基因座中的 特别感兴趣的区域(如3 ' HS1、β-珠蛋白启动子和LCR)。LCR、β-珠蛋白启动子和3 ' HS1之间的 相互作用在小鼠脑细胞中丧失。相对于相同颜色代码标准化所有相互作用。
[0022]基因座的线性表示与LDB1和CTCF在红系细胞中的结合位点一起在底部显示。
[0023]图4:比较含有LDB1或CTCF结合位点的片段的相互作用。
[0024]对于来自Ε12.5小鼠的小鼠原代红系细胞(A)、(C)和小鼠胎脑细胞(Β)、(D),结合 LDB1(A)、(B)或CTCF(C)、(D)的片段在β-珠蛋白基因组周围的~2MB区内的相互作用。当与 小鼠脑细胞比较时,在小鼠肝细胞中清楚描绘了 珠蛋白基因座周围的拓扑学域。对于小 鼠原代红系细胞(E)、(G)和小鼠脑细胞(F)、(H),i3-珠蛋白基因座周围的LDB1结合片段(Ε)、 (F)和CTCF结合片段(G)、(H)之间的相互作用的放大表示。白线指示β-珠蛋白基因座中的感 兴趣的特定区域(如3'HS1、β-珠蛋白启动子和LCR) ICRj-珠蛋白启动子和3'HS1之间的胎 肝相互作用在小鼠脑细胞中丧失。相对于相同颜色代码标准化所有相互作用。底部显示了 珠蛋白基因座的线性表示及LDB1和CTCF在红系细胞中的结合位点。
[0025]图5:仅含有LDB1或CTCF的片段的相互作用的均值、中值和数目。
[0026]当与原代红系细胞相比时,LDB1(A)和CTCF(B)相互作用的数目在小鼠胎脑中更 低。此外,当与原代红系细胞相比时,LDB1(C)或CTCF(D)相互作用模式之间距离的均值和中 值在小鼠胎脑细胞中更低。
[0027]图6至10:对于小鼠胎脑(图6)、小鼠胎肝(图7)、人HB2(图8)、人TEV(图9)、和人HEV (图10)细胞,均对~2Mbp区并且在可视化中使用对数频率范围和彩虹颜色代码可视化相互 作用矩阵。照片清楚显示了T2C的卓越分辨率和质量,并且凭借直接的视觉读出,显示了基 因组构造为亚染色体域,其由形成环聚集体/玫瑰花结的染色质环组成。这是物种特异性的 (比较图6和7与图8-10),组织/细胞特异性的(图6和7和图8-10),依赖于基因的活性(图6、 7、8和9),和结构相关蛋白(如粘结蛋白)的存在(图8和9)。如此,结构也依赖于遗传或结构 变化改变相互作用的疾病状态(图6和7,或图9和10)。
[0028] 图11:免疫球蛋白重链基因座和帕-魏二氏(Prader-Willi)/安格曼(Angelmann) 综合征区域中,模拟染色质模型描述和基因组标志物间的空间距离的关系/评估:a,模拟随 机步移(Random-Walk) /巨大环(Giant-Loop)和多环亚区室模型(Multi-Loop-Subcompartment Model)的体积植染图像(Volume rendered image)。作为具有中期染色体 的形式和大小的起始构象(顶部),堆积玫瑰花结(α)。从此类起始构型,通过蒙特卡洛和松 弛布朗动力学步骤(Monte-Carlo and relaxing Brownian Dynamics step)解聚热动力学 平衡中的间期染色体。显示了含有大环(5Mbp)的模拟随机步移/巨大环模型的体积渲染图 像(左边;β)。注意大环不形成独特的结构,但是自由混合(左边;β)。相对而言,在含有 126kbp大小的环和接头的模拟多环亚区室模型的体积渲染图像中,玫瑰花结形成独特的染 色质范围,其中环不自由混合(中间;γ )。在含有126kbp环和63kbp接头的模拟RW/GL模型的 图像中,再形成独特的染色质范围,但是与MLS模型形成对比,不形成亚区室(右边;β)。匕随 机步移巨大环和多环亚区室模型:指示RW/GL模型,其中大环附着于非DNA主链。显示含有环 间的染色质接头的模拟模型。显示了含有126kbp环和接头的MLS模型,个别的玫瑰花结跨越 l-2Mbp〇
[0029] 图12:对于各种多环亚区室模型(模型参数:环大小/接头大小/模型名称),用于染 色质模型描述和空间距离的关系/评估的不同交联可能性(d 1:相互作用的距离)的模拟相 互作用图。
[0030] 图13:对于各种随机步移/巨大环模型(模型参数:环大小/接头大小/模型名称), 用于染色质模型描述和空间距离的关系/评估的不同交联可能性(d 1:相互作用的距离)的 模拟相互作用图。
[0031] 发明概述
[0032]本发明人已经开发出一种名称为"靶向染色质捕捉"(T2C)的新技术以克服5C和 HiC的缺点。
[0033] T2C采用来自一个或多个感兴趣区域的3C连接产物的选择性富集以鉴定与域的相 互作用和基因组的一个或几个特定区域的区室化。感兴趣的区域可以是大的(例如多兆碱 基大小)连续基因组区域或者可以备选是较小区域(各几兆碱基)的集合。
[0034]可将每个捕获的限制性片段用作"观察点",鉴定在三维基因组结构中与所述序列 相互作用的核苷酸序列。T2C的输出以限制性片段水平分辨率提供局部相互作用图。方法比 Hi-C法牵涉少得相当多的序列努力和更少的复杂的生物信息学分析。方法还不受5C法的限 制阻碍,因为T2C还鉴定靶定区域内的片段与靶定区域外部的区域的相互作用。
[0035]如此,在第一个方面,本发明提供了用于分析三维DNA结构中来自一个或多个感兴 趣的区域的一个或多个核苷酸序列与其它核苷酸序列的相互作用的方法,其包括下述步 骤:
[0036] (a)提供交联的DNA的样品;
[0037] (b)用第一限制性酶消化所述交联的DNA;
[0038] (c)连接交联的核苷酸序列;
[0039] (d)反转所述交联;
[0040] (e)使来自(d)的连接的分子片段化;
[0041] (f)使来自(e)的片段与代表与所述第一限制性酶的切割位点相邻的序列的一个 或多个寡核苷酸杂交,以富集已经在步骤(c)中与另一个核苷酸序列连接的核苷酸序列的 末端;并且
[0042] (g)分析富集的片段的核苷酸序列以鉴定牵涉相互作用的核苷酸序列。
[0043]方法可以用于分析三维染色质结构中来自一个或多个感兴趣的基因组区的一个 或多个核苷酸序列与其它核苷酸序列的相互作用。
[0044]第一限制性酶可以是识别6_8bp识别位点的任何限制性酶。
[0045] 第一限制性酶可以选自下组:Bglll、HindIII、EcoRI、BamHI、SpeI、PstI和Ndel。
[0046] 在方法的步骤(e)中,可以通过用第二限制性酶,如识别4或5bp核苷酸序列识别位 点或甚至二核苷酸序列的酶消化使所述连接的分子片段化。
[0047] 第二限制性酶可以选自下组:TspEI、MaeII、AluI、NlaIII、HpaII、FnuDII、MaeI、 DpnI、MboI、HhaI、HaeIII、RsaI、TaqI、CviRI、MseI、Sthl32I、AciI、DpnII、Sau3AMPMnlL·
[0048] 或者,在步骤(e)中,可以通过机械手段,如剪切或超声处理使连接的分子片段化。
[0049] 或者,第一限制性酶可以是识别4-6个碱基对的识别位点的任何限制性酶(其中 6bp是简并序列),在该情况中,会通过非特异性核酸酶或剪切的机械手段替换第二限制性 酶。这会导致较高数目的用于杂交的寡核苷酸(参见下文)和较高的相互作用分辨率,因为 存在有较多的一级限制性片段。
[0050] 在步骤(f)中,一个或多个寡核苷酸探针可以在微阵列上点样(spot)或在珠上捕 获,或者备选存在于溶液中,其随后在珠上捕获。
[0051] 寡核苷酸探针可识别与第一限制性酶的识别位点相邻的序列,如第一限制性酶的 识别位点的l〇〇bp内的序列。
[0052] 在步骤(f)中,可以使核苷酸序列片段与寡核苷酸探针组杂交,所述寡核苷酸探针 组包含多个寡核苷酸,每个所述寡核苷酸与下述序列杂交,所述序列与来自感兴趣的基因 组区的核苷酸序列上的第一限制性酶的消化位点相邻。
[0053]寡核苷酸探针组包含对基本上所有限制性片段特异性的探针,所述限制性片段可 通过用第一限制性酶处理感兴趣的基因组区获得。
[0054] 可在步骤(f)前将衔接头序列与来自步骤(e)的核苷酸序列片段的一个或两个末 端连接,从而可以通过杂交在阵列上捕获连接的核苷酸序列片段,扩增和/或测序或者容许 区分与相同的寡核苷酸探针组杂交的不同样品。衔接头可以含有特定的地址序列,其容许 区分一个样品与另一个样品。然后,知道所有具有特定地址序列的序列源自一个特定样品。
[0055] 方法的步骤(g)可牵涉富集的核苷酸序列片段的高通量测序。
[0056] 步骤(g)可以继之以相互作用的生物信息分析和/或可视化。
[0057] 感兴趣的区域(如感兴趣的基因组区)可以包含感兴趣的遗传基因座。
[0058] 感兴趣的区域的长度总共可以是约1-50MB。
[0059] 若在步骤(g)中,仅分析包含特定遗传元件的富集的核苷酸序列片段的序列以鉴 定牵涉与遗传元件的相互作用的核苷酸序列,本发明的方法可以用于分析三维结构中特定 遗传元件与其它核苷酸序列的相互作用。
[0000]遗传元件可以包含用于转录因子或绝缘子(insulator)或屏障元件的结合位点。
[0061] 遗传元件可以在感兴趣的区域中,例如经常牵涉或接近疾病中重排或缺失的基因 组区域的元件。
[0062] 本发明的方法也可以用于通过分析包含基因的感兴趣区域中的相互作用的数目、 类型或密度而确定基因的表达状态。
[0063] 方法可以用于比较两种样品间的基因活性,通过分析这两种样品,并且比较感兴 趣区域中的相互作用的数目、类型或密度进行。
[0064]方法可以用于鉴定哪个蛋白质(如转录因子)负责特定的相互作用。
[0065]例如,样品可:来自同一受试者的不同组织;来自不同时间点里的单一受试者;来 自不同受试者(例如健康/患病/疑似患病的受试者)的等同组织。
[0066]方法可用于鉴定一种或多种指示特定疾病状态的DNA-DNA相互作用,通过分析来 自患病细胞和非患病细胞的交联DNA的样品,来自患病细胞和非患病细胞的DNA序列之间的 三维染色质结构中核苷酸序列相互作用间的差异显示DNA-DNA相互作用或DNA-DNA相互作 用的模式指示特定的疾病状态。
[0067]本发明的方法可以在诊断或预后由DNA-DNA相互作用的变化引起的或与DNA-DNA 相互作用的变化有关的疾病或综合征中使用。在这点上,步骤(a)牵涉提供来自受试者的交 联DNA的样品;并且步骤(g)牵涉与不受影响的对照比较DNA序列之间的相互作用;对照和所 述受试者之间的差异指示受试者正患有疾病或综合征或者指示受试者会患有疾病或综合 征。
[0068]疾病可以是遗传性遗传病,或体细胞遗传病,如癌症。
[0069]在第二个方面,本发明还提供了用于鉴定一种或多种调控DNA的三维结构的作用 剂的测定方法,其包括下述步骤:
[0070] (a)使样品与一种或多种作用剂接触;并
[0071] (b)进行本发明的第一个方面的方法,其中步骤(a)包括提供来自所述样品的交联 DNA;
[0072]其中(i)在存在所述作用剂的情况下的DNA相互作用和(ii)在缺乏所述作用剂的 情况下的DNA相互作用之间的差异指示调控DNA的所述三维结构的作用剂。
[0073] T2C相对于已知的5C或HiC方法提供重大的优点,例如:
[0074] ?如与5C形成对比每个限制性片段可以充当"观察点",并且可鉴定所有其相互作 用,无论它们在短距离或长距离里或者相对于其它染色体;
[0075] ?可在不需要HiC需要的大量序列努力的情况下在感兴趣的区域中鉴定基因组的 区室化,因而显著降低成本;
[0076] ?当与其它技术相比时获得基因座的更好的覆盖和分辨率。T2C的分辨率基于使 用的限制性酶,但是经常为l-l〇Kb等级的(对于6bp识别限制性酶,平均值4_5kb)。这比用常 见的HiC获得的常见40Kbp聚类提供显著更好的分辨率。
[0077]发明详述
[0078]本发明涉及用于分析三维DNA结构中核苷酸序列间的相互作用的方法。
[0079] 三维DNA结构
[0080]术语"三维DNA结构"意指包含具有与蛋白质分子中的氨基酸序列的高级结构类似 的形成DNA双螺旋的高级结构,例如环和折叠的DNA的结构。该结构可以仅由DNA构成,或者 可以另外包含其它分子,如蛋白质。染色质是DNA和蛋白质之间的复合物的一个例子。
[0081] 理想地,本发明的方法适合于分析基因组的三维染色质构造。
[0082] 染色质的主要功能是1)将DNA包装成较小的体积以适合于细胞,2)在DNA上提供锚 定点以容许有丝分裂,和4)控制基因表达、DNA复制和修复。染色质的最丰富的蛋白质组分 是压紧DNA的组蛋白。
[0083] 染色质的结构取决于几个因素。总体结构取决于细胞周期的阶段:在分裂间期期 间,染色质是结构上松散的,从而容许接近转录和复制DNA的RNA和DNA聚合酶。分裂间期期 间的染色质的局部结构取决于DNA上存在的基因:活跃转录的DNA编码基因是最松散包装 的,并且发现它们与RNA聚合酶联合(称为常染色质),而发现编码无活性基因的DNA与结构 蛋白联合,并且是更为紧密包装的(异染色质)。染色质中的结构蛋白的表遗传化学修饰也 改变局部染色质结构,特别是通过甲基化和乙酰化对组蛋白蛋白质的化学修饰。由于细胞 准备分裂,即进入有丝分裂或减数分裂,染色质更紧密包装以促进后期期间的染色体分离。 [0084]在真核细胞的细胞核中,分裂间期染色体占据独特的染色体区域。最近,已经鉴定 出较大的兆碱基大小的局部染色质相互作用域,称作"拓扑学域"(Dixon等(2012,Nature 485,376-380)。这些域与约束异染色质扩散的基因组区域相关联。所述域在不同细胞类型 间稳定并且在物种间高度保守,这指示了拓扑学域是哺乳动物基因组的固有特性。
[0085] 拓扑学域也彼此相互作用,这提示了基因组的可能高级结构为一系列玫瑰花结 (rosette)样结构。
[0086] 可以使用本发明的方法来鉴定和表征基因组、染色体或其部分内的拓扑学域或更 高级结构。
[0087] 基因组的空间构造与其生物学功能密切联系,因此了解高级基因组结构是重要 的。
[0088]虽然理想地,本发明的方法适合于分析基因组的三维染色质构造,但是它可以适 用于分析任何三维结构中的核苷酸序列相互作用。
[0089] 核酸(如DNA)能与自身、其它核酸和其它分子(如蛋白质)自发形成"四级结构"。可 使用本发明的方法分析任何含有核酸的结构的三维构造。例如,可使用该方法调查和确认 DNA纳米技术中使用的人工核酸构件块的分层装配。
[0090] 感兴趣的区域
[0091] 本发明牵涉分析感兴趣的区域中的核苷酸序列与其它核苷酸序列之间的相互作 用。
[0092] 感兴趣的区域可以是一条(或多条)染色体内的感兴趣的基因组区。
[0093] 感兴趣的区域可以包含感兴趣的特定遗传基因座。遗传基因座是染色体上的基因 或DNA序列或位置的特定位置。感兴趣的基因组区可以包含特定的基因座,如特定基因的序 列,连同一个或两个侧翼区。例如,感兴趣的区域可以包含在基因的两侧的约1、2、3或4MB的 序列。
[0094] "其它核苷酸序列",即与感兴趣的区域内的核苷酸序列相互作用的核苷酸序列可 自身位于感兴趣的区域中,或者它们可来自其它区域,如相同染色体的其它部分,或者来自 不同染色体。如果遇到基因调节已经改变或者基因丧失的疾病,那么与此类区域的相互作 用可以改变。
[0095] DNA
[0096] 3D DNA结构可包含基因组DNA:其由一个或多个基因组基因座组成或者包含一个 或多个基因组基因座。
[0097] 方法
[0098]本发明的方法包括下列步骤:
[00" ] (a)提供交联的DNA的样品;
[0100] (b)用第一限制性酶消化交联的DNA;
[0101] (c)连接交联的核苷酸序列;并
[0102] (d)反转交联。
[0103] 本发明的方法的这前四个步骤类似于记载于Dekker等(2002)Science295:1306的 染色体构象捕捉(3C)和4C(Capture and Characterise Colocalised Chromatin)(其记载 于TO 2007/004057)的那些步骤。
[0104]可使用已知的方法,如由Splinter等·,(2004)Methods Enzymol · 375,493-507描 述的方法制备3C样模板。简言之,使用交联剂(如甲醛)固定样品(如细胞、组织或细胞核)。 然后,进行一级限制性酶消化,使得在交联的细胞核的背景中消化DNA。然后,在低DNA浓度 进行分子内连接,所述低DNA浓度相对于非交联DNA片段间的连接(即分子间或随机连接)有 利于交联的DNA片段间的连接(即分子内连接)。接着,反转交联并可纯化DNA。产生的3C模板 含有连接的限制性片段,因为它们最初在细胞核空间中是接近的。
[0105]由于在分子内连接步骤前使用一级限制性酶消化DNA,用于一级限制性酶的酶识 别位点会分开第一(靶)核苷酸序列和已经连接的核苷酸序列。因而,一级限制性酶识别位 点位于第一(靶)核苷酸序列和连接的核苷酸序列(即连接的第二序列)之间。
[0106] 交联
[0107] 可以使用交联剂(如甲醛)交联蛋白质与其它邻近的蛋白质和核酸。如此,两个或 更多个核苷酸序列可以经由与这些核苷酸序列(之一)结合的蛋白质而交联。与甲醛不同的 交联剂也可根据本发明使用,包括那些直接交联核苷酸序列的交联剂。交联DNA的作用剂的 例子包括但不限于UV光、丝裂霉素 C、氮芥、美法仑(melphalan)、l,3-丁二烯二环氧化物(1, 3-butadiene diepoxide)、顺二胺二氯钼(II)和环磷酰胺。
[0108] 合适地,交联剂会形成交联,所述交联桥接相对较短的距离,如约2A,由此选择可 反转的密切相互作用。
[0109] 例如,可通过于室温在2%甲醛中温育细胞,如通过将IX 107个细胞在10ml补充有 2%甲醛的DMEM-10%FCS中于室温温育10分钟进行交联。
[0110] 用限制性酶消化
[0111] 用第一限制性酶消化交联的DNA。
[0112] 限制性内切核酸酶是切割DNA的糖-磷酸主链的酶。在大多数实际背景中,给定的 限制性酶切割仅几个碱基的区段内的双链体DNA的两条链。限制性酶的底物是称作识别位 点/序列的双链DNA序列。
[0113] 限制性识别位点的长度随使用的限制性酶而变化。识别序列的长度决定酶会多么 频繁地在DNA的序列中切割。
[0114] 识别DNA的4bp序列的限制性酶以及其限制性位点包括:AATT(TspEI)、ACGT (MaeII)、AGCT(AluI)、CATG(NlaIII)、CCGG(HpaII)、CGCG(FnuDII)、CTAG(MaeI)、GATC (DpnI、DpnII、Sau3AI和MboI)、GCGC(HhaI)、GGCC(HaeIII)、GTAC(RsaI)、TCGA(TaqI)、TGCA (CviRI)、TTAA(MseI)、CCCG(Sthl32I)、CCGC(AciI)和CCTC(Mnll)。
[0115] 识别DNA的6bp序列的限制性酶以及其限制性位点包括:AACGTT(AclI)、AAGCTT (Hindlll)、AATATT(SspI)、ACATGT(BspLUlII)、ACCGGT(AgeI)、ACGCGT(MluI)、ACTAGT (Spel)、AGATCT(BglII)、AGCGCT(Eco47III)、AGGCCT(StuI)、AGTACT(ScaI)、ATCGAT(ClaI)、 ATGCAT(AvaIII)、ATTAAT(VspI)、CAATTG(MfeI)、CACGTG(PmaCI)、CAGCTG(PvuII)、CATATG (NdeI)、CCATGG(NcoI)、CCCGGG(Smal)、CCGCGG(SacII)、CCTAGG(AvrII)、CGATCG(PvuI)、 CGGCCG(XmaIII)、CGTACG(Sp11)、CTCGAG(XhoI)、CTGCAG(P s 11)、CTTAAG(AfllI)、GAATTC (EcoRI)、GACGTC(AatII)、GAGCTC(SacI)、GATATC(EcoRV)、GCATGC(SphI)、GCCGGC(NaeI)、 GCGCGC(BsePI)、GCTAGC(NheI)、GGATCC(BamHI)、GGCGCC(NarI)、GGGCCC(ApaI)、GGTACC (Kpnl)、GTATAC(SnaI)、GTCGAC(SalI)、GTGCAC(ApaLI)、GTTAAC(HpaI)、TACGTA(SnaBI)、 TCATGA(BspHI)、TCCGGA(BspMII)、TCGCGA(NruI)、TCTAGA(XbaI)、TGATCA(BclI)、TGCGCA (MstI)、TGGCCA(BalI)、TGTACA(Bspl407I)、TTATAA(PsiI)、TTCGAA(AsuIlWPTTTAAA (AhaIII)〇
[0116] 识别DNA的7bp序列的限制性酶以及其限制性位点包括:CCTNAGG( Saul)、GCTNAGC (EspI)、GGTNACC BstEII和TCCNGGA Pfol。
[0117] 识别DNA的8bp序列的限制性酶以及其限制性位点包括:ATTTAAAT ( Swa I)、 CCTGCAGG(Sse8387I)、CGCCGGCG(Sse232I)、CGTCGACG(SgrDI)、GCCCGGGC(SrfI)、GCGATCGC (Sgfl)、GCGGCCGC(NotI)、GGCCGGCC(FseI)、GGCGCGCC(AscI)、GTTTAAAC(PmeI)和TTAATTAA (PacI)〇
[0118] 还有识别简并序列的限制性酶,所述简并序列意味着两个或更多个碱基可能在识 别序列中的特定位置处,从而有效产生识别的DNA的3或5bp序列。也可以使用酶的组合来有 效识别2bp,例如邱7〇121¥、]^?1、把1^11和了391的组合有效识别2&?序列〇6。
[0119] 第一限制性酶(或酶的组合)可识别DNA的2、4、5、6、7或8bp序列。
[0120] 特别地,第一限制性酶可以是6-切割剂,如Hindlll或Bglll。
[0121] 第二限制性酶(或酶的组合)可以识别DNA的2或4bp序列或者替换为非特异性核酸 酶(在该情况中,仅会应用有限的消化)或机械片段化。
[0122] 连接和交联的反转
[0123] 然后,消化步骤继之以稀释条件下的连接,所述稀释条件有利于分子内相互作用 和经由相容末端的DNA连接。
[0124] 可通过添加酶连接酶诱导连接。
[0125] 可在低DNA浓度(如约l-5ngAU)进行连接反应。
[0126] 可通过添加作用剂如蛋白酶K反转交联。
[0127] 方法的其它步骤
[0128] 本发明的方法还可牵涉:
[0129] e)使连接的DNA片段化,例如用第二限制性酶(如4bp识别酶)或其它核酸酶或者通 过机械剪切进行。在后一种情况中,可修复DNA末端以变为平端,从而容许添加衔接头序列。 [0130] (f)连接衔接头序列,其含有容许区分样品(含有具有不同特定序列的接头的另一 种样品)的特定序列和/或容许尚通量测序的序列。
[0131] g)使连接的样品与代表一种或多种基因组基因座的一种寡核苷酸探针或寡核苷 酸探针组杂交。一种寡核苷酸探针或寡核苷酸探针组基于其与如在步骤(a)中的第一识别 位点的接近和其杂交温度选择。后者依赖于其长度和碱基组成。组中的不同寡核苷酸探针 应当具有相似的杂交/熔解温度。此外,它们应当是独特的,从而防止重复DNA的杂交。寡核 苷酸探针可附着于固体表面或者含有标签,如生物素,其容许在固体表面,优选链霉亲合素 珠上捕获。
[0132] (h)在杂交后严格清洗杂交的固体表面以除去非杂交的材料。
[0133] (i)洗脱杂交的材料。
[0134] (j)例如通过配对末端11 lumina测序来对杂交的材料测序。
[0135] (k)使用生物信息学将序列返回定位到基因组,并且产生相互作用的矩阵。
[0136] 片段化
[0137] 可通过本领域中已知的各种方法,如用第二限制性酶或其它核酸酶消化;使用放 射或重离子;或者机械手段,如超声处理或剪切使连接的DNA分子片段化。
[0138] 第二限制性酶应当比方法的步骤(b)中使用的第一限制性酶更频繁切割DNA。第二 限制性酶可比第一限制性酶识别更短或更常见的DNA区段(识别位点)。
[0139] 若第一限制性酶是6_8bp切割剂,则第二限制性酶可为例如2或4-切割剂。
[0140] 例如,第二限制性酶可为4-切割剂,如Dpn II或Nlalll。
[0141] 第二限制性酶(或酶的组合)可识别DNA的2或4bp序列或者替换为非特异性核酸酶 (在该情况中,仅会应用有限的消化)或机械片段化。存在有大量的非序列特异性核酸酶,如 微球菌核酸酶或DNA酶I。
[0142] 在机械方法(如剪切)、非特异性核酸酶或使用放射或重离子处理后,可需要通过 标准方法"修复"核苷酸序列的末端以容许下一步。
[0143] 衔接头
[0144] 为了测序目的,可将衔接头与来自步骤(e)的片段的末端连接,即以实现用于方法 如Illumina方法的序列分析。
[0145] 衔接头可包含地址序列。对不同样品使用不同地址序列以容许多路复用(使不同 样品与相同的寡核苷酸探针组杂交),其中地址序列容许序列与衍生它的样品匹配。当使用 多种样品或内部掺加时,地址序列是有用的。
[0146] 在杂交前添加衔接头序列是优选的。有可能通过杂交后的连接添加它们,但是可 能不太有效,因为DNA作为单链DNA脱离杂交。
[0147] 杂交
[0148] 在方法的步骤(f)中,使核苷酸序列片段与一种或多种寡核苷酸探针杂交以富集 含有相互作用的核苷酸序列的片段。
[0149] 寡核苷酸探针附着于固体支持物或者可以在固体支持物上捕获,如阵列或珠(参 见下文)。
[0150] 寡核苷酸探针基于来自感兴趣区域的序列设计,记住第一限制性酶的限制性位点 的位置。
[0151] 每个寡核苷酸探针对应于与第一限制性位点接近定位的序列。本发明的方法的步 骤(d)中生成的连接的DNA分子包含在第一限制性酶的识别位点处连接的不同核苷酸序列。 不同核苷酸序列在三维结构中"相互作用"(即,足够紧密接近以进行交联)。当使连接的分 子片段化时,一些片段会通过内部片段化(例如通过第二限制性酶的内部消化)源自单一核 苷酸序列。其它片段会源自相互作用的核苷酸序列两者。
[0152] 通过选择具有与第一限制性位点接近定位的序列的片段,对片段富集那些代表 "相互作用片段"的片段,即包含通过连接步骤(c)在第一限制性酶的识别位点处连接的两 个核苷酸序列的部分。
[0153]寡核苷酸探针
[0154] 适当地,寡核苷酸探针的长度会是至少15、20、25、30或40个核苷酸。
[0155] 寡核苷酸探针设计为尽可能接近第一限制性酶的限制性酶识别位点。术语"接近" 意指寡核苷酸探针设计为使得它们识别与第一限制性酶识别位点相距约1〇〇个核苷酸,如 约 90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、2或1个核苷酸内的位点。
[0156]若感兴趣的区域具有X个第一限制性酶(RE1)识别位点,则用RE1的消化会产生X+1 个片段。这些片段会在两个末端都具有RE1识别位点,因此有必要设计2X个寡核苷酸探针以 涵盖感兴趣的区域中的所有片段。
[0157] 寡核苷酸探针的文库可以包含对基本上所有限制性片段特异性的寡核苷酸,所述 限制性片段可通过用第一限制性酶处理感兴趣的区域获得。"基本上所有"在此背景中意指 限制性片段-侧翼位点的至少60、70、80、90、95或99%。
[0158] 有时不可能设计代表末端之一的寡核苷酸探针,例如:
[0159] (i)序列可以是重复的;
[0160] (ii)第二识别酶位点(RE2)可以过于接近RE1位点;
[0161] (iii)两个RE1位点之间没有RE2位点。(当使用非特异性核酸酶或机械片段化时, 这不适用)。
[0162] 若适用任何上述限制,则可以从寡核苷酸探针组中省略针对该特定RE1限制性片 段或其末端的寡核苷酸探针,但是寡核苷酸组仍会含有针对"基本上所有" RE1-侧翼位点的 寡核苷酸探针。
[0163] 分析
[0164] 一旦已经对片段富集那些代表"相互作用"的片段,可以通过测序表征参与相互作 用的核苷酸序列。
[0165] 可使用已知的技术,如11 lumina系统实施成对末端测序。
[0166] 可以将衔接头序列优选在步骤(f)前或不太优选在步骤(f)后与来自(e)的核苷酸 序列片段的一个或两个末端连接,从而可在阵列上捕获连接的核苷酸序列片段,对其扩增 和/或测序。衔接头序列可提供地址以在同一阵列上分析几个样品(即多路复用)时识别样 品。有可能在Illumina仪的一条道中多路复用8份样品,目前每道产生± 1.5亿个序列读出。
[0167] 更为详细地,可以对片段进行末端修复和A加尾,并且将索引化(indexed)衔接头 与经A加尾的DNA片段连接。
[0168] 可捕捉、洗脱和PCR扩增所得的经衔接头修饰的DNA文库。在本发明的方法中,可以 不在富集步骤(步骤(f))前对片段进行PCR扩增。
[0169] 然后,可通过已知的技术(例如使用IIlumina簇试剂和HiSeq 2000测序仪)进行簇 产生和高通量测序。
[0170] 可以通过产生二维热图可视化相互作用频率,如先前描述的(Liberman-Aiden等 (Science 2009 326:289-293;Dixon等(2012,如上文)。可以通过以与连锁不平衡图相似的 方式鉴定源自每个基因座的对角线相交的偏轴点来可视化任何两个基因座间的相互作用 频率。
[0171] 图上的每个点代表两个片段(紧密接近的两个片段)间的相互作用点。图上的每个 相互作用点的强度相对于其代表的片段的相互作用频率/接近性。对角线上的点代表自身 连接效应以及与紧密邻近片段的连接。可视化基本上是矩阵分析。
[0172] 样品
[0173]样品可以是包含DNA的任何物理实体,所述DNA被交联或能够被交联。样品可以是 或可以源自生物学材料。
[0174]样品可以是或者可以源自一种或多种细胞、一种或多种细胞核、或一种或多种组 织样品。实体可以是或者可为可源自存在DNA (如染色质)的任何实体。样品可以是或者可以 源自一种或多种分离的细胞或一种或多种分离的组织样品,或者一种或多种分离的细胞 核。
[0175] 样品可以是或者可以源自活细胞和/或死细胞和/或核裂解物和/或分离的染色 质。
[0176] 样品可以是或者可以源自患病和/或非患病受试者的细胞。
[0177] 样品可以是或者可以源自怀疑患有疾病的受试者。
[0178] 样品可以是或者可以源自要测试他们将来会患有疾病的可能性的受试者。
[0179] 样品可以是或者可以源自存活或非存活患者材料。
[0180] 可以将标准样品添加至每个实验样品(掺加)以容许不同样品间的更好比较,因为 可以使用掺加样品的序列读出标准化样品。掺加样品可以来自与实验样品不同的物种,以 容许在第一步时以细胞形式掺加,或者,掺加样品可以具有其自身地址或者当在规程中的 后来阶段掺加时来自不同物种。
[0181] 阵列
[0182] 通常,寡核苷酸探针组会在支持物上固定化或者在固体支持物(如珠)上捕获。支 持物(例如固体支持物)可以由多种材料制成,如玻璃、硅土、塑料、尼龙或硝酸纤维素。当附 着于固体支持物时,它优选是刚性的并且具有平坦表面。支持物通常具有约1-10,000,000 个离散空间可寻址区域,或细胞。具有约10-1,〇〇〇,〇〇〇或约100-100,000或约1000-100,000 个细胞的支持物是常见的。细胞密度通常是1平方厘米内的至少约1000、10,〇〇〇、100,〇〇〇或 1,000,000个细胞。在一些支持物中,所有细胞由寡核苷酸探针的合并混合物或寡核苷酸探 针组占据。在其它支持物中,一些细胞由寡核苷酸探针的汇集混合物或寡核苷酸探针组占 据,而其它细胞至少在通过合成方法可获得的纯度程度上由单一类型的寡核苷酸占据。
[0183] 对于识别>6bp识别序列的限制性酶,可以使用约2x 750,000个寡核苷酸探针的单 一阵列以在每个限制性位点的每侧的1个寡核苷酸探针覆盖例如完全人或小鼠基因组。
[0184] 溶液中的寡核苷酸探针
[0185] 溶液中的寡核苷酸探针可以含有可以在固体表面上捕获的模块,如含有可以通过 链霉亲合素珠捕获的生物素的寡核苷酸。溶液中的杂交可以是更有效的。
[0186] 捕获可以在杂交后发生。
[0187] 杂交
[0188] 如本文中使用的,术语"杂交"应当包括"核酸链经由碱基配对与互补链连接的过 程"。
[0189] 能够选择性杂交的核苷酸序列一般在寡核苷酸探针的长度里会与相应的互补核 苷酸序列是至少75%、85%、90%、95%或98%同源的。选择性是由杂交期间的盐和温度条 件确定的。
[0190] "特异性杂交"指在严格条件(例如65°(:和0.1133(:{^330 = 0.151恥(:1,0.0151柠 檬酸钠 pH 7.0})下分子仅对特定核苷酸序列的结合、双链化或杂交。严格条件是寡核苷酸 探针会与其靶序列,而不与其它序列杂交的条件。严格条件是序列依赖性的,并且在不同情 况中是不同的。较长的序列在较高的温度特异性杂交。一般地,非常严格的条件选择为在限 定的离子强度和pH比特定序列的热熔点(Tm)低约5°C。杂交温度是低于熔点(Tm)的温度,并 且杂交温度越接近Tm,杂交越严格,这意味着错配的DNA序列不会彼此杂交。寡核苷酸序列 应当过量超过基因组DNA以确保有效的,优选完全的杂交,从而确保定量的杂交。通常,严格 条件包括于pH 7.0至8.3的至少约0.01至1.0M Na离子浓度(或其它盐)的盐浓度。也可以通 过添加去稳定剂,如甲醛或四烷基铵盐(tetraalkyl ammonium salt)实现严格条件。
[0191] 本发明现在会通过实施例进一步描述,所述实施例意图用来帮助本领域普通技术 人员实施本发明,并且不以任何方式意图限制本发明的范围。 实施例
[0192] 实施例1:T2C鉴定已知的长范围相互作用
[0193] 为了测试方法并且将其与其它方法比较,发明人首先选择人染色体11上的IGF/ H19区,其先前已经用于研究粘结蛋白和CTCF对于染色体长范围相互作用的作用,并且关于 该IGF/H19区的Hi-C和4C数据已经可用于比较(图2)。
[0194] 设计一组基于阵列的寡核苷酸,它们在覆盖H19基因座的约2.1Mbp区的所有Bglll 片段的末端附近定位,总计为对应于344个Bglll片段的524个寡核苷酸。许多Bglll片段不 容许设计代表末端之一的寡核苷酸,因为序列是重复的或者4bp识别酶位点(Nlalll)太接 近Bglll位点或者从Bglll片段中完全缺乏。将交联的经Bglll限制的DNA连接,去交联,用 Nlain酶消化,并且在去交联后与寡核苷酸阵列杂交(参见方法)。
[0195]如对HiC使用的首先用基因组的40kb框并法(binning)分析测序的连接产物证明 了T2C揭示与由Dixon等((2012),如上文)对IMR90细胞观察到的相似的总体相互作用模式 (还观察到区域外部或与其它染色体的相互作用,但是没有显示)。这也与不同细胞系间的 总体构造特征,如拓扑学域的先前观察到的保守相一致(图2A+B)。
[0196] 然而,凭借T2C,获得限制性片段分辨率的相互作用图(图2C),这就区域的一般染 色质构造和基因与其调节元件之间的接触而言揭示了更多详情。为了比较T2C的此染色质 结构信息,将该数据与4C数据比较,并且绘制对特定的CTCF观察点获得的4C数据,紧邻于对 T2C数据中存在的相同观察点观察到的相互作用数据(图2D)。
[0197] 虽然个别相互作用的读出覆盖有一些变化,但是可以通过4C和T2C观察到相同的 相互作用。因此,T2C方法产生可重复的结果,忠实地检测相互作用(或者紧密接近)的片段, 清楚再现拓扑学域中的总体基因组结构,并且给出对6bp识别限制性片段预期的4-5kbp左 右的分辨率。
[0198] 实施例2:基于不同生物学材料,T2C鉴定不同相互作用网络
[0199] 为了还测试不同基因表达状态是否可以在具有不同染色质相互作用的不同生物 学组织中检出,在来自E12.5小鼠的小鼠胎肝的体内小鼠原代红系细胞和小鼠胎脑细胞中 应用T2C。使用充分研究的β-珠蛋白基因座作为基因周围的约2MB的区域中的一个例子。完 善建立的是,由于与胎脑细胞相比,珠蛋白在原代红系细胞中更高度表达,在此细胞类型 中在基因周围和基因和其基因座控制区(LCR)之间预期更密集的相互作用数目。用Hindlll 作为6bp酶消化β-珠蛋白区,并且设计799个寡核苷酸探针以覆盖基因座中的HindllI片段 的末端(724个片段,其中许多是重复的),并且在交联后用DpnII再消化。
[0200] 在用DpnII切割后分析杂交的片段显示了小鼠原代红系细胞和小鼠胎脑细胞两者 中感兴趣的区域(~2MB)中的5个拓扑学域,每个拓扑学域内有许多相互作用。拓扑学域也 彼此相互作用,提示了基因组的可能高级结构为一系列玫瑰花结样结构。虽然不同生物学 材料间的拓扑学域数目似乎是相同的,但是与小鼠原代红系细胞相比,拓扑学域之内和之 间的相互作用在小鼠胎脑细胞中似乎不太密集(图3)。对所有β-珠蛋白区的放大显示了胎 肝材料中的β-珠蛋白基因座中的所有已知的相互作用。清楚地可视化所述相互作用,如β-珠蛋白启动子和LCR之间及LCR-3 ' HS1之间的(图3)。这些是胎脑样品中缺乏的。此外,可能 鉴定比直到现在对β-珠蛋白启动子报告的相互作用更远离的新的其它相互作用。这些定位 于距β-珠蛋白启动子远达~IMbp。
[0201]还比较胎肝细胞中的重要调节转录因子(LDB1复合物或结构因子CTCF)的结合位 点的相互作用。当与胎脑细胞相比时,LDB1在小鼠原代红系细胞中在β-珠蛋白基因座及其 LCR上高度富集。通过仅可视化含有LDB1或CTCF转录因子结合位点的限制性片段,如通过 ChIP-seq测定的(例如Soler等(2010)GenesDev;24(3):277-89),可能立即推断出所有相 互作用中的哪些相互作用牵涉LDB1复合物或CTCF(图4)。还清楚的是,当与小鼠脑细胞相比 时,在小鼠原代红系细胞中,更多的LDB1占据的限制性片段与基因座中的其它位置具有相 互作用(图4)。另外,当与胎脑相比时,紧密接近的两个片段间的距离的均值在胎肝细胞中 更大,表明基因组的此区域在胎肝中不太凝聚(图5)。
[0202]因此,T2C是一种可用于检测拓扑学域和该域内的不同相互作用的工具,这取决于 基因的表达状态,如原代胎肝细胞中的活性珠蛋白基因座对胎脑中的相同沉默基因座。 另外,高水平的相互作用分辨率容许新的观察结果,如对珠蛋白基因座LDB1结合位点和 环大小显示的。经由相互作用信号的变化,如例如由DNA缺失引起的β-地中海贫血中的基因 座内的缺失会立即可见。
[0203] 讨论
[0204]染色质相互作用在基因调节中的作用的重要性是完善建立的。然而,越来越需要 一种快速、容易且负担得起的技术来提供关于相互作用和基因组的区室化的信息。T2C满足 这些需要。每个限制性片段可以充当"观察点",并且可以鉴定所有其相互作用,短或长或对 其它染色体(本文未显示)。如此,不必进行多个3C_seq、4C或5C实验。此外,凭借T2C,可在不 需要HiC需要的大量序列努力(这显著增加成本)的情况下在感兴趣的区域中鉴定基因组的 区室化。
[0205]由于T2C的设计,当与其它技术相比时获得了基因座的更好的覆盖和分辨率。T2C 的分辨率基于使用的限制性酶。用Hindll I或Bgl II消化来自原代红系细胞和HB2细胞的交 联的染色质分别导致2.9Kb和6.1Kb的平均分辨率。这提供了比用HiC获得的常见40Kbp聚类 显著更好的分辨率。此外,为了测序目的通过在连接到片段上(在杂交前的第二次切割后) 的寡核苷酸中添加合适的地址容许不同样品对相同寡核苷酸组的多路复用,因为地址序列 鉴定衍生它的样品。多路复用进一步降低T2C的成本。
[0206] 此外,比较T2C与3C-seq和HiC(对于Igf2基因座)及与先前对β-珠蛋白基因座发表 的3C_qPCR数据,鉴定出相同的拓扑学域和相互作用网络。所有这些揭示T2C作为鉴定基因 组的特定区域的所有相互作用和区室化的工具的长处。
[0207]如此,T2C是一种负担得起的、划算的工具,以在不需要费力工艺或大规模测序努 力的情况下探索基因组的局部空间构造和染色质相互作用。
[0208] 用于实施例1和2的材料和方法
[0209] 染色质分离和文库制备
[0210] 将来自小鼠胎肝E12.5的小鼠原代红系细胞、小鼠胎脑细胞和人乳腺内皮细胞 (HB2)的细胞核分离并交联。用6-切割剂(对于小鼠细胞的Hindlll和对于HB2细胞的Bglll) 消化染色质,连接,并且去交联。从所得的文库中,用常见的4-切割剂(对于小鼠细胞的 DpnII或Nlalll,对于HB2细胞的Nlalll)消化50yg DNA。根据先前描述的3C-seq方案 (Stadhouders,R.等.Nat Protoc 8,509-524(2013))进行所有这些步骤。
[0211] 设计用于β-珠蛋白基因座的微阵列,其含有尽可能接近跨越基因(chr7: 109875617-111971734,mm9)周围的~2MB的Hindlll限制性位点的独特寡核苷酸。对于Igf2 基因座,设计独特的寡核苷酸,其接近跨越~2 . 1ΜB区域的BgIII限制性位点(ch 11 : 1091427-3228670,hgl9)。通过配对末端测序对通过在微阵列上杂交富集的连接产物进行 测序,对于第一种或第二种设计分别产生超过1亿个独特的读出对。
[0212] 制备最终的文库以在Illumina Cluster Station和HiSeq 2000测序仪上根据具 有修改的Illumina TruSeq DNA方案(www. illumina. com)分析。简言之,使用AMPure XP珠 (Beckman Coulter)纯化20yg经消化的文库,并且进行末端修复。在存在ATP的情况下使用 Klenow外切酶对现在的平端片段进行A加尾,并且使用AMPure XP珠再次纯化。将索引化的 衔接头(I1 lumina)与经A加尾的DNA片段连接,随后使用AMPure XP珠纯化。
[0213]阵列捕获
[0214]于42°C在定制的NimbleGen Sequence Capture 2· 1M捕捉阵列上根据NimbleGen Sequence Capture阵列方案( www.nimbiegen.com/seqcapez)在NimbleGen杂交系统上杂交 所得的经衔接头修饰的DNA文库达64小时。从杂交的阵列洗脱捕获的DNA片段,并且使用 MinElute柱(Qiagen)纯化。通过如下使用Phusion聚合酶通过PCR扩增捕获的DNA片段:于98 °C 30秒,24个循环(于98°C 10秒,于60°C 30秒,于72°C 30秒),于72°C 5分钟最终延伸。使 用AMPure XP珠纯化PCR产物,并且在30μ1重悬缓冲液中洗脱。使用DNA1000测定法在 Agilent Technologies 2100Bioanalyzer上加载1微升以测定文库浓度并检查质量。
[0215] 簇产生和高通量测序
[0216] 根据Illumina簇试剂制备方案(www. illumina. com)进行簇产生。简言之,将ΙμL 10nM TruSeq DNA文库储液用NaOH变性,稀释至9-10ρΜ,并且杂交到流动池上。根据 Illumina成对末端测序用户指导方案,将杂交的片段序贯扩增,线性化,并且末端封闭。在 测序引物的杂交后,使用HiSeq 2000测序仪用101个循环的方案根据制造商的方案进行合 成测序。使用HiSeq 2000将经测序的片段用NaOH变性,并且将索引-引物杂交到片段上。用7 循环方案对索引测序。将片段用NaOH变性,序贯扩增,线性化并末端封闭。在测序引物的杂 交后,使用HiSeq 2000测序仪用101循环方案进行第三个读出的合成测序。
[0217] 实施例3:测定基因组的3D结构:
[0218]基因组的动态三维染色质构造和与其功能的明显共-进化联系(遗传信息的存储 和表达)在约130年的集合研究后仍然是当代的中心问题之一。在此实施例中,首次可以借 助组合所有物理基因组相互作用(HRHTiCIC 2)的新型卓越选择性高通量高分辨率染色体相互 作用捕捉、标度分析和聚合物模拟的已有视觉手段从几个到兆碱基对水平直接测定小鼠和 人基因组的详细3D构造:清楚存在的且差异压缩的染色质纤维折叠成~30-150kbp的环,该 环形成通过接头连接的~500-1500kbp的限定环聚集体/玫瑰花结(亚染色体域)。存在复杂 (螺旋)环和环-环构造,并且相互作用在不同细胞类型或功能状态之间仅在微小但是显著 的程度上变化。另外,标度分析证明显示了DNA序列和基因组构造之间的紧密进化牵连。因 此,这最终打开了通向基因组的详细构造"测序"及由此在"基因组不确定性原则"的限制上 真正的系统基因组学的路径,其整个对于基因组理解及诊断和治疗的R&D有基础的重要性。
[0219] 尽管事实上基因组的结构和功能作为不能分开的系统明显共进化以容许遗传信 息的物理存储和表达,基因组的动态学三维高级构造、其空间和时间修饰,或其与功能性多 维相互作用和调节网络的关系从17世纪由A.van Leeuwenhoek发现细胞核起和许多其它新 近的里程碑结果:C.W. !^^8丨丨(1842)/1.!1〇伽6丨8七641848)对中期染色体,]\^68(31^^(1869) 对DNA,R · E · Frankl in,L · C · Paul ing,J · D · Watson,和F · Η· Crick,( 1953)对DNA双螺旋, 尺.1(〇?^6坪(1973)/^.01丨118&0.01丨118(1974)对核小体,和1(丄1^641997)对核小体的30结 构的发现/描述,直至千禧年之交对整个人基因组的测序都尚未得到详细确定。另外,变得 明显的是基因组构造和功能实际上建造系统基因组(Knoch,2003)实体,其负责基因表达, 由此负责个体和其疾病史间的内在差异以及功能性环境基因组变化的接受者,并由此负责 最终外部疾病原因。
[0220] 基因组的大小、结构和复杂性跨越从ΚΓ9至1〇Λι和10-1()至10 5s的标度,如此导致巨 大的实验挑战:核小体已经如何被间隔、定位、重建模,以及核小体链在生理学盐浓度时是 否/如何折叠成纤维是不断讨论的事情:例如Finch和Klug(1976)提出规则螺线管,体内中 子散射实验揭示了 30 ± 5nm的纤维直径为占优势的核特征,近来与根本无压缩,或高度多态 性和动力学功能依赖性结构形成的对比,在没有所述结构的情况下核小体浓度分布、作为 大分子扩散的动力学和功能特性、和DNA序列的标度是不能解释的。
[0221] 超过一个世纪以来,高级染色质构造已经成为甚至更大讨论的事情:Rabl(1885) 和B〇veri(1909)的光学显微研究产生分层自相似模型,这表明了区域性构造,之后电子显 微术表明了更随机的分裂间期构造,如在Comings (1968,1978)和Vogel&Schroeder( 1974) 的模型中。在Paulson&Laemmli( 1980)的放射-环-骨架(radial-loop-scaffold)模型中,附 着于核基质/支架的染色质环应当解释中期染色体的凝聚程度。根据Pienta&Cof fey (1977, 1984发表),这些环在分裂间期中持续,并且在中期中形成堆积的玫瑰花结。C.Crem er& T · Cremer( 1974,1982)的微照射已经确认并且C · Cremer&T · Cremer( 2001 ),P.Lichter (1988)及此后的出版物的荧光原位杂交(FISH)最终确认分裂间期期间染色体、其臂、和亚 染色体域的区域性构造,包括其在中期(去)凝聚期间的结构持续性(~2500个亚染色体域 中分开的~850个G、Q、R和C染色体模式图(ideogram)条带)。然而,通过电子显微术可视化 染色质玫瑰花结在西半球没有严肃米纳(Erenpreisa, 1989,Belmont&Bruce( 1994)基于电 子显微术也提出了螺旋层次染色线纤维(CF)模型,用于内-(亚-区域性折叠。大致在相同时 间,小FISH标记遗传区之间的空间距离测量由于建筑"破坏"而产生随机步移/巨大环(RW/ GL)模型及Sachs第一次分析性成环聚合物描述(1995 ;Yokota,1995 ;Yokota, 1997 ;Knoch, 1998;1(11〇(*,2002),其中1至51?^环附着于非蛋白质主链。此后,使用结构保持?13!1技术、高 分辨率显微术、和染色体和整个细胞核的巨大平行聚合物模拟的距离测量的组合仅可产生 玫瑰花结多环亚区室(MLS)模型,其中60至120kbp环形成由相似接头连接的玫瑰花结。再一 次,核小体浓度分布的体内测量,和作为大分子扩散的动力学和功能性特性仅与小环聚集 体/玫瑰花结样染色质折叠相容,并且DNA序列的标度也预测这点,因为否则本文发现的模 式以其它方式不能解释。
[0222]另外,由于物理相互作用在功能性化学反应及因此过程链的中心,变得明显的是 含有转录因子的几个结合位点的短调节元件经常经由巨大基因组分离调苄基因转录,如此 其(物理)相互作用可能性的所得变化造成基因表达的变化,因为此类结构(例如环)的预先 形成的构造或修饰或新形成与空间接近,以及因此变化的相互作用可能性有关。通过逻辑 推理似乎也已经明显的是,在这些结构的形成中,转录级联的因子似乎直接或者作为双重 或多重用例(use case)发挥重要作用,如例如CTCF或粘结蛋白。因此,已经变得明显的是, 基因组构造和功能性调节两者都是经由转录级联在基因组上负责的系统,不仅造成个体和 其疾病史间的内在差异,而且继而也是功能性环境基因组变化的接受者及因此最终外部疾 病原因。
[0223] 为了测定是否存在i)局部或多或少压缩的染色质纤维,ii)在环聚集体/玫瑰花结 中折叠(与所有这些实验,和就从几个至兆碱基对水平的基因组"活"循环而言的每个功能 性要求一致是否存在此构造的一般标度行为,iv)与DNS序列自身的长范围关联一 致,以及这是否与v)新的体内测量一致,开发出所有物理基因组相互作用(万物与万物)的 新的选择性高分辨率高通量染色体相互作用捕捉方法:HRHTiCIC 2,其还开启了对基因组的有 效且便宜的构造测序以进行诊断和治疗的路径,本质上(参见补充方法):i)以约1〇 7个培 养/制备细胞开始,i i)用甲醛固定细胞(即形成DNA-DNA、RNA-RNA、DNA-RNA、蛋白质-蛋白 质、DNA-蛋白质、RNA-蛋白质和更复杂的基因组交联透化以容许用第一限制性酶的 核内限制,iv)通过提取交联的片段进行大幅稀释以容许主要在这些复合物内的再连接,之 后v)去交联,纯化,并且最终通过第二高频率限制性酶或者通过超声处理(对于最高分辨 率)将DNA嵌合片段缩短到<500bp的大小。然后,vi)使用每个独特且杂交优化的寡聚物具有 ~10 9-101()个分子(即,捕捉总是在线性方案中,并且远离饱和)的DNA捕捉阵列(珠捕捉也是 可能的)生成干净的区域HRH TiCIC2DNA相互作用片段文库,所述DNA捕捉阵列序贯紧靠第一限 制性酶直接放置。vii)在高通量测序后,修整获得的序列以仅含有直到第一限制性酶的序 列片,然后首先定位到全参照基因组,并且在使用两种限制性酶的情况中也针对仅含有第 一和第二限制性酶之间的区域的掩蔽序列,以最终仅使用100%独特定位的序列。
[0224] 此新的选择性HRHTiCIC2方法具有极大的优点:i)与现在的其它相互作用捕捉技术 相比限制因素仅仅是测序能力/成本和第一限制性酶的分辨率、捕捉区的大小、相互作用频 率范围、和多重化实验的数目之间选择的关系:例如~500bp片段分辨率,在2Mbp区中,以1-1〇 6相互作用频率范围,和10-100倍多路复用可容易地实现,测序10-100道(注意:几个区域 也可以存在于一个捕捉阵列上hii)由于寡聚物位置的设计,达到数据清洁(cleanness)最 大值及因此最小测序情况下的最大相互作用信息。iii)另外,已经对整个过程优化结构保 存(参见补充方法),其是也在高分辨率FISH期间的点,其中已有的略微差异在历史上已经 导致不同染色体模型。这还包括使每个步骤中的扭曲和DNA损伤最小化,其经常通过精密/ 精细的实验室/台式操作实现。值得注意地,在本文的测序前不牵涉已知的结构扭曲、(成本 驱动性引物)或PCR步骤。
[0225] 另外,凭借下至50-100bp的可能的片段长度(游离DNA的持续性长度平均~50nm或 ~140bp;典型的蛋白质/核小体结合位点~200-500bp),不仅达到此方法的基本限度,而且 更重要的是,本文引入基因组不确定性原则,其起源于与时间上给定时刻的每个细胞的独 特个别概率片段背景/条件/环境的每个高分辨的相互作用的个体性(其被测量破坏),因此 引入不确定性原则的经典定义:i)细胞群体已经具有细胞状态和功能差异的分布,ii)每个 片段具有或多或少动态的(如此稳定的或可变的)个别的DNA、RNA、蛋白质、限制联合,如此 整个交联、限制、和再连接具有不同的个体效率,并且当然,iii)与寡聚物杂交捕捉、测序和 定位相关的DNA序列也添加于此。如此,最后,仅可以引出概率分析和叙述,如一般从量子介 观系统已知并且从经典的光双缝实验已知。目前,还没有用于任何明白的校正的手段,因为 至少目前,影响因素 /参数的实际状态是无数的,不能计算的(尤其是由于其非线性)、对于 每个单一片段是不同的,以及除此之外被测量破坏。任何相互作用捕捉种类总是如此,尽管 效应被低分辨率平均(容许虽然无意义,但是在其效应上不是有害的校正),但是现在达到 基础限度。这开启了以前所未有的洞察力在此基础水平上以其完整性和美丽察觉在所有这 些效应上整合的相互作用信息的机会。
[0226] 为了以必要的分辨率和生物学影响调查染色质纤维构象和3D构造,选择人染色体 1 lp 15.5-15.4,即IGF/H19区和小鼠染色体7qE3-Fl,即β-珠蛋白区,因为这两个~2. IMbp 区域都是典型的,通过表遗传和局部控制区调节的FISH和3C例子完善研究的。通过使用Bgl II和Hind III作为第一限制性酶和Nlalll作为第二限制性酶,这产生许多下至~200-500bp的片段,平均值分别为6121和2915bp。为了研究甚至更高的分辨率,然后以较高的分 辨率分析染色质纤维构象,一般地,我们还以~50至500bp以及至平均片段大小549bp大致 (及以低测序覆盖)调查了 10个不同小鼠染色体上的总共99.5Mbp的15个区域。如此,我们达 到分子和核小体(平均核小体重复长度约200bp,如此3-6kbp平均对应于~15-30个核小体) 和甚至亚核小体分辨率,并因而即基因组不确定性原则的水平。为了调查物种、细胞系之间 的差异和功能/构造差异,使用人HB2细胞系和粘结蛋白可切割的TEV/HRV RAD21-eGFP细胞 系系统(未切割的和经切割的粘结蛋白,Zuin等2013PNAS,印刷中),和小鼠胎脑(β-珠蛋白 无活性)和胎肝(β_珠蛋白活性)细胞。为了调查染色质纤维形成,也使用胎肝细胞。凭借涉 及测序的~1〇 7个输入细胞,在捕捉阵列上多路复用相应的材料(例如两种不同状态)以保 证相等的条件。在相同测序运行或不同运行中测序一道或两道。由于各种效应,仅对具有合 理错配率(以造成对参照基因组及在参照基因组中的测序差异/误差)的整个基因组中独特 的序列清洁仅在第一和第二限制性位点之间定位的序列。
[0227] 如此,以对数和彩虹颜色频率范围在垂直平方相互作用矩阵(具有两个镜像三角 形半部)中分类和绘制区域性相互作用直接显示了实验自身的有效性和一般跨越6个数量 级和排除对角线为4-5的前所未有的频率范围分布。如此,还可以在区域大小、片段分辨率 和测序努力的此背景中可视化具有10- 4至10-5的频率的罕见相互作用。改变此关系,这可以 容易地增加 2-4个数量级。另外,相对于~107百万/兆(million)个输入细胞的每个片段的 平均累积条目的关系显示HRHTiCIC 2的估计的~0.1-1.0%效率。另外,模式清楚显示了达到 某个水平,其中统计学限度中的不确定性原则达到稳定概率水平,因为来自无论多路复用 与否的相同实验的不同测序道的图像仅显示微小的统计学偏差。
[0228] 通过视觉手段自T2C测定3D结构
[0229] 不同实验的所有相互作用矩阵是可再现的,可再现或多或少空的,即没有突出的 一致的噪音或背景,尽管序列读出数目较高且尽管大多数对角元素显示非连接或自身连接 的片段的条目,并且因此证明了捕捉寡聚物是存在的并且起作用。"空"也是清楚构造而非 任意的,并且在极高的详细程度上在重复中似乎是相同的,即既不是统计学上突然出现的 相互作用,也不是在接近更显著的相互作用的某处统计学聚簇的。如此,考虑来自明确>1〇 4 个细胞的信息经历规程后存在,噪音原则上可以在规程的任何步骤时出现,并且甚至假设 正常分布的噪音信号朝着例如相互作用的不可能高度偏好的扭曲,信噪比必须是>105-106。
[0230]甚至已经在视觉上更令人惊讶的,相互作用自身在基因组分离的所有标度上就明 显不同模式的出现而言甚至更引人注目,并且甚至事实上模式一致在其它标度上出现或不 出现(它们必须进行这点,因为基因组是标度桥接系统),并且还立即显示了完整的T2C过程 实际上起作用,尽管牵涉大量且非线性的参数,因为引起此类模式的几率小得无法想象。与 已知观察点的第一次比较揭示了 T2C与例如3Cseq的一致,尽管对于相同片段分布具有清楚 且明锐得多的相互作用,因为在T2C的情况下,不出现相互作用的PCR增宽。因此,现在可以 甚至更容易解读详细的相互作用模式。
[0231 ]通过视觉检查测定染色质纤维的构象:
[0232]在最小的基因组标度上,与较大的基因组分离相比,与基因组分离〈5-10kbp(即〈 25-50个核小体)的对角线平行的条带中明显有更密集的相互作用模式。此模式不随局部片 段分辨率而变化(不然,其需要进行考虑),并且与同质相互作用,例如高斯样相互作用"污 点"降低(对于增加的基因组分离)形成对比,由与中间的非相互作用性"缺口"的不同相互 作用组成。如此,因此,视觉检查已经直接显示了在此标度(DNA/核小体标度)上,存在稳定 而确定的相互作用,并且如此由于这些相互作用是空间接近的结果,指示了存在核小体压 缩成不规则但仍然局部限定的结构,即适用纤维的概念,其一般可以给予其变化名称具有 平均密度的"准纤维(quasi-fiber)"等。明显地,与同质的条带样亚模式形成对比,会产生 结构上每处地方完全相同且一致的纤维,如由螺旋染色质纤维模型提出,并且核小体的不 断动态随机步移也会以作为基因组分离的函数的Reighley分布相互作用减少产生同质相 互作用模式。如此,通过视觉检查,可以直接读出染色质"准纤维"、其局部相互作用及如此 在整个T2C过程边界里自然取平均的压紧结构的存在。
[0233]通过视觉检查测定亚染色体结构域:
[0234] 在最大的标度上,也立即可见在几百至~1-1.5Mbp范围中的准样(square-like) 域的出现,具有尖锐的边界和与其它域的相互作用(尽管与小鼠的情况相比更主要在人类 中),具有几个显著的一般特性:第一,对于忽略其亚结构的时刻而言域内的相互作用频率 一般在与限定各亚域间的相互作用的另一个一致高度的边缘具有平均一致高度和下降。如 此,与经常认为随增长的基因组分离而一般连续的相互作用降低和清楚而确定的与其它域 的相互作用形成对比,有相互作用的楼梯样行为。第二,在域的边界,存在有域间的清楚过 渡或接头区,尽管域间的相互作用是特别强且复杂的,因为接近对角线,染色质准纤维也开 始起作用,并且因为接头就结构而言是非常柔性的。因此,这些结果再次证明结构稳定的亚 染色体单位的存在,其是相对稳定的,并且在其边界上彼此特别好地相互作用,如历史观察 点中描述的。另外,已经在此水平上,域内的平均一致相互作用和边界处的尖锐下降非常清 楚指示已经朝向通过接头连接的域的环-聚集体和甚至玫瑰花结样结构,因为一个大环、随 机步移或分形小球体样折叠都不会导致本文发现的尖锐边缘和限定行为。
[0235] 通过视觉检查测定染色质高等结构(即染色体的环/聚集体/玫瑰花结折叠)的构 象。
[0236]在中等标度上并且如此在亚染色体域水平上,相互作用模式的特征在于相互作用 间再次明显不同的缺口,其以交叉的线性或网格样模式排布。令人感兴趣地,线性模式在亚 染色体域外部继续,并且在那里与源自后续亚染色体域的线性模式"交叉"。另外,域外部的 一般较低的一般相互作用频率水平和那里看到的不太复杂的相互作用模式容许将线性模 式返回域,这揭示了域内存在也明显在外部的简单/清楚得多的模式,但是那里富集并且由 于其它相互作用变得更复杂。现在可以顺着此线返回对角线,并且采取这作为接下来的相 关相互作用(可以水平上追踪它再次从外部到域中)垂直跟随的起始观察点。然后,在对角 线上再次水平定位作用点。将此重复在对角线上给出第二个相互作用点,现在可以证明在 大多数情况中,此第二相互作用也与第一以及因此起始点相互作用。如此,可以手动构建相 互作用的网格。这可以通过垂直和水平投射相互作用增强,导致沿着染色体序列的峰样模 式,其峰与交叉的线性模式一致。与小鼠情况相比,这在人类中更明显。由于特别地,认为并 且可以仅认为在数十个千碱基对的标度上的相互作用是染色质成环,这意味着环基部通过 相互作用可视化的几个连续环具有重合的环基部,即具有核心的环聚集体,并且如此也是 具有或多或少清楚核心的环的玫瑰花结。相互作用间的缺口和网格样模式也显示了无其它 折叠样随机步移巨大环、染色体样、或分形小球体模式不能是那点的起源,因为它们全部会 导致同质的相互作用模式,而没有清楚的域边界和明显没有不同的域边界。对准染色质纤 维的非压紧也会如此,大量核小体构造会预测这点,导致巨大且非常动态的相互作用可能 性。值得注意地,不同标度上的数据结构也证明了在所有标度上相互作用实际上可以进行 交联,并且依赖于不同基础的可交联剂的假设是正确的,如此特定DNA位置或蛋白质等之间 的交联创建此类模式的假设是非常不可能的。另外,简单模式是更复杂的,由于染色质的压 缩密度的变化及下述事实,在环内发生各种形式的其它相互作用:在较大标度上,简单环或 甚至超螺旋样模式似乎可能,而在较低标度上,大环碱基相互作用周围的模式指示玫瑰花 结核心的结构和局部染色质压缩及那两者的牵连。虽然进行在最高分辨率的实验以一般性 更详细调查染色质纤维构象,并且如此牵涉不太深的测序,但是这些数据的总体评估实际 上导致发现可以归因于环聚集体/玫瑰花结的几个此类结构和具有导致特殊相互作用模式 的进入和外出环的详细核心结构。如此,域间的相互作用及其模式可以归因于两种起源:在 一方面,随后域的环聚集体/玫瑰花结核心可由于相对较小的环数目及由此密度和环动力 学而非常容易相互作用。另一方面,在细胞群体中,还有有丝分裂染色体,其中凝聚程度通 常非常高。如此,所述模式一致地解释了经由细胞周期的构造和其动力学两者,并且再次, 这仅在压缩的染色质纤维的情况下可能,因为否则,聚集体/玫瑰花结核心之间的核心相互 作用会通过聚合物纤维排阻而被遮蔽。
[0237] 通过视觉检查测定3D结构,作为不同细胞类型、或细胞的处理/治疗、或患病状态 的函数:
[0238] 为了调查由于调节或有意系统扭曲一般作为物种、细胞类型、区域、功能或结构差 异的函数的构造变化,调查人IGF/H19 1 lp 15.5-15.4区,和小鼠 β-珠蛋白7qE3-Fl,在人 HB2和TEV/HEV细胞,和小鼠胎脑(FB)和胎肝(FL)细胞中:一般的域在HB2、TEV、HEV、及FB和 FL细胞中,且因此在相同物种的不同细胞类型中明显相同,但是至少由于选择的区域而在 人和小鼠间不同。与TEV/HEV系统相比,人HB2细胞详情的更精细程度似乎显示域内更多且 更密集的相互作用模式。比较FB与FL细胞没有显示此类明显的差异:实际上,非常细微的差 异经常属于单一相互作用或较小的一组相互作用,如可以对β-珠蛋白基因座显示的,其中 形成额外的环,如从较早的实验预测的。不过,本文的术语小是相对的,因为此类单环形成 实际上激活β-珠蛋白转录,即整个途径及如此整个细胞特性可以被改变。另外,然而,切割 TEV/HEV系统中的粘结蛋白(据称在基因组构造中发挥重大组成性作用)也不导致动态变 化,实际上仅略微越来越均匀扩散的相互作用,表明了略高的柔性/动态构造,但是不如先 前在全基因组分析中认为的一样大。如此,粘结蛋白不能是单一且明确不是主要/单一组分 负责试剂,而取而代之明显是影响/形成基因组构造的几种组分之一,并且显示了基因组构 造的柔性和稳定性之间的进化平衡。因此,这些变化不仅显示了不同条件下T2C及其分析的 可再现质量,并且存在清楚的一般基因组构造,而且基因组不确定性原则的达到的水平本 质上局部每个细节上是被认为精细调节系统的极大主题的变化。如此,明显地,在仅~2Mbp 大基因组区中,存在相互作用数据的财富以详细仔细分析。
[0239] 与T2C比较通过蒙特卡洛和布朗动力学模拟测定3D染色质高等结构
[0240] 为了独立且以更清楚的方式在预先设置的条件下在所有标度上探索并了解此行 为,目前已经开发出聚合物模型以评估(不是拟合)一般的实验结果,设计和关于三维基因 组构造的假设。那里,分辨率基于可伸展、可成带的聚合物区段,和体积排阻,其具有与~1-2.5kbp相当的分辨率,并且以大环(0.5-5. OMbp)通过类似柔性主链的接头连接的随机步 移/巨大环模型为特征,并且以具有玫瑰花结样聚集体(〇.5-2Mbp)的多环亚区室(MLS)模型 为特征,所述玫瑰花结样聚集体具有由可变长度(60-250kbp)的接头连接的较小环(60-250kbp)。这些模拟得到增强,并且首次用极高的统计学有效性计算二维空间距离和相互作 用缺口(对于不同交联可能性和程度)。视觉比较立即揭示了所有上文描述的效应解读与模 拟一致,并且另外相互作用是所有模型参数的函数,甚至略微详细考虑无本文建模的核小 体:i)一般地,相互作用程度依赖于相互作用和交联可能性,ii)域大小、域分离、和环间隔 与其大小成比例,iii)域间的相互作用依赖于接头大小、环的大小和数目,即玫瑰花结的密 度。如此,由于环大小、环数目、染色质纤维持续性导致玫瑰花结的密度的微妙组合,因此最 终导致所得的排阻效应(对于高数目)扩展和玫瑰花结的遮蔽效应,以及对整个域间的相互 作用模式的微妙影响。域间的接头及其与域间相互作用的比例性与非平衡效应一样好地清 楚可见,我们在本文有意显示所述非平衡效应以创建对聚集体/玫瑰花结边界的环的相互 作用及相似效应的了解。还有,相互作用矩阵的一般较大的空性和与存在专门的染色质纤 维的联系是明显的,并且还证明了交联可能性、半径、和频率可以评估为相对较低,尽管由 于关系含有过于复杂的参数集,不能毫无疑义适用。模型还清楚显示了玫瑰花结的环基部 的特殊行为,其实际上由于压缩变化而实际上可以是更复杂的,尽管具有最高分辨率的实 验显示了存在各种此类结构,但是将来必须以详细得多地调查。
[0241]通过自测定相互作用频率的标度行为测定T2C的标度行为,作为相互作用间的遗 传距离的函数并且与蒙特卡洛和布朗动力学模拟的标度行为和DNA自身中的长范围关联的 标度比较测定3D染色质高等结构:
[0242]为了以统一标度桥接访视调查自几个碱基对的标度,经由兆碱基对和亚域水平, 直至整个染色体及因此核(跨越10-9至l(T5m的标度)的标度的行为,我们引入标度分析,并 且显示了其能力:作为基因组分离的函数的相互作用频率的标度,给出的不同模拟模型清 楚显示了长范围标度,具有精细结构的多标度行为可归因于i)一般相互作用减少,即空间 距离增加,ii)亚染色体域样结构,iii)亚域中的聚集的环/玫瑰花结样结构。所有参数变化 可以在本文的标度上在改变的标度行为中再找到。这与标度的其它度量一致。如此,没有一 致的标度,如例如在自相似的分形桥接中看到,并且在所有标度上相同,但是其偏差显示了 域和环中的亚结构。
[0243] 不同区的标度行为与染色体亚组的标度行为比较,并且如此以与一般标度行为的 局部构造偏差占优势,并且也受到本文使用的相互作用量危害。不过,标度行为显示了 i)具 有精细结构的长范围多标度行为,ii)对于各种物种、细胞类型、功能/扭曲差异,具有细微 但不一般性的差异。
[0244] 相互作用频率的标度行为作为对整个基因组进行的不同发表实验的其基因组分 离的函数也显示了 i)具有精细结构的长范围多标度行为,ii)对于各种物种、细胞类型、功 能/扭曲差异,具有细微但不一般性的差异。然而,实验和建模的标度行为两者仅与具有环 聚集体(0.5_2Mbp)的环聚集/玫瑰花结样基因组构造一致,所述环聚集体具有通过可变大 小(60-250kbp)的接头连接的较小环(60-250kbp)。
[0245] 由于物理空间中接近的事情也应当在DNA序列空间中接近,由于所有种类的突变 会由于基因组构造自身而有偏倚,我们还通过可能的最简单关联分析调查了DNA序列的关 联行为,即两个不同人和小鼠完全测序品系的不同大小窗内的碱基对组成的均方偏差:i) 对几乎整个可观察的标度使用关联分析发现了长范围幂法则( power-law)关联,ii)用局部 关联系数,其显示了物种特异性多标度行为,在几个碱基对的标度上接近随机关联,从40至 3400bp的第一最大值,和从10 5至3xl05bp的第二最大值,和iii)第一和第二最大值中存在额 外的精细结构。一般且详细地,与小鼠情况相比,行为在人类中更强,但是在不同染色体内, 几乎相同并且对于某些染色体在稍大的程度上仅偏差。所有标度上的行为不仅在细节上等 同于基因组构造的长范围多标度,而且还在正确标度上等同。如此,发现的第二最大值在大 小和位置上对应于亚染色体域。尤其在精细结构水平上,先前已经在第一一般最大值上证 明的与核小体结合的联系现在也可扩展到第二最大值并且与如先前预测的其中的成环结 构联系起来。
[0246]另外,最高分辨率的相互作用标度显示了不同染色体间与相同最大值中的DNA序 列的标度行为相同的行为:尽管由于实验分辨率不能找到精细结构,在高于~4kbp的标度 上具有宽峰和较强相互作用降低的一般行为强烈提示了在相互作用实验和DNA序列两者 中,确实存在压缩的染色质纤维。
[0247] 用于实施例3的方法及T2C的详细描述:
[0248] HB2细胞系和细胞培养
[0249] 在补充有0.2mM L-谷氨酰胺,100个单位/ml青霉素、100mg/ml链霉素、10%FCS、5y g/ml羟基可的松、和10μg/ml人胰岛素的DMEM中培养HB2细胞(1-7HB2,人乳腺管腔上皮细胞 系MTSV1-7的克隆衍生物)。在先前的3C研究中,我们确认了几个区域的核型和DNA甲基化。 [0250] TEV/HRV细胞系系统和细胞培养
[0251] 可切割TEV/HRV RAD21-eGFP细胞系系统是HEK293T细胞系系统,其用编码可切割 RAD21-eGFP融合蛋白和用于内源RAD21敲低的siRNA的pRTS-Ι载体转染。两者通过多西环素 诱导的其间的双向启动子的激活而表达,并且因此同时表达。对于RAD2-eGFP融合蛋白,在 eGFP前插入可切割RAD21,其中基于PCR的诱变将第一 RAD21-分离酶(separase)切割位点替 换为人鼻病毒的3C蛋白酶(HRV蛋白酶)的切割位点(第二切割位点保持不变以确保较小的 细胞细胞毒性)。烟草蚀纹病毒蛋白酶(TEV蛋白酶)不识别HRV切割位点,如此可以充当对 照。内源RAD21敲低序列容许用下述3 ' UTR指导性s iRNA的敲低:
[0252] 5' -ACUCAGACUUCAGUGUAUA-3'(Sccl-1),
[0253] 5'-AGGACAGACUGAUGGGAAA-3' (Sccl-2)。
[0254] 为了生成TEV/HRV RAD21-eGFP细胞系系统,将初始HEK293T细胞系在补充有0.2mM L_谷氨酰胺、100个单位/ml青霉素、100mg/ml链霉素、10%FCS的DMEM中培养,并且于37°C和 5%C〇2培养。为了转染,遵循制造商的用法说明使用Lipofectamine 2000(Invitrogen)。通 过在含有150yg/mL潮霉素的培养基中生长选择携带载体的细胞。挑出单克隆,并且在用2μ g/ml多西环素诱导后3天分析RAD21c V和RAD21wt构建体的表达和内源RAD21的耗尽。所得的 TEV/HRV RAD21-eGFP细胞系同样在具有0.2mM L-谷氨酰胺的DMEM中于37 °C和5 % C02培养。
[0255] 对于实验并且为了用HRV(或充当对照的TEV,如此发生转染,但无切割)激活转基 因表达,在2μg/ml多西环素的情况下培养细胞3天。此后,分开细胞,再接种直到50%汇合, 并且再使用Lipofectamine 2000(Invitrogen)根据制造商的用法说明用HRV或TEV载体转 染。蛋白酶转染后24小时,使用细胞进行实验。
[0256]自小鼠的细胞制备
[0257] 对于小鼠胎肝和胎脑细胞,来自1至2只转基因 FVB/N小鼠的12.5天妊娠的~10个 胚胎用于实验需要的~1000万细胞以最后具有足够复杂的细胞群体和足够的DNA以进行测 序:用70%Et0H清洁小鼠,并且打开腹部以取出含有胚胎的宫颈,之后切开它们,并且从卵 黄囊和胎盘取出它们。弃去小的且发育不全的胚胎。在培养皿中在冰上在〇.5ml 10%FCS/ PBS的情况中收集胚胎。然后,从胚胎切出胎肝和胎脑,并且在冰上再在含有500μ1 10% FCS/PBS的管(1ml)中收集。然后,用P1000/lml塑料移液器尖端重悬细胞,并且通过添加25μ 1 2.5 %胶原酶储液(0.125 %终浓度)消化结缔组织,并且于37 °C温育~45分钟。此后,将细 胞悬浮液于室温转移到具有12ml 10%FCS/PBS的Falcon管,此后温和挤压通过刮板筛孔, 其再使用Pl〇〇〇/lml塑料移液管尖端置于6孔板内部。于室温用2ml 10%FCS/PBS清洗筛孔 以从筛孔得到所有细胞。于室温在具有终体积12ml 10%FCS/PBS的Falcon管中再收集所得 的单细胞悬浮液。值得注意地,我们尝试将细胞的应激(stress)保持于最小值,以避免对细 胞核的任何损伤。重悬、胶原酶处理后,和/或刮下胎肝和胎脑后,将材料/细胞在玻璃载玻 片上点样以通过显微术检查细胞和特别是核完整性,具有或没有用DAPI对核的染色(或最 后任何其它免疫荧光或荧光原位杂交)。
[0258] HRHTiCIC2交联/固定细胞
[0259] 为了交联/固定基因组和整个细胞,首先计数细胞,并且将其浓度于室温调节到 12ml 10%FCS/PBS中的1000万,并且放入15ml聚丙烯管中(用于细胞培养,并且如此不过度 吸附/固定细胞至管壁,Greiner Bio One)。然后,添加650μ1 37%甲醛roS溶液,即终浓度 1.9%甲醛用于交联/固定,于室温持续10分钟,同时柔和倒转以避免细胞聚集。注意:用于 此阶段的交联/固定的甲醛浓度对于随后的步骤以及就我们在这里使用的人和小鼠细胞的 细胞/核完整性而言是理想的;虽然这一般可以保持,但是已知其中其它浓度和温育时间实 现更好的结果的情况。如此,将管放置在冰上(从现在起,我们将每件东西置于冰上,直至 DNA的第一次限制(参见下文)以避免对材料的任何损伤),并且添加 PBS中的1.6ml冷1M甘氨 酸,以停止交联/固定反应。此后,以1300rpm于4°C向下旋转细胞8分钟,在冰冷的PBS中清洗 所得的团粒(pellet),并且首先在lml中吸出,之后添加到14ml PBS,接着再以1300rpm于4 °(:向下旋转8分钟。在弃去上清液后,现在还可以冷冻团粒以贮存,尽管我们建议立即继续 裂解和第一次限制。再次,在玻璃载玻片上点样细胞以通过显微术检查细胞和尤其是核完 整性,具有/没有用DAPI对核的染色(注意:再一次,现在也可以使用细胞最终用于任何其它 免疫荧光或荧光原位杂交实验)。
[0260] 制备细胞核和第一次核基因组DNA限制
[0261]为了裂解细胞并且为了制备细胞核,我们在冰上(!)制备5ml新鲜(对于完全活性) 裂解缓冲液,其由 l〇mM Tris pH 8·0(50μ1 lM)、10mM NaCl(10yl5M)、0.2%NP-40(100yl 10%)、10(^15(^完全蛋白酶抑制剂(?仰111^13).(5(^=11111?83中1片)组成,并且用多 达5ml MilliQ(4.74ml)补足。在lml此裂解缓冲液中取出最后的交联/固定步骤中制备的团 粒,重悬,并且再用4ml补足到总共5ml,并且在冰上温育10分钟。以ISOOrpm于4°C将现在游 离的细胞核向下旋转5分钟,在0.5ml冰冷的roS Safe-lock管中取出团粒,并且以2600rpm 于4°C旋转1分钟。再次,本文有可能在除去上清液并且快速冷冻后于-80°C贮存核。为了检 查,我们总是在玻璃载玻片上点样核以通过显微术和/或用DAPI染色核检查核完整性。
[0262] 对于第一次限制,现在用1.2x限制缓冲液(60μ1限制缓冲液,440μ1 Mi 11 iQ,并且 在必要时调节(对于BSA))在0.5ml/管中重悬核,并且转移到1.5ml Safe-lock管。然后,为 了温和透化核纤层,将管放到37 °C,并且添加7.5μ120 % SDS(0.3 %终浓度),并且于37 °C温 育1小时,同时以900rpm摇动。在添加50μ1 Triton-X-100(2%终浓度)以进一步温和透化核 纤层后,再次于37°C温育1小时,同时以900rpm摇动。注意:需要非常小心实施SDS和Triton-X-100步骤两者以避免任何去交联,我们通过在具有和/或没有DAPI染色情况下显微检查核 再次检查那点。对于未消化的材料的未来对照(所谓的第一未限制对照),现在采用5μ1等分 试样,并且于_20°C贮存。然后,添加400个单位的选定的限制性酶,并且于37°C温育过夜(约 20小时)。对于所有情况中的人细胞,使用限制性酶Bglll(Roche)。对于小鼠细胞,我们使用 Hindlll (Roche)或Apol (New England Biolabs)。注意:即使其最佳的温度是50°C (对于 Apol),应当使用37°C来防止样品的部分去交联;_)。并且再次对于限制的未来对照,现在采 用5μ1等分试样,并且于-20°C贮存(所谓的第一限制对照)。在第一次限制后,对剩余的样品 添加40μ1 20%SDS(终浓度1.6%)以停止限制,并且为了进一步分解核纤层,通过于65°C温 育20-25分钟,同时以900rpm摇动。
[0263] 限制的基因组DNA的稀释、再连接和去交联
[0264] 此后,通过转移到50ml Falcon管,并且添加6.125ml 1·15χ连接缓冲液(6.125ml: 5421ml MilliQ+704yl连接缓冲液)稀释完全消化的核材料。然后,添加375μ1 20%Triton-X-100(终浓度1.0% ),并且在37°C水浴中温育1小时,期间每10分钟用手摇动。然后,添加20 μL连接酶HC 5UAU(总共100U,Roche),并且于16°C温育过夜(~20小时),接着于室温再温 育30分钟。为了使非连接的和连接的DNA去交联,添加30μ1 10mg/ml蛋白酶K,并且于65 °C在 水浴中温育过夜(~20小时)。再次对于再连接和去交联的未来对照,现在采集5μ1等分试 样,并且于_20°C贮存(所谓的再连接/去交联对照)。
[0265] DNA纯化和第二次(再连接)DNA限制/超声处理
[0266] 为了进一步处理样品,首先通过添加30μ1 10mg/ml RNA酶(总共300yg),并且于37 °C温育30-45分钟,接着短暂冷却到室温,并且添加7ml酚-氯仿和剧烈摇动来纯化DNA。然 后,以4,000rmp(2200xg)离心样品15分钟,之后将上层相置于新的50ml管中,并且添加7ml 1111丨0及每11111以1糖原、1.5111121乙酸钠?!15.6,并且添加351111 100%乙醇以增强纯化,温 和但彻底混合,此后置于-80°C达1.5-3小时。这接下去是以4,OOOrmp(2200xg)直接离心15 分钟,除去上清液,添加 l〇ml 70%Et0H,重悬,并且以4,000rmp(2200xg)于4°C再离心15分 钟。在除去上清液后,将团粒干燥20分钟,并且于37°(:在15(^11〇11^1^ 8?!17.5中溶解30 分钟。再次用于再连接和去交联的未来对照,现在采集5μ1等分试样,并且于-20°C贮存(所 谓的第一次纯化对照)。
[0267] 此后,通过第二次限制缩短所得的再连接并且去交联的纯化的材料:首先,为了控 制此阶段的DNA量,在2%琼脂糖凝胶上靠着已知浓度的物种匹配基因组DNA的参照样品运 行ΙμL等分试样。然后,在〇.5ml/管中将DNA调节到lOOng/μΙ浓度,并且通过每yg DNA添加1U 选择的限制性酶用第二限制性酶限制,并且于37°C温育过夜(~20小时)。对于所有情况中 的人细胞,使用限制性酶NlaII(New England Biolabs)。对于小鼠细胞,我们使用Hindlll 作为第一限制性酶DpnII(New England Biolabs)或者使用Apol作为第一限制性酶,以15秒 开启和45秒关闭的10个循环超声处理。
[0268] 多种DNA对照的处理
[0269] 对于不同阶段的DNA的完整性的对照,使用下述对照:i)第一次未限制的对照,ii) 第一次限制的对照,iii)再连接/去交联对照,iv)第一次纯化对照,和v)第二次限制/最终 纯化对照。这些样品与相应的质粒DNA-起在2%琼脂糖凝胶上做对照,所述质粒DNA并排限 制,再连接,并且纯化作为外部限制对照。对于对照i )_iii),于65°C将等分试样与90μ1 10mM Tris pH 7.5中的10μ1蛋白酶K(10mg/ml) -起温育至少1小时。通过添加3μ1 10mg/ml RNA酶,并且于37 °C温育30-45分钟,接着短暂冷却至室温,并且添加 Mill iQ直至500μ1 (约 400ml)及500μ1酚-氯仿并剧烈振荡来纯化DNA。然后,以13,200rmp离心对照15分钟,每ml 2 41糖原,5(^121乙酸钠?!15.6,并且添加85(^1100^^切!1,温和但彻底混合,并且快速冷 冻,之后直接进行以13,200rmp离心20分钟,接着除去上清液,添加 lml 70Et0H,于4°C以13, 200rpm离心,除去更新的上清液,干燥团粒20分钟,并且于37°C在20μ1 10mM Tris pH 7.5 中溶解30分钟。
[0270] ^General DNA全基因组测序文库制备
[0271] 一般地,制备DNA T2C片段文库以在Illumina Cluster Station和HiSeq2000测序 仪根据具有来自我们的增强修改的Illumina TruSeq DNA方案(www. illumina. com,TruSeq DNA样品制备LS方案;部分#15026489Rev. C)进行测序分析:i)纯化DNA片段,ii)末端修复以 达到平端状态,i ii)3 '端腺苷酰化以避免嵌合物,iv)对衔接头连接测序,包括最终的多路 复用步骤,和最终v)纯化T2C全基因组测序DNA片段文库。
[0272] 因此,首先使用Quant-it dsDNA宽范围测定试剂盒使用ΙμL材料再次测量T2C DNA 片段文库的浓度以细微调节。然后,将样品分成4组各5yg的T2C DNA片段文库,并且对这4组 材料中的每组完成下述完全规程:
[0273] i)为了在第二次限制后纯化T2C DNA文库,通过每Ι.ΟμΙ经消化的DNA添加1.8μ1 AMPure ΧΡ珠使用AMPure ΧΡ珠 (Beckman Coulter)。这于室温温育5分钟,置于磁性支架上, 并且于室温温育5分钟,并且在不扰乱珠的情况下弃去上清液。用新鲜制备的70%乙醇清洗 珠2次,于37 °C放置5分钟以让珠干燥。然后,将珠在50μ1 PCR级水中重悬,并且于室温温育5 分钟,置于磁性支架上5分钟,最终将50μ1上清液转移至新管。最终,使用DNA 1000测定法在 Agilent Technologies 2100Bioanalyzer上加载1微升以测定纯化的经消化的DNA的质量。
[0274] ii)对于T2C文库DNA片段的末端修复,由于它们在具有突出端前进行限制或超声 处理,将4个材料组各自在50μ1中转移到96孔板。由于不使用避免材料污染的串联(inline) 对照试剂,添加 1〇μ1 重悬缓冲液,接着是 40μ1 末端修复混合物,并且将整个体积上下 移液10次彻底但温和混合。然后,用Micr〇-seal"B"粘性封条覆盖板,并且置于30°C预先加 热的热循环仪上30分钟。在从板除去粘性封条后,首先将AMPure XP珠涡旋振荡,直至它们 完全分散,并且将160μ1(由与24μ1 PCR级水混合的136μ1 AMPure XP珠组成)添加至孔,并 将整个体积再次彻底但温和地上下移液10次。在温育15分钟后,将板于室温在磁性支架上 再放置15分钟,直至液体表现得清澈。然后,除去127.5μ1上清液两次,此后,在不扰乱珠的 情况下将200μ1新鲜制备的80%Et0H填充入板的孔中,于室温温育30秒,并且在不扰乱珠的 情况下再次弃去。这重复两次,之后将板干燥15分钟。仅在此后,从磁性支架中取出板,并且 用17.5μ1重悬缓冲液重悬团粒,接着通过上下移液10次进行10次彻底但温和混合。在于室 温温育2分钟后,于室温将板放回磁性支架上,再持续5分钟,直至液体表现得清澈,然后,取 出15μ1清澈的上清液,其含有准备好进行接下去步骤中的3'端的腺苷酰化的末端修复的材 料。
[0275] iii)对于末端修复的匪TiCIC DNA片段文库的3'-端腺苷酰化,即,以防止平端彼 此连接,如此确保步骤iv)中的衔接头连接反应期间低比率的嵌合物(串联模板)形成,使用 在存在ATP的情况下的Klenow外切酶。在衔接头的3'端上的相应的单一 "T"核苷酸提供了互 补的突出物,用于将衔接头与片段连接。
[0276] 因此,将15μ1末端修复的T2C DNA片段文库转移到新的0.3ml PCR板。由于不再次 使用避免材料污染的串联对照试剂,添加2.5μ1重悬缓冲液,接着是12.5μ1融化的A-加尾混 合物,彻底但温和地上下移液10次。然后,用Micr 〇seal"B"粘性封条密封板,并且置于30°C 预先加热的热循环仪上30分钟。从热循环仪中取出板后立即发生衔接头连接。
[0277] i v)为了使用11 lumina提供的索引化衔接头#6和#12连接测序衔接头,使用DNA衔 接头管和停止连接缓冲液管,并且以600xg离心5秒。使用前立即,从-25°C贮存取出含有连 接混合物的管,如由11 lumina推荐。由于不再次使用避免材料污染的串联对照试剂,将2.5μ 1重悬缓冲液添加到另一块PCR板的孔,并且也添加2.5μ1连接混合物。然后,添加来自合适 的衔接头管的2.5μ1,并且彻底但温和地上下移液10次。然后,再用Mic r〇seal"B"粘性封条 密封板,并且以280xg离心板1分钟。此后,在30°C预先加热的热循环仪上将板温育10分钟, 从循环仪取下板,除去粘性封条,添加5yl停止连接缓冲液,并且彻底但温和地上下移液10 次。
[0278] ν)为了再次纯化适合测序仪的T2C DNA片段文库,使用AMPure ΧΡ珠。因此,离心 AMPure XP珠,直到它们完全分散,并且将42 · 5μ1混合的AMPure XP珠添加到孔,并且彻底但 温和地上下移液10次,之后于室温温育15分钟。然后,于室温在磁性支架上放置板最少5分 钟或更长,直至液体表现得清澈。然后,从板的每个孔中取出80μ1上清液,并且在板保持在 磁性支架上时,在不扰乱珠的情况下添加200μ1新鲜制备的80%Et0H,并且于室温温育30 秒。然后,除去全部的上清液。将此EtOH清洗进行两次,之后仍然在磁性支架上静置,于室温 将板风干15分钟。在从磁性支架中取出后,使用52.5μ1重悬缓冲液重悬干燥的团粒,并且彻 底但温和地上下移液10次。在温育2分钟后,于室温将板放回到磁性支架,最少5分钟或更 长,直至液体表现得清澈。然后,将50μ1清澈的上清液转移到新的0.3. PCR板,用于第二次清 洁,并且添加50μ1涡旋振荡的AMPure XP珠,并且彻底但温和地上下移液10次。然后,于室温 再温育板15分钟,于室温在磁性支架上再放置板,最少5分钟或更长,直至液体表现得清澈。 除去95μ1上清液,并且在板仍保持在磁性支架上时,在不扰乱珠的情况下对每孔添加200μ1 新鲜制备的80%Et0H,于室温温育30秒。然后,除去全部的上清液。将此EtOH清洗再进行两 次,之后仍然在磁性支架上静置,于室温将板风干15分钟。在从磁性支架中取出后,使用 22.5μ1重悬缓冲液重悬干燥的团粒,并且彻底但温和地上下移液10次。再温育2分钟后,于 室温将板放回到磁性支架上,最少5分钟或更长,直至液体表现得清澈。最后,收集来自板的 每孔的20μ1清澈上清液,并且将来自4个平行处理的T2C DNA片段文库中每个的材料分流汇 集(split pool)。
[0279] 区域性DNA测序捕捉微阵列设计
[0280] 为了实现高分辨率并且容许高通量多路复用测序以及因此为了实现高度相关的 局部相互作用定位,即为了实现高质量T2C2,设计特殊的捕捉阵列以特异性选择感兴趣的 基因组区,避免不必要背景的测序,即以创建区域性DNA测序文库,其经优化以在第一次限 制后选择再连接的DNA段,即直接用于仅在特定且相对较小的基因组区中的相互作用。因 此,与NimbleGen紧密合作,我们设计了DNA寡聚物用于2.1M捕捉微阵列,即能够在原则上用 相同量的不同寡聚物钓出210万不同基因组序列的捕捉微阵列。为了实现实际的高质量结 果T2C,尽可能接近在核全基因组限制中使用的第一识别位点,在上游放置仅(!)1个寡聚 物,并且在下游放置1个,因为目标在于测序此第一次限制的再连接后的仅每侧。使用基因 组版本mm9和HG19,针对人和小鼠基因组的选定区,在寡聚物长度72 ± 3bp、在整个基因组中 的独特出现(不容许错配)的情况下以及就微阵列上最佳且相似的(即相似的杂交)捕捉而 言,NimbleGen和我们设计了寡聚物。然后,进一步选择寡聚物:在使用第二限制性酶来缩短 再连接的DNA文库以进行测序的情况中,寡聚物必须位于第一和第二限制性位点之间。在使 用超声处理来缩短再连接的DNA的情况中,仅选择在第一识别位点的150bp内的寡聚物。若 仅存在一种寡聚物(其与第一或第二或甚至这两个限制性位点交叉),则仅容许总共不超过 10%的寡聚物起始或末端处的切割,即寡聚物可以明确捕捉具有62bp最小值的DNA段以保 证特异性和相似的杂交效率。对于第一次限制侧,在超声处理情况中应用相同的条件。此 后,我们在基因组上定位寡聚物,并且手动控制是否满足条件以及就其它基因组特征而言 是否正确放置寡聚物。为了生成微阵列,用210万可能的不同寡聚物数目Qi綱(t\_)除以选 择的寡聚物的数目0?(免抱^),然后在NimbleGen的捕捉微阵列的生成过程期间的实际捕 捉阵列上每个选择的寡聚物点样N点样)次,其中N点样A b s ( 0阵列/ 0选择)
J 口此,凭借使用第一和第二限制性酶进行捕捉(参见下文)的寡聚物的 数目,我们可以确保具有微阵列上每种不同寡聚物的约1〇1()个寡聚物分子,并且如此凭借 1〇7个细胞,我们用作输入,我们远离阵列饱和达>1〇5至1〇6倍。在使用超声处理的实验的情 况中,覆盖~250倍多的寡聚物和总共~50倍多的基因组区,仍然>10 2,若考虑实验规程直 到捕捉阵列中的损失。
[0281] 关于使用第一和第二限制性酶的实验,计算选择的区域大小、相互作用矩阵的所 得大小,即此区域内的所有限制性片段间的所有可能的相互作用,和对于每种可能的相互 作用实现最小值4至5个数量级的高频率范围的测序能力(我们假设平均值2至3个数量级, 其导致4至5个数量级的扩散)之间的平衡。如此,对于约3亿和5亿个序列的两个测序道(即 可能的相互作用事件的3亿和5亿个测序)中的测序能力,以实现每个相互作用平均100至1, 〇〇〇个测序事件为目标,500至1,000个寡聚物以及如此相互作用片段是最佳的。然后覆盖的 基因组区仅依赖于分辨率,即基因组内的第一限制性酶的平均间隔。
[0282] 在第一和第二限制性酶的情况中,我们选择如下的寡聚物和捕捉阵列:在人情况 中,这对从碱基对位置~1,110,650至~3,216,350的染色体11上的H19/IGF2区,即2,105, 700bp大小的区域和525个寡聚物完成。在小鼠情况中,这对从碱基对位置~109,876,350至 111,966,600的染色体7上的β-珠蛋白区,即2,090,250bp大小的区域和800个寡聚物完成。
[0283] HRHTiCIC2区域DNA测序文库制备-微阵列捕捉
[0284] 为了从T2C全基因组DNA片段测序文库生成亚选择的区域T2C DNA片段测序文库, 使用NimbieGen Array捕捉方案和杂交系统及增强修改(www.nimblegen. com/seqcapez , NimbleGen Arrays User's Guide,Sequence Capture Array Delivery version 3.2),将 连接测序衔接头后的汇集DNA文库进行用上文描述的新近且明确开发的捕捉微阵列的亚选 择:整个规程由以下各项组成:i)微阵列杂交,ii)清洗,之后iii)从微阵列洗脱捕获的区域 DNA文库。
[0285] i)因此,捕捉前3小时,将杂交系统设置为42°C,将第一加热快设置为95°C,并且将 另一个设置为70°C,以平衡。然后,通过在连接测序衔接头后添加300μ1 lmg/ml Cot-IDNA 至汇集的DNA文库制备杂交混合物。在使用多路复用样品的情况中,不仅汇集4组材料,而且 还汇集多路复用的样品。这节约微阵列能力,且由于要捕捉的DNA的量是微阵列饱和的斗 争,这为多路复用多达10至100个样品留下空间,取决于DNA量、浓度和要使用的方法。本文, 仅通过汇集2个不同材料进行多路复用。然后,在SpeedVac中于60°C干燥30至45分钟左右, 添加11.2μ1 VWR水以再水合,涡旋振荡,并且以最大速度离心30秒,之后在70 °C加热块上放 置10分钟以完全溶解DNA。在第二次涡旋振荡和再以最大速度离心30秒后,添加18.5μ1 2X SC杂交缓冲液和SC杂交组分Α,接着再涡旋振荡,并且再以最大速度离心30秒。然后,为了使 DNA变性,将样品置于95°C加热块上10分钟,之后以最大速度再离心30秒。此后,于42°C放置 样品,并且从那里立即在微阵列杂交室(平行制备完整的微阵列系统)上加载,并且于42°C 杂交64小时。
[0286] ii)为了清洗微阵列上捕获的区域性T2C DNA文库,首先,根据NimbleGen阵列用户 指南装配洗脱室。因此,从42°C NimbleGene杂交系统中取出微阵列载玻片,并且直接放入 含有加热到47.5°C的100ml SC清洗缓冲液II的解装配盆中。在用于平衡的~10秒后,剥去 混合仪,并且将载玻片转移到含有47.5°C的SC清洗缓冲液II的第二清洗管,以每秒1次倒转 的速率将闭合的清洗管倒转10次。然后,将载玻片转移到含有47.5°C的32ml严格清洗缓冲 液的新清洗管,并且以每秒1次倒转的速率将闭合管倒转10次,之后于47.5°C静置5分钟,并 且以每秒1次倒转的速率再倒转10次。然后,再将载玻片转移到含有47.5°C的32ml严格清洗 缓冲液的新管,并且以每秒1次倒转的速率将闭合管倒转10次,之后于47.5°C静置5分钟,并 且以每秒1次倒转的速率再倒转10次。然后,再将载玻片转移到含有室温的32ml SC清洗缓 冲液I的新管,并且以每秒1次倒转的速率倒转闭合管2分钟。然后,再将载玻片转移到含有 室温的32ml SC清洗缓冲液II的新管,并且以每秒1次倒转的速率倒转闭合管1分钟。然后, 再将载玻片转移到含有室温的32ml SC清洗缓冲液III的新管,并且以每秒1次倒转的速率 倒转闭合管10次。
[0287] iii)为了从微阵列洗脱捕获的区域性T2C DNA片段测序文库,于室温将载玻片转 移到NimbleGen ELI洗脱系统。然后,将~900μ1 125mM NaOH添加到洗脱室,直到它充满,并 且温育10分钟。将洗脱的区域性DNA片段测序文库移液到1.5ml管,并且补足到900μ1 125mM NaOH,接着在两个新管中相等分开,所述管含有在1.5ml管中预先制备的500μ1 Qiagen缓冲 液roi和16μ120 %乙酸溶液的516μ1完全混合的溶液。然后,将混合物转移到离心机上的单 一 MinElute柱以在各700μ1的几个步骤中使溶液穿过柱。然后,将750μ1缓冲液ΡΕ上柱,并且 离心通过。然后,将MinElute柱放到2ml收集管中,并且以最大速度离心1分钟以除去任何残 留的缓冲液PE。弃去流过物,之后在干净的1.5ml管中放置MinElute柱,将25μ1缓冲液EB添 加到柱,温育1分钟,并且以最大速度离心1分钟。
[0288] T2C扩增、簇生成、和配对末端高通量测序
[0289] 首先对于配对末端测序,首先通过使用于98°C 30秒,12个循环(于98°C10秒,于60 °C 30秒,于72°C 30秒),于72C 5分钟最终延伸使用Phusion聚合酶的PCR富集T2C区域性 DNA片段测序文库以测序。对于各lyg的T2C区域性DNA片段文库,将5μ1 PCR引物混合物和25 μL PCR主混合物添加到PCR板。对于纯化,通过每Ι.ΟμΙ DNA添加1.8μ1 AMPure ΧΡ珠使用 AMPure XP珠 (Beckman Coulter)。这于室温温育5分钟,置于磁性支架上,并且于室温温育5 分钟,并且在不扰乱珠的情况下弃去上清液。用新鲜制备的70%乙醇清洗珠2次,于37°C放 置5分钟以让珠干燥。然后,将珠在30μ1重悬缓冲液中重悬,并且于室温温育5分钟,在磁性 支架上放置5分钟,最终将50μ1上清液转移到新管。最后,使用DNA 1000测定法,在Agi lent Technologies 2100生物分析仪上加载1微升以测定纯化的经消化的DNA的质量。
[0290] 根据Illumina cBot用户指南(www. illumina.com,部分#15006165RevE)进行族生 成。简言之,用NaOH变性ΙμL 10nM TruSeq DNA文库储液DNA,稀释到10pM,并且杂交到流动 池(flowcell)上。根据Illumina配对末端测序用户指南方案,将杂交的片段序贯扩增,线性 化,并且末端封闭。在测序引物杂交后,使用HiSeq 2000测序仪以101个循环方案根据制造 商的用法说明进行合成测序。使用HiSeq 2000用NaOH变性经测序的片段,并且将索引-引物 杂交到片段上。用7循环方案测序索引。用ΝΑ0Η变性片段,序贯扩增,线性化,并末端封闭。在 测序引物杂交后,使用HiSeq 2000测序仪以101个循环方案进行第三个读出的合成测序。
[0291] HRHTiCIC2序列定位和分类
[0292]对原始序列读出检查测序方向上第一限制性酶识别序列的存在。除去第一酶识别 位点后的序列。若突出物后的识别位点碱基不是明确的,则通过除去突出物的末端后的所 有碱基进一步修剪读出。然后,使用Burrows-Wheeler比对(BWA)工具与全人基因组NCBI36/ hgl8集合(assembly)和小鼠 NCBI37/mm9集合比对这些经修剪的序列。因此,使用下述缺省 参数集(参数的数值在[]括号中):
[0293] bwa aln[options]<prefix><in.fq>
[0296]在使用第二限制性酶的情况中(并且如此不在超声处理的情况中),然后,在第二 步中与遮蔽的基因组比对独特的序列,其排除第二限制性酶间的序列部分,并且不含有第 一酶识别位点。最后,仅那些序列使用SAMtools配对以生成配对末端二进制比对/图(BAM) 文件,其在完全和遮蔽基因组参照序列而两者中显示独特比对。注意:比对是独特的,但尽 管如此含有错配等,其带来测序误差或者命中我们的细胞/小鼠与参照基因组的差异。不幸 地,也没有区分假阳性或假阴性比对的方式。因此,所得的配对末端序列然后含有具有误差 率的相互作用信息,其由测序误差率、参照序列的质量、和我们的细胞/小鼠的序列与此参 照基因组的差异确定。使用已知的误差率在此方法结束时没有错配的独特序列的假阳性和 假阴性结果的大致评估指示由于我们的规程在误差积累和误差降低后误差小于1 %。这也 可以通过贯穿整个方法的初始原始序列到最终结果的序列对减少而扣除。
[0297]上述说明书中提及的所有出版物通过提及并入本文。在不偏离本发明的范围和精 神的前提下,本发明描述的方法和系统的各种修改和变型对于本领域技术人员会是明显 的。虽然已经结合具体的优选实施方案描述了本发明,但是应当理解如要求保护的发明不 应过度限于此类具体的实施方案。实际上,用于实施本发明的描述的模式的各种修改对于 分子生物学或相关领域的技术人员是明显的,其意欲在所附权利要求书的范围内。
【主权项】
1. 一种用于分析三维DNA结构中来自一个或多个感兴趣的区域的一个或多个核苷酸序 列与其它核苷酸序列的相互作用的方法,其包括下述步骤: (a) 提供交联的DNA的样品; (b) 用第一限制性酶消化所述交联的DNA; (c) 连接交联的核苷酸序列; (d) 反转所述交联; (e) 使来自(d)的连接的分子片段化; (f) 使来自(e)的片段与代表与所述第一限制性酶的切割位点相邻的序列的一个或多 个寡核苷酸杂交,以富集已经在步骤(c)中与另一个核苷酸序列连接的核苷酸序列的末端; 并且 (g) 分析富集的片段的核苷酸序列以鉴定牵涉相互作用的核苷酸序列。2. 根据权利要求1的方法,其用于分析三维染色质结构中来自一个或多个感兴趣的基 因组区的一个或多个核苷酸序列与其它核苷酸序列的相互作用。3. 根据权利要求1或2的方法,其中所述第一限制性酶是识别6-8bp识别位点的限制性 酶。4. 根据权利要求3的方法,其中所述第一限制性酶选自下组:BglII、HindIII、EC〇RI、 BamHI、SpeI、PstI和Ndel。5. 根据前述权利要求中任一项的方法,其中在步骤(e)中,通过用第二限制性酶消化使 所述连接的分子片段化。6. 根据权利要求5的方法,其中所述第二限制性酶识别4或5bp核苷酸序列识别位点。7. 根据权利要求6的方法,其中所述第二限制性酶选自下组:TSpEI、MaeII、AluI、 Nlalll、HpaII、FnuDII、MaeI、DpnI、MboI、HhaI、HaeIII、RsaI、TaqI、CviRI、MseI、Sthl32I、 AciI、DpnII、Sau3AHPMnlI。8. 根据权利要求1至4中任一项的方法,其中在步骤(e)中,通过机械手段使所述连接的 分子片段化。9. 根据权利要求8的方法,其中在步骤(e)中,通过剪切使所述连接的分子片段化。10. 根据权利要求1至74中任一项的方法,其中在步骤(e)中,使用识别2bp酶的限制性 酶或限制性酶的组合或者使用通过通用核酸酶的有限消化使所述连接的分子片段化。11. 根据权利要求1至4中任一项的方法,其中在步骤(e)中,使用放射或重离子使所述 连接的分子片段化。12. 根据前述权利要求中任一项的方法,其中在步骤(e)后,修复片段化的分子的DNA末 端。13. 根据前述权利要求中任一项的方法,其中在步骤(e)后,为了测序目的连接衔接头。14. 根据权利要求13的方法,其中所述衔接头包含地址序列。15. 根据权利要求14的方法,其中使用多个寡核苷酸,其包含不同样品中的多个地址序 列以在多路复用(multiplexing)时实现不同样品的区分。16. 根据前述权利要求中任一项的方法,其中在步骤(f)中,一个或多个寡核苷酸探针 在微阵列上点样或在珠上捕获,或者存在于溶液中,其随后在珠上捕获。17. 根据前述权利要求中任一项的方法,其中所述寡核苷酸探针识别与所述第一限制 性酶的识别位点相邻的序列。18. 根据权利要求17的方法,其中所述寡核苷酸探针识别所述第一限制性酶的识别位 点的lOObp内的序列。19. 根据前述权利要求中任一项的方法,其中在步骤(f)中,使所述核苷酸序列片段与 寡核苷酸探针组杂交,所述寡核苷酸探针组包含多个寡核苷酸,每个所述寡核苷酸与下述 序列杂交,所述序列与来自所述感兴趣的基因组区的核苷酸序列上的所述第一限制性酶的 消化位点相邻。20. 根据权利要求19的方法,其中所述寡核苷酸探针组包含对基本上所有限制性片段 特异性的探针,所述限制性片段可通过用所述第一限制性酶处理所述感兴趣的基因组区获 得。21. 根据前述权利要求中任一项的方法,其中步骤(g)牵涉富集的核苷酸序列片段的高 通量测序。22. 根据前述权利要求中任一项的方法,其中步骤(g)继之以所述相互作用的可视化和 生物信息分析。23. 根据权利要求2的方法,其中所述感兴趣的基因组区包含感兴趣的遗传基因座。24. 根据前述权利要求中任一项的方法,其中所述感兴趣的区域是1-10MB。25. -种用于分析三维结构中特定遗传元件与其它核苷酸序列的相互作用的方法,其 包括进行前述权利要求中任一项的步骤(a)-(g)的步骤,其中在步骤(g)中,仅分析包含所 述特定遗传元件的所述富集的核苷酸序列片段的序列以鉴定牵涉与所述遗传元件的相互 作用的核苷酸序列。26. 根据权利要求25的方法,其中所述遗传元件包含用于转录因子或绝缘子或屏障元 件的结合位点。27. 根据权利要求25或26的方法,其中所述遗传元件在所述感兴趣的区域中。28. -种用于确定基因的表达状态的方法,其包括进行权利要求1至24中任一项的步骤 (a)-(g)的步骤,和分析包含所述基因的感兴趣区域中的相互作用的数目、类型或密度。29. -种比较两种样品间的基因活性的方法,其包括对这两种样品进行权利要求1至24 中任一项的步骤(a)-(g)的步骤,和比较感兴趣区域中的相互作用的数目、类型或密度。30. 根据权利要求29的方法,其中所述样品:来自同一受试者的不同组织;来自不同时 间点里的单一受试者;来自不同受试者的等同组织。31. -种用于鉴定一种或多种指示特定疾病状态的DNA-DNA相互作用的方法,其包括进 行权利要求1至24中任一项的步骤(a) - (g)的步骤,其中在步骤(a)中,从患病细胞和非患病 细胞中提供交联DNA的样品,且其中来自所述患病细胞和非患病细胞的DNA序列之间的三维 染色质结构中核苷酸序列相互作用之间的差异指示所述DNA-DNA相互作用或DNA-DNA相互 作用的模式指示特定的疾病状态。32. -种诊断或预后由DNA-DNA相互作用的变化引起的或与DNA-DNA相互作用的变化有 关的疾病或综合征的方法,其包括进行权利要求1-24中任一项的步骤(a)-(g)的步骤,其中 步骤(a)包括提供来自受试者的交联DNA的样品;且其中步骤(f)包括与不受影响的对照比 较DNA序列之间的相互作用;其中所述对照和所述受试者之间的差异指示所述受试者正患 有所述疾病或综合征或者指示所述受试者会患有所述疾病或综合征。33. 根据权利要求32的方法,其中所述疾病是遗传疾病。34. 根据权利要求32或33的方法,其中所述疾病是癌症。35. -种用于鉴定一种或多种调控DNA的三维结构的作用剂的测定方法,其包括下述步 骤: (a) 使样品与一种或多种作用剂接触;并 (b) 进行权利要求1-24中任一项的步骤(a)至(g),其中步骤(a)包括提供来自所述样品 的交联DNA; 其中(i)在存在所述作用剂的情况下的DNA相互作用和(ii)在缺乏所述作用剂的情况 下的DNA相互作用之间的差异指示调控DNA的三维结构的作用剂。36. -种基本上如本文中描述及参考任何实施例或附图的方法或测定法。37. 根据权利要求1至24中任一项的方法,用于通过视觉检查以小于lOkbp的分辨率鉴 定基因组的3D构造。38. 根据权利要求1至24中任一项的方法,用于通过视觉检查以小于lOkbp的分辨率鉴 定确定染色质纤维构象。39. 根据权利要求1至24中任一项的方法,用于通过视觉检查以小于lOkbp的分辨率鉴 定染色体的亚染色体域结构。40. 根据权利要求1至24中任一项的方法,用于通过视觉检查以小于lOkbp的分辨率鉴 定染色体的亚染色体域结构。41. 根据权利要求1至24中任一项的方法,用于通过视觉检查以小于lOkbp的分辨率鉴 定染色体的环聚集体/玫瑰花结结构。42. 根据权利要求1至24中任一项的方法,用于当与蒙特卡洛和布朗动力学模拟 (Monte-Carlo and Brownian-Dynamic simulation)比较时以小于lOkbp的分辨率鉴定染 色体的环聚集体/玫瑰花结结构。43. 根据权利要求1至24中任一项的方法,用于从作为相互作用之间的遗传距离的函数 的相互作用频率的标度行为并且与来自蒙特卡洛和布朗动力学模拟的标度行为和所述DNA 自身中的长程关联的标度比较以小于lOkbp的分辨率鉴定染色体的环聚集体/玫瑰花结结 构。
【文档编号】C12Q1/68GK105992825SQ201480062775
【公开日】2016年10月5日
【申请日】2014年11月18日
【发明人】F·格罗斯瓦尔德, T·诺奇
【申请人】鹿特丹伊拉斯谟大学医疗中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1