用于个人表观基因组学的至天然染色质的转座的制作方法

文档序号:9583260阅读:382来源:国知局
用于个人表观基因组学的至天然染色质的转座的制作方法
【专利说明】用于个人表观基因组学的至天然染色质的转座
[0001] 政府支持
[0002] 本发明是在国立卫生研究院授予的合同AI057229、HG000044和NS073015下由政 府支持作出的。政府具有本发明的某些权利。
[000引交叉引用
[0004]本申请要求2013年5月23日提交的美国临时申请系列号61/826728的利益,该 申请通过引用W其整体并入本文。
[000引背景
[0006] 真核生物基因组分层次地包装成染色质,并且此包装的性质在基因调控中起着中 屯、作用。对编码在染色质的核蛋白结构中的表观遗传信息的主要认知来自于高通量的全基 因组方法,其用于单独测定染色质可接近性开放染色质")、核小体定位和转录因子灯巧 占据。虽然存在已公开的方案,但运些方法需要数百万个细胞作为起始材料、复杂和费时的 样品制备并不能同时探测核小体定位、染色质可接近性和TF结合的相互作用。运些限制在 Ξ个主要方面存在问题:第一,目前的方法可平均和"淹没"细胞群的异质性。第二,细胞通 常必须离体生长W获得足够的生物材料,从而扰乱体内背景并且W未知的方式调节表观遗 传状态。第Ξ,输入要求通常会阻止运些测定应用于明确定义的临床样品,从而妨碍诊断时 间尺度上"个人表观基因组学"的产生。本文提供的是可W克服运些限制的方法,其用于分 析多核巧酸包括其可接近性及其结构。还提供的是单细胞方法,其可W提供较高的灵敏度 和对染色质可接近性的进一步信息,包括细胞间变异性,W潜在地使其用作生物标志物。
[0007] 概述
[0008] 本文提供了用于分析多核巧酸例如基因组DNA的方法。在某些实施方案中,该 方法包括:(a)用转座酶和分子标签处理分离自细胞群的染色质W产生多核巧酸的标记片 段;化)测序标记片段的一部分W产生多个序列读数讯(C)通过将获自序列读数的信息映 射至细胞的基因组的区域而制作所述细胞的基因组的该区域的表观遗传图谱。
[0009] 在一些情况下,信息通过使用在序列读数的开头的核巧酸序列和任选末端上的核 巧酸序列获得。在某些情况下,在(C)中映射的信息选自下列的一种或多种:(i)转座酶的 切割位点;(ii)在步骤(a)中产生的片段的大小;(iii)序列读数长度;(iii)确定长度范 围的序列读数的位置;和(iv)序列读数丰度。在一些情况下,确定大小范围的片段是无核 小体的片段。
[0010] 在一些情况下,表观遗传图谱显示下列的一种或多种:(i)沿该区域的染色质可 接近性的特征谱;(ii)该区域中结合位点的DNA结合蛋白的占据;(iii)该区域中的无核 小体的DNA; (iv)沿该区域的核小体定位;和/或(V)染色质状态。在一些情况下,该方法 还可包括测量DNA结合蛋白对于结合位点的总体占据。DNA结合蛋白可W例如是转录因子。
[0011] 在一些情况下,细胞群可W包括约500至100, 000个细胞。细胞可W分离自个体, 例如分离自该个体的血液。在一些实例中,细胞可W是相同的细胞类型。在一些实例中,细 胞可W是FACS选择的细胞。
[0012] 在一些情况下,处理步骤(a)可W包括:从细胞群分离细胞核;和将分离的细胞核 与插入酶复合物组合,其中所述组合导致细胞核裂解w释放染色质,w及导致产生基因组DNA的标记片段。在一些实例中,转座酶可来源于Τη5转座酶。在其它实例中,转座酶可来 源于MuA转座酶。在进一步的实例中,转座酶可来源于V化bar转座酶(例如来源于哈氏弧 菌(Vibrioharveyi))。
[0013] 本公开内容还提供了用于比较两种样品的方法,其包括:(a)分析第一细胞群W 产生第一表观遗传图谱;和(b)分析第二细胞群W产生第二表观遗传图谱;W及(C)比较 第一表观遗传图谱与第二表观遗传图谱。例如,第一细胞群和第二细胞群可W是从相同个 体在不同的时间收集的。或者,第一细胞群和第二细胞群可W是从不同个体收集的不同细 胞群。
[0014] 本公开内容还提供了一种诊断方法,其包括:分析来自患者的染色质W产生表观 遗传图谱;和基于表观遗传图谱提供诊断或预后。
[0015] 本公开内容提供了用于测定多核巧酸在某位点的可接近性的方法,其中所述多核 巧酸来自细胞样品,所述方法包括:(a)用插入酶将多个分子标签插入多核巧酸;和化)使 用所述分子标签来测定所述位点上的可接近性。该方法还可包括使用所测定的可接近性来 鉴定在所述位点上结合至多核巧酸的一种或多种蛋白。在一些情况下,所述蛋白的至少一 种是转录因子。该方法还可包括使用分子标签来产生多核巧酸的可接近性图。
[0016] 本公开内容还提供了用于分析来自细胞样品的多核巧酸的Ξ维结构的方法,包 括:(a)用插入酶将多个分子标签插入多核巧酸;和化)使用分子标签来分析所述多核巧酸 的Ξ维结构。在一些情况下,插入酶可包含两个或更多个酶部分,其中各个酶部分将共同的 序列插入多核巧酸。酶部分可W连接在一起。共同的序列可包括共同的条形码。酶部分可 包括转座酶。多核巧酸可W在步骤(a)过程中被分割成多个片段,其中包含共同的条形码 的片段被测定为在多核巧酸的Ξ维结构中是靠近的。
[0017] 多核巧酸可W在插入过程中被分割成多个片段。该方法还可包括扩增所述片段。 可接近性可W通过对片段测序从而产生多个测序读数来测定。片段可W例如通过高通量测 序技术测序。该方法还可包括基于插入酶的序列插入偏好标准化测序读数。测序读数的长 度还可用于确定染色质状态注释(C虹omatinstaeannotation)。
[001引细胞样品可W经透化W允许插入酶进入。在一些情况下,细胞样品中的细胞核在 透化期间被最小限度地扰乱。细胞样品可W使用透化剂来透化,所述透化剂包括但不限于 NP40、洋地黄皂巧、吐溫、链球菌溶血素和/或阳离子脂质。细胞样品还可W使用低渗休克 和/或超声处理来透化。
[0019] 该方法还可包括基于特定位点的可接近性来分析受试者中的疾病状态,其中细胞 样品获自所述受试者。细胞样品和/或多核巧酸还可被划分成多个部分,其可任选地基于 分子标签来划分。该方法还可包括分析细胞样品的表型。在一些情况下,表型可W与位点 的可接近性相关。
[0020] 插入可W通过加入一种或多种二价阳离子来促进。在一些情况下,所述一种或多 种二价阳离子可W包括儀。在一些情况下,所述一种或多种二价阳离子可W包括儘。
[0021] 细胞样品可获自原始来源。细胞样品可W由少于约500, 000个细胞组成,或甚至 是单个细胞。多核巧酸可W结合至多个关联分子。关联分子可W包括蛋白质,例如组蛋白。 插入酶可W是转座酶。在一些情况下,转座酶可来源于Τη5转座酶。在其它情况下,转座酶 可来源于MuA转座酶。在其它情况下,转座酶可来源于Vi化ar转座酶(例如来源于哈氏弧 菌)。在一些情况下,分子标签可包含测序衔接子,其还可包含条形码标记。条形码标记可 包括独特的序列。在其它情况下,分子标签可包括巧光标签。插入酶还可包含亲和标签,其 可任选地是结合转录因子、修饰的核小体和/或修饰的核酸的抗体。修饰的核酸可W例如 是甲基化或径甲基化的DNA。亲和标签还可W是单链核酸,其可任选地结合至祀核酸。插入 酶还可包含核定位信号。
[0022] 本公开内容还提供了组合物。该组合物可包含多核巧酸、插入酶和插入元件,其 中:插入元件包括包含预先确定的序列的核酸;并且插入酶还包含亲和标签。组合物还可 包含多核巧酸、插入酶和插入元件,其中:插入酶包含两个或更多个酶部分;并且所述酶部 分连接在一起。亲和标签可W是抗体,其可任选地结合至转录因子、修饰的核小体和/或修 饰的核酸。修饰的核酸可W是例如甲基化或径甲基化的DNA。亲和标签还可W是单链核酸, 其可任选地结合至祀核酸。插入元件可W结合至插入酶并且插入酶结合至多核巧酸。多核 巧酸还可结合至多个关联分子。关联分子可W包括蛋白质,例如组蛋白。
[0023] 本公开还提供了试剂盒。该试剂盒可包含:(a)用于从细胞群分离细胞核的试剂; 化)插入酶复合物,和(C)转座酶反应缓冲液,在一些情况下,试剂盒的组分可W被配置为 使得反应缓冲液、转座子标签和衔接子与细胞核的体外组合导致细胞核裂解W释放染色 质,W及导致产生基因组DNA的标记片段。试剂盒还可包含:细胞裂解缓冲液;包含亲和标 签的插入酶;和包含核酸的插入元件,其中所述核酸包含预先确定的序列。试剂盒还可包 含:细胞裂解缓冲液;包含两个或更多个酶部分的插入酶,其中所述酶部分连接在一起;和 (C)插入元件。亲和标签可W是抗体,其可任选地结合至转录因子、修饰的核小体和/或修 饰的核酸。修饰的核酸可W是例如甲基化或径甲基化的DNA。亲和标签还可W是单链核酸, 其可任选地结合至祀核酸。
[0024] 本教导内容的运些和其它特征示于本文中。
[00巧]通过引用并入
[0026] 在本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度 如同每个单独的出版物、专利或专利申请被明确地和单独地指明通过引用并入。
[0027] 附图简述
[0028] 本领域技术人员将理解下文描述的附图仅用于举例说明的目的。附图并不意图W 任何方式限制本教导内容的范围。
[0029] 图1A-1C:ATAC-seq是开放染色质状态的灵敏的、准确的探针。(a)ATAC-seq反应 原理图。装载有测序衔接子(红色和蓝色)的转座酶(绿色)仅插入开放染色质(灰色的 核小体)的区域,并生成可PCR扩增的测序文库片段。化)开放染色质分析的全基因组方 法的近似报告输入材料和样品制备时间要求。(C)在GM12878淋己母细胞样细胞中的基因 座上ATAC-seq与其它开放染色质测定的比较,显示高度一致性。靠下的ATAC-seq轨迹由 500个FACS分选的细胞产生。
[0030] 图2A-2B:ATAC-seq提供染色质紧密态的全基因组信息。(a)从GM12878细胞核 (红色)产生的ATAC-seq片段大小指示具有与核小体一致的空间频率的染色质依赖的周期 性,W及与小于200bp片段的DNA螺旋螺距一致的高频率周期性。(插图)对数转换的直方 图显示出明显的持续至6个核小体的周期性。化)之前确定的7类染色质状态的标准化读 数富集。
[003。 图3A-3E:ATAC-seq提供了关于调节区域中核小体定位的全基因组信息。(a)含有 两个转录起始位点(TSS)的示例基因座,显示无核小体读数轨迹、计算的核小体轨迹("方 法")、W及用于比较的面ase、MNase和册K27ac、册K4me3W及肥A.Z轨迹。化)针对所有 活性TSS(η= 64, 836)所显不的ATAC-seq(1. 98xl06个配对读数)和MNase-seq(来自ref 23的4xl09个单末端读数)核小体信号,TSS通过CAGE表达分选。(C)TSS针对无核小体的 片段富集,并且在-2、-1、+1、+2、巧和+4位置上显不与MNase-seq所见的相似的定相核小 体。(d)TSS和远端位点中核小体关联的相对于无核小体的(NFR)碱基的相对分数(见"方 法")。(e)可接近的染色质内相对于最近的核小体二分体的DNA结合因子位置的层次聚类 掲示了不同类别的DNA结合因子。与核小体强烈关联的因子针对染色质重塑体富集。
[0032] 图4A-4C:ATAC-seq测定全基因组因子占据。(a)在C虹1上的特定基因座上,在 ATAC-seq和面ase-seq数据中观察到的CTCF足迹。化)在基因组中的结合位点上产生的 针对CTCF(所显示的基序)的集合ATAC-seq足迹。(C)从ATAC-seq数据、针对CTCF基序 的位置权重矩阵(PWM)得分和进化保守性(Phylo巧推断的CTCF预测结合概率。最右边的 列是针对该GM12878细胞系的CTCF化IP-seq数据巧NC0呢),显示出与预测的结合概率的 高度一致性。
[0033] 图5A-5D:ATAC-seq实现实时的个人表观基因组学。(a)从标准抽血的工作流。 化)来自先证者T细胞的Ξ天内连续ATAC-seq数据。(c)ATAC-seq数据(绿色轨迹)用于 对候选TF药物祀标区分优先次序的应用实例。在鉴定的靠近细胞因子基因IL2(可W由 抑A批准的药物祀向)的TF结合位点中,仅NFAT结合先证者T细胞。ATAC-seq足迹预测 通过与公开的NFAT化IP-seq数据(蓝色轨迹,来自ref35的数据)比对来确认。(d)与GM 12878B细胞系比较的来自先证者T细胞的细胞类型特异性调节网络。每行或列是TF相对 于相同细胞类型中的所有其它TF的足迹特征谱。颜色表示T相对于B细胞的相对相似性 (黄色)或差异性(蓝色)。NFAT是一个最高差异调节的TF(红色框),而典型CTCF结合 在T细胞和B细胞中基本相似。
[0034] 图6 :ATAC-seq峰强度与丽ase-seq峰强度良好相关。D址eD化se-seq(向下采样 至60xl06个读数)、UW丽ase-seq(40xl0 6个读数)和ATAC-seq数据巧0x10 6个配对末端 读数)中的峰使用ZINBA(Rashid等人GenomeBiol. 2011 12:R67)来调用。由于每个数据 集有不同的读数长度,我们选择过滤可映射区域内的峰值uke面ase-seq= 20bp读数,UW 丽ase-Seq= 36bp读数,ATAC-Seq=配对末端50bp读数)。对于(A)D址e丽ase-seq和 ATAC-seq, (B)UW歴ase-seq和ATAC-seq,W及(C)UWDNAse-seq和D址e歴ase-seq比较 loglO(读数强度)。ATAC-seq数据的技术重现性显示于D中。
[003引图7 :ATAC-seq捕获面ase识别峰的很大一部分。对于所有数据集使用ZINBA调 用峰。维恩图显示每个方法之间的峰调用重叠。下图:大多数ATAC-seq读数在与Duke和 UW歴ase-seq峰相交的强峰中。显不了从ATAC-seq、UW歴ase-seq和D址e歴ase-seq调 用的峰内的读数的总分数,W及运些数据的交集。所有Ξ种方法中超过65%的读数被发现 在Ξ种方法的峰的交集中,提示通过所有方法检测到良好定型的峰。表单元格颜色与读数 的分数成比例。
[0036] 图8 :相对于一组背景区域,与GM12878细胞中通过D址e面ase、UW面ase和FAIRE 鉴定的一组开放染色质区域重叠的读数数量的图,其中对于检测开放染色质位点灵敏性 和特异性所需的读数深度的测定在不同的读数深度上评估,包括50k、100k、500k、lxl03P 5xl07个读数。底部图显示ATAC-seq在GM12878细胞中的表现通过使用500、5, 000或 50, 000个细胞作为起始材料来进行评估。
[0037] 图9:基因组DNA和染色质中的Τη5插入偏好。核巧酸频率得分代表针对每个碱 基所观察到的核巧酸频率,将核巧酸频率针对1进行标准化。X= 0的位置表示读数开始, 虚线表示Τη5二聚体的对称轴。我们在纯化的基因组DNA和人染色质之间没有看到Τη5插 入偏好之间的实质性差别,运表明染色质中的局部插入偏好与裸基因组DNA中所发现的相 同。所报告的运些序列偏好类似于W前报道过的那些(ref. 11的正文)。
[0038] 图10 :在每个ATAC-seq峰上各特征的每碱基平均强度的图;所有ENCODE化IP数 据针对输入进行标准化;数据已使用200个峰的滑动窗口进行了处理。
[0039] 图11 :各种细胞数量的ATAC-seq。对于ATAC-seq来自不同起始数量细胞的数据 的代表性UCSC基因组浏览器轨迹。此相同的基因组还显示于正文的图化中。按顺序:使 用FACS分离500个细胞,和通过从细胞培养物的简单稀释实现500个细胞和5, 000个细胞 的一式两份重复。为了比较,底部轨迹代表50, 000个细胞,还显示于图化中。此图证实, 我们能够从少至500个细胞捕获开放染色质位点。
[0040] 图12 :将核小体峰拟合至ATAC-seq片段大小分布W实现核小体占据测量。所观 察到的片段分布被划分为四个读数群-预期源自开放DNA的读数,和跨越1、2或3个推定 核小体的读数。为了实现数据的运种划分,将ATAC-seq片段分布拟合至下列的总和:1)低 于1个核小体的插入片段大小上片段分布模式的指数函数和2)从一、二、Ξ、四和五个核小 体的保护产生的分布的5个高斯。所显示的运些拟合的总和(黑色虚线)类似于所观察到 的片段分布(蓝线)。垂直虚线是鉴定为源自无核小体(<l(K)bp)、l-核小体、2-核小体和 3-核小体区域的片段的边界。虚线被设置为确保<10%的片段从邻近起源,如由我们的拟 合所限定的。
[0041] 图13 :GM 12878细胞中通过ATAC-seq检测的转录因子足迹的选择组。对于所指 示的转录因子,使用CENTI阳DE在匹配对应基序的全基因组位点集上计算ATAC-seq读数的 集合信号。在基序边界的区域+/-l〇〇bp中计算读数。垂直虚线指示基序的边界。
[004引 图14 :使用ATAC-seq和面ase足迹利用CENTIP邸E预测CTCF结合位点。CTCF结 合位点的预测使用通过由CENTI阳DE报告的后验概率分选的全基因组CTCF基序集来评估。 那些重叠CTCF化IP-seq峰用作阳性集并且所有其它的被认为是阴性集。运产生0.92的 曲线下面积(AUC),其提示CTCF的特异性和灵敏性结合推断。D址e面ase和UW面ase数 据在相同的CENTI阳DE设置下使用,并显示了R0C图。ATAC-seq数据由198X106个配对读 数组成,D址e面ase包含245xl06个读数并且UW面ase包含48x106个读数。
[0043] 图15 :Τ细胞特异性NFAT调节:通过ATAC-seq预测并通过与NFAT化IP-seq(来 自ref35正文的数据)比对确认的T细胞特异性NFAT祀基因的实例。
[0044] 图16 :来自人血的FACS纯化的细胞群的ATAC-seq。(A)从标准抽血,我们使用巧 光激活细胞分选(FAC巧纯化CD4巧细胞、CD8巧细胞和CD14+单核细胞。每个群体产生成 功的ATAC-seq数据度)并掲示了已知的谱系特异性基因上的细胞类型特异性染色质开放 位点。
[0045] 图17 :使用ATAC-seq检测GM12878细胞中的等位基因特异性开放染色质。通过 可公开获得的变体数据,我
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1