用于个人表观基因组学的至天然染色质的转座的制作方法_2

文档序号:9583260阅读:来源:国知局
们测量了假定的杂合基因座上开放染色质区域中的等位基因频 率。由于潜在的虚假杂合位点,我们需要多于两个读数来验证等位基因的杂合性。红点(η =167)是於10 5的候选等位基因特异性开放染色质位点,而灰色(η= 900)代表Ρ<0. 01 的候选物。使用由Audic等人(GenomeResearch1997 7, 986 - 995)开发的贝叶斯模型来 计算P值。
[0046] 图18 :转座酶可用作开放染色质染料。通过用巧光标记的DNA衔接子装载Τη5转 座酶,W绿色显示的转座事件主要定位于细胞核,并表现出与高阶组织一致的点状图案。
[0047] 图19 :相较于50, 000个细胞,来自单个细胞核的单细胞ATAC-seq数据(蓝色)在 全基因组开放染色质的预期位置上显示明显的峰。
[0048] 图20 :单细胞插入片段长度分布与来自50, 000个细胞的分布相匹配,显示因核小 体存在的周期性。
[004引定义
[0050] 除非本文另外定义,否则本文使用的所有技术和科学术语具有与本发明所属领域 中普通技术人员所通常理解的相同的含义。虽然类似或等同于本文描述的方法和材料的任 何方法和材料可用于本发明的实践或测试,但对优选的方法和材料进行了描述。
[0051] 本文引用的所有专利和出版物,包括运些专利和出版物中公开的所有序列,明确 地通过引用并入。
[0052] 数字范围包括限定该范围的数字。除非另外指出,否则分别地,核酸W5'至3'方 向从左到右书写;氨基酸序列W氨基至簇基方向从左至右书写。
[0053] 本文提供的标题不是对本发明的各个方面或实施方案的限制。因此,下文即将定 义的术语通过参考整个说明书会更加充分地定义。
[0054] 除非另有定义,否则本文使用的所有技术和科学术语具有与本发明所属领域中普 通技术人员所通常理解的相同的含义。Singleton等人,DICTIONARYOFMICROBIOLOGY ANDMOLECULARBIOLOGY, 2DED.,JohnWileyandSons,NewYork(1994)W及 化le&Maridiam,T肥HARPERCOIXINSDICTIONARYOFBIOLOGY,化rperPerennial,N. Y. (1991)为技术人员提供了本文所用的许多术语的一般含义。尽管如此,为了清楚和便于 参考的目的,在下文定义了某些术语。
[00巧]如本文所用的术语"样品"设及材料或材料的混合物,其通常含有一种或多种目标 分析物。在一个实施方案中,如在其最广泛的意义上使用该术语,是指含有DNA或RNA的任 何植物、动物或病毒材料,例如,从个体分离的组织或液体(包括但不限于血浆,血清,脑脊 髓液,淋己,泪液,唾液和组织切片)或从体外细胞培养成分分离的组织或液体,W及来自 环境的样品。
[0056] 如本文所用的术语"核酸样品"表示含有核酸的样品。本文所用的核酸样品可W 是复杂的,因为它们包含多个不同的包含序列的分子。来自哺乳动物(例如小鼠或人)的 基因组DNA样品是复杂样品的类型。复杂样品可具有超过约104、105、10 6或10\108、109或 1〇1°个不同的核酸分子。DNA祀可源自任何来源例如基因组DNA或人工DNA构建体。本文 可使用含有核酸的任何样品,例如来自组织培养细胞的基因组DNA或组织样品。
[0057] 如本文所用的术语"混合物"是指元素的组合,所述元素是散布的并且不处于任何 特定的次序。混合物是异质性的并且不可空间分离成其不同的成分。元素的混合物的实例 包括溶解于相同水溶液中的许多不同元素W及在随机位置上(即没有特定的次序)连接至 固体支持物的许多不同的元素。混合物是不可寻址的。为了通过实例说明,如在本领域中通 常已知的在空间上分离的表面结合的多核巧酸的阵列不是表面结合的多核巧酸的混合物, 因为表面结合的多核巧酸的种类是空间上独特的并且阵列是可寻址的。
[0058] 术语"核巧酸"意欲包括不仅包含已知的嚷岭和喀晚碱基还包含已被修饰的其它 杂环碱基的那些部分。运样的修饰包括甲基化的嚷岭或喀晚、酷化的嚷岭或喀晚、烷基化的 核糖或其它杂环。此外,术语"核巧酸"包括含有半抗原或巧光标记的那些部分并且可不仅 包含常规的核糖和脱氧核糖糖类还包含其它糖类。修饰的核巧或核巧酸还包括在糖部分上 的修饰,例如其中一个或多个径基被替换成面素原子或脂族基团,或被官能化为酸、胺或类 似的。
[0059] 术语"核酸"和"多核巧酸"在本文可互换使用来描述任何长度的聚合物,例如大于 约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、 大于10, 000个碱基、大于100, 000个碱基、大于约1,000, 000、多至约1〇1°或更多碱基组成 的核巧酸,例如脱氧核糖核巧酸或核糖核巧酸,并且可W酶促或合成产生(例如,如在美国 专利号5, 948, 902和其中引用的参考文献中描述的PNA),其可W与天然存在的核酸W序列 特异性方式(类似于两个天然存在的核酸的方式)杂交,例如可W参与Watson-化ick碱基 配对相互作用。天然存在的核巧酸包括鸟嚷岭、胞喀晚、腺嚷岭、胸腺喀晚、尿喀晚(分别地 G、C、A、T和U)。DNA和RNA分别具有脱氧核糖和核糖的糖主链,而PNA的主链包括通过肤 键连接的N-(2-氨基乙基)-甘氨酸重复单元。在PNA中各种嚷岭和喀晚碱基通过亚甲基 幾基键连接至主链。通常被称为不可接近RNA的锁核酸(LNA)是一种修饰的RNA核巧酸。 LNA核巧酸的核糖部分被连接2'氧和4'碳的额外桥修饰。该桥将核糖"锁定"在3'-内型 (Nodh)构象,其常见于A-型双链体中。当需要时,可将LNA核巧酸与寡核巧酸中的DNA或 RNA残基混合。术语"非结构化核酸"或"UNA"是包含W降低的稳定性彼此结合的非天然核 巧酸的核酸。例如,非结构化核酸可化含有G'残基和C'残基,其中运些残基对应于非天然 存在的形式,即G和C的类似物,其W降低的稳定性彼此碱基配对但保留分别与天然存在的 C和G残基碱基配对的能力。非结构化核酸描述于US20050233340中,其对于UNA的公开内 容通过引用并入本文。
[0060] 如本文所用的术语"寡核巧酸"表示约2至200个核巧酸、多至500个核巧酸长的 核巧酸单链多聚体。寡核巧酸可W是合成的或者可W酶促制备,并且在一些实施方案中,为 30至150个核巧酸长。寡核巧酸可W包含核糖核巧酸单体(即,可W是寡核糖核巧酸)或 脱氧核糖核巧酸单体或核糖核巧酸单体和脱氧核糖核巧酸单体两者。例如,寡核巧酸可W 是 10 至 20、21 至 30、31 至 40、41 至 50、51 至 60、61 至 70、71 至 80、80 至 100、100 至 150 或150至200个核巧酸长。
[0061] "引物"意指天然或合成的寡核巧酸,其能够在与多核巧酸模板形成双链体后用作 核酸合成的起始点并从其3'末端沿着模板延伸W使得形成延伸的双链体。在延长过程中 添加的核巧酸的序列由模板多核巧酸的序列确定。通常引物通过DNA聚合酶延伸。引物的 长度通常与其在引物延伸产物合成中的使用兼容,并且通常在8至100个核巧酸的范围内, 例如10至75、15至60、15至40、18至30、20至40、21至50、22至45、25至40等。典型的 引物可W在10-50个核巧酸长的范围内,例如15-45、18-40、20-30、21-25等W及在所述范 围之间的任何长度。在一些实施方案中,引物通常不超过约10,12,15, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 35,40,45, 50, 55,60,65 或 70 个核巧酸长。
[0062] 引物通常是单链的W用于最大效率的扩增,但可选择地可W是双链的。如果是双 链的,引物通常首先在用于制备延伸产物之前进行处理W分开其链。此变性步骤通常通过 加热实现,但可选择地可W使用碱来进行,随后进行中和。因此,"引物"与模板互补,并通过 氨键合或杂交与模板复合W产生引物/模板复合物用于起始通过聚合酶的合成,其通过在 其3'末端于DNA合成过程中互补于模板连接的共价键合的碱基的添加来延伸。
[0063] 术语"杂交"或"使杂交"是指其中核酸链的区域在正常杂交条件下退火并与第二 互补核酸链形成稳定的双链体(无论是同源双链体或异源双链体),并且在相同的正常杂 交条件下与不相关的核酸分子不形成稳定的双链体的过程。双链体的形成通过在杂交反 应中退火两个互补核酸链区域来完成。杂交反应可W通过调整在其下发生杂交反应的杂 交条件(通常称为杂交严格性)而成为高度特异性的,使得两条核酸链不会形成稳定的双 链体,例如在正常严格条件下保持双链型区域的双链体,除非运两条核酸链包含基本上或 完全互补的特定序列中的一定数量的核巧酸。"正常杂交或正常严格条件"对于任何给定 的杂交反应可容易地确定。参见例如,Ausubel等人,Qi;rrentProtocolsinMolecular Biology,JohnWiley&Sons,Inc. ,NewYork或Sambrook等人,MolecularCloning:A L油oratoryManual,ColdSpring化rborL油oratoryPress。如本文所用,术语"杂交的" 或"杂交"是指核酸链通过碱基配对与互补链结合的任何过程。
[0064] 如果两个序列在中等至高严格性杂交和洗涂条件下彼此特异性杂交,则核酸被认 为是与参考核酸序列"可选择性杂交的"。中等和高严格性杂交条件是已知的(参见例如, Ausubel等人,ShortProtocolsinMolecularBiology, 3rded. ,Wiley&Sons1995 ? 及Sambrook等人,Mole州larCloning:ALaboratoryManual,ThirdEdition, 2001Cold SpringHarbor,N.Y.)。高严格条件的一个实例包括在约42°C在50%甲酯胺、5XSSC、 SXDenhar化溶液、0. 5%SDS和100μg/ml变性载体DNA中杂交随后在2XSSC和0. 5% SDS中于室溫洗涂两次和在0. 1XSSC和0. 5%SDS中在42°C下洗涂额外两次。
[0065] 如本文所用的术语"双链体"或"双链的"描述碱基配对即杂交在一起的两个互补 的多核巧酸区域。
[0066] 如本文所用的术语"扩增"是指合成与模板核酸的一条或两条链互补的核酸分子 的过程。扩增核酸分子可包括使模板核酸变性,在低于引物的解链溫度的溫度下将引物退 火至模板核酸,W及从引物酶促延伸W产生扩增产物。变性、退火和延伸步骤各自可进行一 次或多次。在某些情况下,变性、退火和延伸步骤进行多次,使得扩增产物的量增加,常常指 数倍增,尽管指数扩增不是本方法所需的。扩增通常需要存在脱氧核巧Ξ憐酸、DNA聚合酶 和合适的缓冲液和/或用于聚合酶的最佳活性的辅因子。术语"扩增产物"是指从如本文 所定义的扩增过程产生的核酸。
[0067] 术语"确定V测量V评估V评价V测定"和"分析"在本文可互换使用,其指任 何形式的测量并且包括确定元素是否存在。运些术语包括定量和/或定性测定。评估可W 是相对或绝对的。"评估…的存在"包括测定某物质的存在量W及确定其是存在或不存在。 [006引术语"使用"具有其常规含义,并因此,意指采用(例如使投入使用)方法或组合 物w实现目的。例如,如果使用程序来创建文件,则执行程序w制作文件,该文件通常是该 程序的输出。在另一个实例中,如果使用计算机文件,则其通常被存取、读取并且存储在该 文件中的信息被用来实现目的。类似地,如果使用独特的标识符,例如条形码,则该独特的 标识符通常被读取W鉴定例如与该独特的标识符相关联的对象或文件。
[0069] 如本文所用的术语"连接(ligating)"是指第一DNA分子的5'末端上的末端核巧 酸与第二DNA分子的3'末端上的末端核巧酸的酶促催化连接。
[0070] "多个"包含至少2个成员。在某些情况下,"多个"可具有至少2个、至少5个、至 少10个、至少100个、至少100个、至少10, 000个、至少100, 000个、至少106个、至少10 7 个、至少l〇s个或至少10 9个或更多个成员。
[0071] 如果两个核酸是"互补的",则它们在高严格条件下彼此杂交。术语"完全互补"用 于描述其中一个核酸的每个碱基与另一个核酸中的互补核巧酸碱基配对的双链体。在许多 情况下,互补的两个序列具有互补的至少10个例如至少12个或15个核巧酸。
[0072] "寡核巧酸结合位点"是指寡核巧酸在祀多核巧酸中杂交的位点。如果寡核巧酸 "提供"针对引物的结合位点,则该引物可W杂交至该寡核巧酸或其互补体。
[0073] 如本文所用的术语"链"是指由通过共价键(例如憐酸二醋键)共价连接在一起 的核巧酸构成的核酸。在细胞中,DNA通常W双链形式存在,并因此具有核酸的两条互补 链,其在本文中称为"顶部"和"底部"链。在某些情况下,染色体区域的互补链可W被称为 "正"和"负"链、"第一"和"第二"链、"编码"和"非编码"链、"沃森"和"克里克"链或"有 义"和"反义"链。链作为顶部或底部链的分配是任意的,并不意味着任何特定的方向、功能 或结构。几个示例性哺乳动物染色体区域(例如,BAC、组装体、染色体等)的第一链的核巧 酸序列是已知的,并且可见于例如NCBI'SGenbank数据库。
[0074] 如本文所用的术语"顶部链"是指核酸的任一链但不是核酸的两条链。当寡核巧 酸或引物结合或退火至"仅顶部链"时,其仅结合至一条链而不结合至另一条链。如本文所 用的术语"底部链"是指与"顶部链"互补的链。当寡核巧酸结合或退火至"仅一条链"时, 其仅结合至一条链例如第一或第二链,但不结合至另一条链。
[0075] 如本文所用的术语"测序"是指通过其获得对多核巧酸的至少10个连续核巧酸的 识别(例如,识别至少20、至少50、至少100或至少200个或更多个连续核巧酸)的方法。 [007引术语"下一代测序"或"高通量测序"是指目前由Illumina、Life Technologies和 Roche等采用的所谓并行合成测序或连接测序平台。下一代测序方法还可包括纳米孔测序 方法或基于电子检测的方法,例如由Life Technologies商业化的Ion Torrent技术或由 Pacific Biosciences商业化的基于单分子巧光的方法。
[0077] 如本文所用的术语"条形码序列"或"分子条形码"是指用于a)鉴定和/或示 踪反应中多核巧酸的来源和/或b)对初始分子被测序的次数进行计数(例如,在其中 样品中的基本上每个分子用不同的序列标记,然后将样品扩增的情况下)的核巧酸的独 特序列。条形码序列可W是在寡核巧酸的5'末端、3'末端或在中间。条形码序列可在 大小和组成上差别很大;下面的参考文献提供了用于选择适合用于具体实施方案的条 形码序列集的指导:化enner,美国专利号5, 635, 400 ;Brenne;r等人,Proc.化tl.Acad. Sci., 97:1665-1670 (2000) ;Shoemake;r等人,NatureGenetics, 14:450-456(1996); 1〇''13等人,欧洲专利申请079989741;胖曰11曰〇6,美国专利号5,981,179等。在具体的实 施方案中,条形码序列可具有4至36个核巧酸或6至30个核巧酸或8至20个核巧酸范围 内的长度。
[0078] 术语"体外"是指在具有分离的部件的容器中而不是在细胞中发生的反应。
[0079] 在沿着祀核酸分子的长度上分布的切割位点的上下文中,术语"分布"是指沿着祀 核酸分子的长度上彼此间隔的插入。不需要所有插入W相同的量间隔开。相反,插入之间 的间距可W是随机的、半随机的或不是随机的。
[0080] 如本文所用的术语"染色质"是指包含蛋白质和多核巧酸(例如DNA、RNA)的分子 的复合物,如发现于真核细胞的细胞核中的。染色质部分地由形成核小体的组蛋白、基因组 DNA和通常结合至基因组DNA的其它DNA结合蛋白(例如转录因子)组成。
[0081] 如本文所用的术语"处理"是指在导致反应(例如切割)的条件(例如,合适的溫 度、时间和条件)下的组合。
[0082] 如本文所用的术语"分离自细胞群的染色质"是指被使得成为可用的染色质的来 源。分离的细胞核(其可被裂解W产生染色质)W及分离的染色质(即,裂解的细胞核的 产物)均被认为是分离自细胞群的染色质类型。
[0083] 如本文所用的术语"转录因子"是指可W自身地或与至少一种其它多肤组合 地起作用W调苄基因表达水平的任何多肤。该术语包括但不限于,直接结合DNA序列 的多肤。转录因子可W增加或抑制表达水平。转录因子的实例包括但不限于Myc/Max, AP-lGun,化s,AT巧CREB,SMAD,HIF,ETS,ERG,ELK,STAT,雌激素受体巧时,雄激素受体 (AR),糖皮质激素受体佑时,孕激素受体(PR),NFkB,p53, 0CT,SOX和PAX。转录因子可 W是通过序列分析鉴定的转录因子,或是先前未被表征为转录因子的天然存在的阅读框序 列。多肤还可W是人工产生的或经化学或酶修饰的多肤。
[0084] 如本文所用的术语"插入酶复合物(insertionalenzymecomplex)"是指包含插 入酶和两个衔接分子("转座子标签")的复合物,其与多核巧酸组合W分割多核巧酸并将 衔接子添加至多核巧酸。运样的系统描述于各种出版物中,包括Caruccio(MethodsMol. Biol. 2011 733:241-55)和US20100120098,其W引用的方式并入本文。
[0085] 如本文所用的术语"标记片段"是指连接至标签的多核巧酸片段。
[0086] 如本文所用的术语"区域"是指生物体基因组中连续长度的核巧酸。染色体区域可 W在化P至整个染色体长度的范围内。在一些情况下,区域可具有至少2(K)bp、至少50化口、 至少为化b、至少10化或至少100化或更多(例如,多至1Mb或10Mb或更多)的长度。基 因组可来自任何真核生物,例如动物或植物基因组,例如人、猴、大鼠、鱼或昆虫的基因组。
[0087] 如本文所用的术语"表观遗传图谱"是指表观遗传特征的任何表示法,所述特征为 例如核小体、无核小体区域的位点、转录因子的结合位点等。图谱可W物理展
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1