一种单细胞Hi-C文库构建方法与流程

文档序号:37552164发布日期:2024-04-08 14:02阅读:10来源:国知局
一种单细胞Hi-C文库构建方法与流程

本发明涉及一种单细胞hi-c文库构建方法,属于基因测序。


背景技术:

1、染色质构象捕获(chromatin conformation capture)是一种分子生物学技术,用于研究染色体内部三维结构的空间组织。它在揭示基因组三维结构、理解基因调控机制、研究疾病发生机制以及推动药物研发等方面具有重要的意义。从2002年deker提出3c,随着研究水平的提升逐渐衍生出4c、5c、chia-pet、hi-c、capture hi-c等技术。这些方法都在不同程度上揭示了染色体内部的三维结构和相互作用,为研究基因调控、基因组稳定性和疾病发生提供了重要的工具。

2、传统的hi-c技术通常需要大量的细胞来获取足够的dna片段进行分析。由于不同细胞之间的基因组结构存在差异,因此单细胞hi-c技术应运而生。单细胞hi-c技术能够揭示不同细胞之间的基因组结构差异,为研究细胞类型间的基因组结构差异、细胞发育和疾病中的细胞异质性提供了突破性的机会。然而,由于起源于hi-c的单细胞hi-c技术和hi-c一样通常需要通过生物素调取重连片段,通常会存在建库周期长,成功率低的问题。并且,添加了生物素但未重连的片段会和重连片段一起被生物素调取,在之后的测序过程中被检测。未重连片段是与分析染色质的空间组织和结构无关的无效片段,被检测后会成为数据分析时的噪音数据,如dangling end(末端悬挂)等。因此,无效片段和噪音数据的比例一直是影响单细胞hi-c技术检测成本和检测质量的重要因素。此外,单细胞hi-c技术检测的是染色体经重连后的dna片段,其重连位置并不确定,在对测序结果进行数据分析时,需要先寻找重连位点,否则无法与参考基因组进行序列比对,使得分析处理复杂耗时。


技术实现思路

1、鉴于上述现有技术中存在的不足,本发明的目的在于提供一种用时少、无效片段比例低且便于实验操作和分析的单细胞hi-c文库构建方法。

2、本发明为解决上述问题进行了深入研究,结果发现:通过对单细胞hi-c技术进行改进,使用特殊的测序接头,特别是设置有测序引物序列的测序接头,将测序接头插入在重连片段内部,使得只有含重连片段的分子才会被测序仪检测到,获得无效片段占比更低的文库。通过本发明的文库构建方法能够降低文库对样本起始量和测序量的要求,同时还能省去生物素标记和调取重连片段的步骤,缩短建库时间从整体上降低了单细胞hi-c建库成本和检测成本,从而完成了本发明。通过采用本发明的单细胞hi-c文库构建方法,可以实现建库时间短,成本低,有效数据比例高的单细胞hi-c文库。

3、即,本发明包括,

4、1.一种单细胞hi-c文库构建方法,该方法包括以下步骤:

5、交联:将样本细胞内的dna与蛋白质交联,得到交联体;

6、酶切:酶切交联体中的dna,得到交联的dna片段;

7、加测序接头:将交联的dna片段加测序接头,得到加测序接头的dna片段,所述测序接头包括至少一段测序引物序列;

8、重连dna片段:将加测序接头的dna片段重新连接,得到交联的重连dna片段。

9、分离单细胞;

10、解交联:将交联的重连dna片段与蛋白质解交联,得到重连dna片段;

11、加文库接头,所述文库接头包括第一文库结构序列和第二文库结构序列;

12、文库扩增:采用带有第一文库结构序列的引物和带有第二文库结构序列的引物,对加文库接头的dna片段进行扩增,得到单细胞hi-c文库。

13、2.根据项1所述单细胞hi-c文库构建方法,所述加测序接头的dna片段通过其带有的测序接头重新连接,所述重连dna片段内部包括两个测序接头。

14、3.根据权利要求1所述单细胞hi-c文库构建方法,所述测序接头的长度为10-40bp,优选为10-30bp,更优选为15-25bp。

15、4.根据项1所述单细胞hi-c文库构建方法,所述测序接头由两条dna单链组成,所述测序引物序列设置在3'端与所述交联的dna片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。

16、5.根据项4所述单细胞hi-c文库构建方法,所述设置测序引物序列的单链的5'端为突出的seq id no:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的seq id no:1所示核苷酸序列,

17、seq id no:1:5'-n1……nmn'1……n'm-3',其中,n为a、t、c、g脱氧核糖核苷酸中的任意一种,n1……nm与n'm……n'1为反向互补序列,m为1-4,优选的m为1-3,更优选的m为1-2,最优选的m为1。

18、6.根据项1所述单细胞hi-c文库构建方法,其中,在酶切步骤后对交联的dna片段进行末端修复和加a处理。

19、7.根据项6所述单细胞hi-c文库构建方法,其中,设置测序引物序列的单链的3'端为突出的t。

20、8.根据项7所述单细胞hi-c文库构建方法,所述测序接头由seq id no:2和seq idno:3所示核苷酸序列组成,

21、seq id no:2:5'-cgtgtgctgtgactggagt-3',

22、seq id no:3:5'-ctccagtcacagcaca-3'。

23、9.根据项1所述单细胞hi-c文库构建方法,其中,所述文库接头还包括细胞条码。

24、10.根据项9所述单细胞hi-c文库构建方法,其中,所述细胞条码与所述第一文库结构序列直接相连。优选地,所述细胞条码设置在靠近重连dna片段的一端。

25、11.根据项9所述单细胞hi-c文库构建方法,所述细胞条码的长度为4-25bp,优选地6-10bp,更优选地8-16bp。

26、12.根据项1所述单细胞hi-c文库构建方法,在解交联步骤后对重连dna片段进行进行片段化和加a处理。

27、13.根据项1所述单细胞hi-c文库构建方法,所述文库接头由seq id no:4和seqid no:5所示核苷酸序列组成,

28、seq id no:4:5'-gtgaagatctcgtatgccgtcttctgcttg-3',

29、seq id no:5:5'-aatgatacggcgaccaccgagatctacac-nn nnnnnnnn-cttcact-3'。

30、14.根据项1所述单细胞hi-c文库构建方法,其中,所述加测序接头的步骤采用的试剂体系为:1x neb t4 dna ligase buffer,400,000u/ml neb t4 dna ligase,和0.1mm测序接头。

31、15.一种单细胞hi-c文库,其通过项1-14任一项所述单细胞hi-c文库构建方法获得,所述重连片段的内部包括两段测序引物序列,所述测序接头包括至少一段测序引物序列。

32、16.一种单细胞hi-c文库的检测方法,其通过对项15所述单细胞hi-c文库构建方法构建的单细胞hi-c文库进行测序。其是将重连片段内部的测序引物序列作为测序起始点。

33、根据本发明的一个方面,提供一种单细胞hi-c文库构建方法,该方法包括:交联样本细胞内的dna与蛋白质,酶切交联体中的dna,加测序接头,重连dna片段,分离单细胞,解交联,加文库接头,和文库扩增的步骤。

34、在上述单细胞hi-c文库构建方法中,

35、交联的步骤是将样本细胞内的dna与蛋白质交联得到交联体。交联体能够保持dna片段和相关蛋白质之间的物理相互作用。可以采用的交联试剂例如甲醛。

36、酶切的步骤是将交联体中的dna进行酶切得到交联的dna片段。酶切试剂可以采用限制性内切酶或非限制性内切酶。

37、加测序接头是将交联的dna片段加测序接头得到加测序接头的dna片段。所述测序接头包括至少一段测序引物序列。

38、接头通常为一段已知的短核苷酸序列,用于连接未知的测序片段,可以使测序产物与计算机系统建立联系。在本发明中,测序接头是包括与测序过程相关的核苷酸或核苷酸序列的接头。这些与测序过程相关的核苷酸或核苷酸序列可以是测序引物。测序引物是指在测序过程中,dna合成起点的短核苷酸序列链。即,可以作为序列检测起点的核苷酸序列。例如,illumina测序平台提供的read1或read2的测序引物等,其通常会被用作illumina测序平台测序时dna合成起点,即测序检测的起点。在本发明的具体实施方式中,测序引物序列可以是商品化的序列,例如,illumina测序平台的read1或read2的测序引物序列等,也可以是根据测序需要定制的测序引物序列。

39、重连dna片段的步骤是将交联的dna片段重新连接得到交联的重连dna片段。经过酶切的dna片段被重新绑定。三维空间临近的dna片段高概率的结合在一起,即可能存在相互作用关系的dna片段被重新连接,从而使得检测是哪些片段之间有相互作用关系成为可能。在本发明中,重连片段经由加测序接头的dna片段通过其添加的测序接头重新连接获得。得到的重连dna片段内部通常包括两个测序接头。

40、分离单细胞核的步骤是将单个细胞或细胞核从大量样本细胞或细胞核中分离出来,并用于后续步骤的操作。通常采用流式细胞仪分选、显微镜下毛细管吸取、梯度稀释或直接稀释等方法。如,将样本细胞核以1个细胞每孔的浓度置于多孔板中,可以采用流式细胞仪分选、显微镜下毛细管吸取、梯度稀释或直接稀释到每孔液体量含一个细胞的浓度等方法。

41、解交联的步骤是将交联的重连dna片段与蛋白质解交联得到重连dna片段,即可能存在相互作用关系的dna片段经过重新连接所获得的dna片段,也即重连dna片段。解交联可以采用含有蛋白酶k的试剂。

42、加文库接头的步骤是将重连dna片段两端加文库接头。所述文库接头包括第一文库结构序列和第二文库结构序列。

43、在本发明中,文库接头是指在建库过程中在待测dna片段两端加上能够与测序仪配合测序的一段核苷酸序列,是待测dna片段与测序载体,如测序芯片(flow cell)等,连接的重要桥梁。因为获取自生物样本的dna,其结构本身存在不能直接在测序平台进行检测可能。为符合测序平台或测序芯片对测序片段结构的要求,通常需要对获取的dna进行处理,使其形成符合测序平台或测序芯片要求的文库,然后再将制备好的文库上机测序。制备文库过程中所使用的接头称为文库接头。与本发明中采用的文库接头仅含有将待测dna片段与测序载体连接的桥梁不同,现有技术通常采用的文库接头既包含了将待测dna片段与测序载体连接的桥梁,也包含了检测文库插入片段的测序引物序列。

44、在本发明中,文库结构相关序列是指文库片段中除去未知的样本片段和测序引物序列外的其他序列。这些序列可以具有不同的功能。而具有相同功能的序列可以是一个或两个以上。不同的功能可以是用于例如,与测序平台或测序芯片关联,或标记样本的标签等,但不包含标记测序起始位点的功能。如illumina测序平台提供的p5,p7,index1,index2序列,或与这些序列反向互补的序列等,其与illumina测序平台或芯片相关联。例如,p5,p7序列,或其反向互补序列通常与illumina测序芯片上设置的固定序列相匹配,是该平台测序时常用的关联序列。index序列可以用于区分不同的样本和实现多个样本的同时检测。在本发明的具体实施方式中,文库结构序列可以是商品化的序列,也可以是根据测序需要定制的序列。

45、在本发明中,所述所述第一和/或第二文库结构序列可以是文库结构序列的全部或部分的序列。其中,所述部分的第一和/或第二文库结构序列是指其长度与全部文库结构序列的长度成一定的比例。这个比例可以为1/3以上,优选为1/2以上,更优选为3/4以上,更优选为9/10以上,最优选为1。

46、文库扩增是采用带有第一文库结构序列的引物和带有第二文库结构序列的引物,对加文库接头的dna片段进行扩增,得到单细胞hi-c文库。

47、文库扩增采用的试剂可以选自dna聚合酶,rna聚合酶,dna连接酶、rna连接酶、引物和缓冲体系中的一种或两种以上。或者用于文库扩增的商品化试剂盒。

48、在本发明中,“第一”或“第二”的描述是为区别,如不同的测序接头、文库接头、文库结构序列或测序关联序列等在功能上相同或相近,但在结构或其他性质上有所区别的特征。测序接头、文库接头、文库结构序列和测序关联序列等特征如前述,在此不再赘述。

49、进一步地,在上述单细胞hi-c文库构建方法中,加测序接头的dna片段通过其带有的测序接头重新连接,所述重连dna片段内部包括两个测序接头,即可能存在相互作用关系的dna片段之间包含两个测序接头。

50、进一步地,在上述单细胞hi-c文库构建方法中,所述测序接头由两条dna单链组成,所述测序引物序列设置在3'端与所述交联的dna片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。测序引物序列的长度为10-40bp,优选为10-30bp,更优选为15-25bp。测序引物序列的长度与其所在单链长度的比例为1/2以上,优选的比例为3/4以上,更优选地比例为4/5以上。测序引物序列可以是测序引物的全部或部分序列。其中,所述部分的测序引物序列是指其长度与全部测序引物的长度成一定的比例。这个比例可以为1/3以上,优选为1/2以上,更优选为3/4以上,更优选为9/10以上,最优选为1。

51、进一步地,在上述单细胞hi-c文库构建方法中,所采用测序接头的优选长度为15-25bp,且在其长度范围内±10bp,优选±5bp,也能获得不错的实验结果。

52、进一步地,在上述文库构建方法中,所述测序引物序列设置在所述测序接头其中一条链的3'端。所述测序引物序列的长度与测序接头的长度的比例为1/3以上,优选的比例为1/2以上,更优选地比例为3/4以上,更优选地比例为9/10以上。

53、进一步地,在上述单细胞hi-c文库构建方法中,可以对dna片段加优选地测序接头。具体的,所述设置测序引物序列的单链的5'端为突出的seq id no:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的seq id no:1所示核苷酸序列。seq id no:1:5'-n1…nmn'1…n'm-3',其中,n为a、t、c、g碱基脱氧核糖核苷酸中的任意一种,n1…nm与n'm…n'1为反向互补序列,m为1-4,优选地m为3,更优选地m为2,最优选地m为1。所述加测序接头的dna片段通过测序接头突出的seq id no:1相连接,成为重连片段。

54、进一步地,在上述单细胞hi-c文库构建方法中,在酶切步骤后可以对交联的dna片段进行末端修复和加a处理。末端修复是指将损坏或不完全的,如经过酶切处理或其他打断处理的,dna片段的末端进行修补,使其末端都能够以双链形式存在,即平末端,而不存在单链的游离和核苷酸序列。加a通常是指对末端没有单链游离核苷酸序列的双链dna片段的每条链的3'末端加上一个腺嘌呤(a)脱氧核糖核苷酸。

55、进一步地,在上述单细胞hi-c文库构建方法中,可以对加a的dna片段加优选地测序接头。优选地测序接头在设置测序引物序列的单链的3'端为一个突出的胸腺嘧啶(t)脱氧核糖核苷酸。这样的处理能够获得3'端为突出t的测序接头。采用3'端为突出的t测序接头能够使得测序接头与带有a尾的dna片段顺利连接。

56、进一步地,在上述单细胞hi-c文库构建方法中,对加a的dna片段加优选地测序接头。优选地测序接头在未设置测序引物序列的单链的3'端不为a。这样可以有效避免接头间的互相连接。

57、进一步地,在上述单细胞hi-c文库构建方法中,对加a的dna片段加更优选地测序接头。测序接头可以采用seq id no:2和seq id no:3所示序列经退火处理的产物,

58、seq id no:2:5'-cgtgtgctgtgactggagt-3'

59、seq id no:3:5'-ctccagtcacagcaca-3'。

60、在本发明中,测序引物序列可以采用illumina测序平台提供的测序引物中的一种,例如read1或read2的测序引物序列。也可以采用根据样本或平台的特殊性选择其他定制化序列。

61、在本发明中,细胞条形码是指用于区分单个细胞的标记,其通过引入独特的dna序列标记,可以对单个细胞进行标识和追踪。在上述单细胞hi-c文库构建方法中,通过在文库接头中增加细胞条码,如seq id no:5中多个n组成的核苷酸序列,对单细胞进行标记,以便在数据分析过程中区分不同的单细胞。细胞条码可以采用约4-25bp的核苷酸序列。

62、进一步地,在上述单细胞hi-c文库构建方法中,所述细胞条码与所述第一文库结构序列直接相连。优选地,细胞条码设置在靠近重连dna片段的一端。例如,seq id no:5中细胞条码设置在第一文库结构序列的3'端。优选地细胞条码长度为6-20bp,更优选地8-16bp。

63、进一步地,在上述单细胞hi-c文库构建方法中,在解交联步骤后对重连dna片段进行进行片段化和加a处理。在文库构建中,片段化通常指将较长的dna片段通过酶切等方法片段化成长度适宜测序仪的文库插入片段大小,优选地片段化为平均片段长度为200-1000bp,更优选地片段化为平均片段长度为300-800bp,最优选地片段化为平均片段长度为400-700bp,片段化可以采用的方法如,非限制性内切酶酶切,或超声打断等方式。加a处理的说明如上所述,在此不再赘述。

64、进一步地,在上述单细胞hi-c文库构建方法中,文库接头是由seq id no:4和seqid no:5所示序列组成的,

65、seq id no:4:5'-gtgaagatctcgtatgccgtcttctgcttg-3',

66、seq id no:5:5'-aatgatacggcgaccaccgagatctacac-nnnnnn-cttcact-3'。

67、进一步地,在上述单细胞hi-c文库构建方法中,连接测序接头可以使用试剂,如t4dna连接酶,t4 dna连接酶缓冲液等。连接测序接头可以采用试剂体系:1x neb t4 dnaligase buffer,400,000u/ml neb t4 dna ligase,和0.1mm测序接头。

68、进一步地,在上述单细胞hi-c文库构建方法中,连接文库接头可以使用试剂,如t4dna连接酶,t4 dna连接酶缓冲液等。连接文库接头可以采用试剂体系:10x neb t4 dnaligase buffer,400,000u/ml neb t4dna ligase,和0.1mm文库接头。

69、进一步地,在上述单细胞hi-c文库构建方法中,文库扩增可以采用pcr用试剂比如neb q5高保真聚合酶、kapa hifi hot start ready mix。

70、根据本发明的另一方面,还提供了一种单细胞hi-c文库,其通过上述文库构建方法获得。所述重连片段的内部包括两个测序接头。所述测序接头包括一段测序引物序列。两个测序接头通过seq id no:1反向互补配对而插入在两段具有空间相互作用的dna片段之间。即重连片段的内部包括两个测序接头。

71、根据本发明的另一方面,还提供了一种单细胞hi-c文库的检测方法,其通过对上述单细胞hi-c文库进行测序,从重连片段内部的两个测序引物序列分别向重连片段两端进行检测。即测序引物序列从加测序接头的dna片段的内部为测序起始点读取序列,而不是从重连片段两端为测序起始点读取序列。

72、在本发明中,经过加测序接头的操作可以使交联的dna片段连接上带有特殊序列的测序接头,之后的重连步骤使得被相关联蛋白质交联的dna片段通过测序接头相连接。测序接头成为连接酶切dna片段的桥梁。这样的连接方式能够使得重连dna片段在重连位置插入了两个测序接头。只有含两个测序接头的重连片段才能够被测序仪在双端测序中检测到,从而降低了无效片段进入文库和测序的比例。同时,因为测序起始点(如测序引物)位于两条重连dna片段之间,在进行双端测序的时候每端只会读取两条重连dna片段中的一条,在与参考基因组序列比对的时候可以直接比对,节省分析时间。

73、本发明的方法通过在片段重连处理之前为dna片段连接特殊的测序接头及其他多步优化,使得本发明的方法更为便捷,无需进行生物素调取,并且文库的有效片段占比大幅度提高。同时,与现有单细胞hi-c方法相比,本发明的方法能降低建库成本,缩短建库时间。即与现有技术相比,本发明实现了一种用时少、成本低、无效片段占比低且便于实验操作和分析的单细胞hi-c文库构建方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1