一种构建原核生物RNA测序文库的方法

文档序号:30529927发布日期:2022-06-25 09:43阅读:127来源:国知局
一种构建原核生物RNA测序文库的方法
一种构建原核生物rna测序文库的方法
技术领域
1.本发明涉及一种构建原核生物rna测序文库的方法,属于基因测序技术领域。


背景技术:

2.随着基因测序技术水平的提高以及人类基因组计划、癌症基因组计划、meta-hit计划等重大项目的相继开展,基因组研究和rna测序日渐成为生物和医学研究的有力工具。大量生物学和医学研究的新成果是由rna测序发现或验证的。然而,目前多数rna研究的对象是真核生物,这也与真核生物rna测序建库方法的准确率和稳定性优于原核生物测序建库方法有一定关系,因此,对原核生物的rna研究需要更好的rna测序建库方法支持。
3.真核生物和原核生物的信使rna(mrna)都占其总rna的5-10%,而核糖体rna(rrna)却占rna总量80%以上。mrna携带遗传信息并能指导蛋白质合成,是rna测序的主要研究对象。而rrna并不携带遗传信息,因此在构建rna测序文库时需要去除rrna以减少无用测序。传统的原核生物rna测序需要通过随机引物反转录rna,获得cdna并建库。由于使用了随机引物,每条rna上会结合多条引物进行反转录,这会导致不可预测的扩增偏好,影响检测的准确性。同时由于随机引物结合能力参差不齐,不适用于极低起始量(0.02-20ng)的样本。在2020年,chatarin wangsanuwat等发明了embr-seq,用封闭引物结合rrna,通过反转录获得mrna反转录的cdna并构建测序文库。该方法有两个缺点,一是反转录所用引物的调取效率和特异性不高,在低起始量样本中会表现出调取基因数量较低。二是rrna封闭引物操作复杂,而rna样本又极易降解,很容易在反转录步骤之前就发生了严重的rna降解现象,因此该方法的建库成功率会低于传统方法。


技术实现要素:

4.鉴于上述现有技术中存在的不足,本发明的目的在于提供一种高效、高成功率、低偏好性、便于实验操作的构建原核生物rna测序文库的方法。
5.本发明为解决上述问题进行了深入研究,结果发现:通过对原核生物的rna加包含分子标签的特殊延长序列,这样处理的rna能够直接使用部分序列与特殊的延长序列反向互补的引物进行反转录,同时还能够在反转录出的cdna中包含延长序列中的分子标签,通过分子标签可以解决pcr偏好性的问题。这样既高效地捕捉了rna,又降低了测序数据的偏好性,提高测序结果的准确率。此外,还在cdna扩增之后进行去除rrna的步骤,这样在反转录前rna仅需加延长序列这一步处理,通过尽量减少反转录前的操作降低了rna降解的风险。通过采用本发明的rna文库构建方法,可以高成功率、高效、简便地获得低偏好性的原核生物rna测序文库。
6.即,本发明包括,
7.1.一种构建原核生物rna测序文库的方法,该方法包括下述步骤:
8.获取rna:提取原核生物的rna序列;
9.加延长序列:在rna序列的3'端加如seq id no.1所示的核苷酸序列,得到延长的
rna序列;
10.反转录:对延长的rna序列采用如seq id no.2所示的核苷酸序列进行反转录得到cdna序列;
11.建库:采用cdna序列构建测序用文库。
12.2.根据项1所述的方法,其中,所述反转录步骤之后进行去除rrna的步骤。
13.3.根据项1所述的方法,其中,提取的原核生物rna的质量为10-5

10
20
ng个,优选的质量为10-3

106ng,更优选的质量为10-2

10
20
ng。
14.4.根据项1所述的方法,其中,seq id no:1所示的核苷酸序列由脱氧核糖核苷酸和/或核糖核苷酸组成,优选的核糖核苷酸的比例为0-80%,更优选的核糖核苷酸的比例为0-50%,进一步优选的核糖核苷酸的比例为0-25%,进一步优选的核糖核苷酸的比例为0-10%,最优选的核糖核苷酸的比例为0,即此时seq id no:1所示的核苷酸序列均由脱氧核糖核苷酸组成。
15.5.根据项1所述的方法,其中,seq id no:2所示的核苷酸序列由脱氧核糖核苷酸和/或核糖核苷酸组成,优选的核糖核苷酸的比例为0-80%,更优选的核糖核苷酸的比例为0-50%,进一步优选的核糖核苷酸的比例为0-25%,进一步优选的核糖核苷酸的比例为0-10%,最优选的核糖核苷酸的比例为0,此时seq id no:2所示的核苷酸序列均由脱氧核糖核苷酸组成。
16.6.根据项1所述的方法,其中,在所述反转录步骤之后对cdna序列进行pcr得到扩增的cdna序列。
17.7.一种原核生物rna测序文库,其通过权利要求1-6任一项所述的方法获得,其至少包含rna序列或其反向互补序列,以及分子标签或其反向互补序列。
18.8.一种原核生物rna测序文库的测序方法,其对通过权利要求1-6任一项所述的方法构建的文库进行测序。
19.根据本发明的一个方面,提供一种构建原核生物rna测序文库的方法,包括:获取rna:提取原核生物rna序列;加延长序列:在rna序列的3'端加如seq id no.1所示的核苷酸序列,得到延长的rna序列;反转录:对延长的rna序列采用如seq id no.2所示的核苷酸序列进行反转录得到cdna序列;以及,建库:采用扩增的cdna序列构建测序用文库。
20.在本发明中,“原核生物”是指一类细胞核无核膜包裹,只存在称作核区的裸露dna的原始生物。原核生物的样本类型包括但不限于:革兰氏阴性菌,革兰氏阳性菌,细菌、蓝藻、放线菌、支原体、衣原体、立克次氏体;这些细胞来源包括但不限于:原代培养、细胞系培养、组织、生物体、环境来源。
21.在上述构建原核生物rna测序文库的方法中,在rna序列的3'端加的特异核苷酸序列是如seq id no:1所示的核苷酸序列。
22.seq id no:1序列:5'-(m)k(n)
a-3',
23.其中,(m)k为分子标签,m选自a、t、c、g、u五种碱基中的任意一种;优选地m选自a、t、c、g、四种碱基中的任意一种。(m)k中碱基的组合可以是完全随机的,也可以是预设的有限的数量为10-10
20
个组合,优选的组合数量为10
2-10
10
,更优选的组合数量为10
3-107。可以是随机的碱基组合。k为6以上的自然数;优选地k为6-50;更优选地k为8-30;进一步优选地k为10-20。n选自a、t、c、g、u五种碱基中的任意一种;优选地n选自a、t、c、g、四种碱基中的任
意一种。a为6以上自然数;优选地a为6~1000;更优选地a为6~100;进一步优选地a为10~30。优选的seq id no:1不会有连续10个以上的碱基与其余序列反向互补,以避免序列自身形成发卡结构。
24.在上述构建原核生物rna测序文库的方法中,seq id no:1所示的核苷酸序列由核糖核苷酸和/或脱氧核糖核苷酸组成,优选的核糖核苷酸的比例为0-80%,更优选的核糖核苷酸的比例为0-50%,进一步优选的核糖核苷酸的比例为0-25%,进一步优选的核糖核苷酸的比例为0-10%,最优选的核糖核苷酸的比例为0,即此时seq id no:1所示的核苷酸序列均由脱氧核糖核苷酸组成。
25.在本发明中,如seq id no.1所示的核苷酸序列是经特殊设计的延长序列,能够用于与rna进行连接。
26.在上述构建原核生物rna测序文库的方法中,加延长序列的试剂可以是选自连接、修饰、聚合或延长脱氧核糖核酸或核糖核酸的酶。具体可以是选自磷酸化酶,dna连接酶,rna连接酶,dna聚合酶,rna聚合酶,反转录酶中的一种或两种以上的组合。优选为dna连接酶或rna连接酶中的一种。更优选为rna连接酶。
27.在上述构建原核生物rna测序文库的方法中,对延长的rna序列进行反转录的核苷酸序列是如seq id no.2所示的核苷酸序列。
28.seq id no:2序列:5'-(n)'
b-3',
29.其中,b为6以上的自然数;优选地b为6-100;更优选地b为10-50;进一步优选地b为12-30。n选自a、t、c、g、u五种碱基中的任意一种;优选地n选自a、t、c、g、四种碱基中的任意一种。(n)'b与(n)a核苷酸序列部分或全部反向互补。优选地(n)'b与(n)a有6个以上碱基反向互补;更优选地(n)'b与(n)a有6-50个碱基反向互补,进一步优选地(n)'b与(n)a有7-40个碱基反向互补,进一步优选地(n)'b与(n)a有8-30个碱基反向互补。
30.在上述构建原核生物rna测序文库的方法中,seq id no:2所示的核苷酸序列由核糖核苷酸和/或脱氧核糖核苷酸组成,优选的核糖核苷酸的比例为0-80%,更优选的核糖核苷酸的比例为0-50%,进一步优选的核糖核苷酸的比例为0-25%,进一步优选的核糖核苷酸的比例为0-10%,最优选的核糖核苷酸的比例为0,即此时seq id no:2所示的核苷酸序列完全由脱氧核糖核苷酸组成。
31.在本发明中,如seq id no.2所示的核苷酸序列是引物序列,也是带有与延长序列全部或部分反向互补的序列,其是带有分子标签的引物序列,能够用于特异性识别、调取和反转录带有特殊设计的延长序列的rna序列。在上述构建原核生物rna测序文库的方法中,加标签序列的试剂可以是选自反转录酶,dna连接酶,rna连接酶,dna聚合酶,rna聚合酶,template switching rt enzyme mix中的一种或两种以上的组合。最优的选择为反转录酶或template switching rt enzyme mix。
32.在上述构建原核生物rna测序文库的方法中,所述反转录步骤使用的仪器可以是选自pcr仪、水浴锅、恒温摇床、培养箱、调温器、空调中的一种或两种以上,最合适的是pcr仪。
33.可选地,在上述构建原核生物rna测序文库的方法中,在所述反转录步骤之后可以对cdna序列进行pcr,得到扩增的cdna序列。然后再对经扩增的cdna序列进行建库处理。
34.优选地,在上述构建原核生物rna测序文库的方法中,在所述反转录步骤之后进行
去除rrna的步骤。所述去除rrna的步骤可以采用商业试剂盒,如illumina ribo-zero革兰氏阴性菌rrna去除试剂盒。
35.在上述构建原核生物rna测序文库的方法中,提取的原核生物rna的质量通常选择常规样本量,原核生物rna的质量可以是如0.1

2000ng,优选的质量为0.2

1000ng,更优选的质量为0.5

500ng。
36.在上述构建原核生物rna测序文库的方法中,所述建库步骤可以是二代测序文库的构建步骤。如打断,末端修复,加a,加接头和文库扩增等步骤。所述建库步骤也可以通过商品化的试剂盒实现,如ultra
tm ii fs dna library prep kit、chromium next gem single cell 3

library kit、chromium next gem single cell 5

library kit、thruplex dna-seq kit、regene
tm dna library prep kit、hiff
tm dna library preparation kit、dna pcr-free prep、dna prep等。
37.在本发明中,扩增步骤使用的试剂可以是选自mnase,核酸内切酶,核酸外切酶,磷酸化酶,dna聚合酶,rna聚合酶,dna连接酶、rna连接酶、引物和缓冲体系中的一种或两种以上。
38.根据本技术的另一方面,提供了一种原核生物rna测序文库,所述文库的片段序列特征为至少包含rna序列或其反向互补序列,延长序列或其互补序列,以及分子标签或其反向互补序列。
39.根据本技术的另一方面,提供了一种原核生物rna测序文库的测序方法,其对通过对在上述构建原核生物rna测序文库的方法中获得的文库进行测序。
40.与现有技术相比,本发明实现了一种低偏好性的原核生物rna测序文库的构建方法。通过将经提取的原核生物的rna序列加上一段特殊设计带有分子标签的延长序列,延长原核生物rna。这样处理的rna能够直接使用与所加延长序列部分反向互补的引物对rna进行反转录。由于使用的不是随机引物,每个mrna分子在反转录过程中只生成一条cdna。上述延长序列中还增加了分子标签序列来标记mrna序列,通过使每个mrna分子带有不同的分子标签来进一步降低测序结果的偏好性。这样可以实现低偏好性的原核生物rna文库的构建。从理论上讲,分子标签标记越早其结果越准确。其他使用分子标签的rna测序文库建库方法是通过带分子标签的反转录引物标记在反转录时标记mrna分子,而本技术在反转录前便通过延长序列将mrna标记上了分子标签。此外,本技术不需要在反转录步骤之前去除rrna,避免了mrna在rrna去除步骤的降解,从而实现了高效稳定的实验流程,适于科研实验和临床研究等多种场景的应用和推广。
附图说明
41.图1是一例构建原核生物rna测序文库的方法的流程图,
42.1-原核生物样本;2-提取出的总rna;3-加延长序列的总rna;4-反转录的总rna;5-反转录的mrna;6-原核生物rna测序文库。
43.图2是实施例2的文库mrna比例示意图。
44.图3是实施例2的捕获基因数目示意图。
45.发明的具体实施方式
实施例
46.以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例是用于解释本发明,并非对本发明的限定。
47.实施例1培养大肠杆菌rna测序文库的构建
48.1.总rna提取。
49.离心收集菌体。使用天根培养细胞/细菌总rna提取试剂盒(dp430)提取细菌总rna。
50.2.在细菌rna 3'端连接特异碱基序列(即本实施例的延长序列,如seq id no.3所示的核苷酸序列)
51.2.1连接反应溶液包含:1
×
t4 rna ligase buffer,0.5μm 3'端rna延长序列(seq id no.3:5'-/5rapp/nnnnnnnnnnnnnnnnctgtctcttatacacatctgacgctgccga/3ddc/-3',5rapp表示5'端磷酸化的核糖核苷酸碱基a,3ddc表示3'端封闭的脱氧核糖核苷酸碱基c,n表示随机碱基),15%peg8000,1u/μlrna酶抑制剂,10u/μlt4 rna ligase。
52.2.2 4℃孵育16小时。使用rna纯化试剂盒纯化rna。
53.3.反转录及cdna扩增:
54.3.1向步骤2.2纯化后的rna加入:1
×
template switching rt buffer,5u/μl template switching rt enzyme mix,1mm dntps,1mm反转录引物(即本实施例的反转录引物序列,seq id no.4:tcggcagcgtcagatgtgtataagagacag,其与seq id no.3的部分序列-ctgtctcttatacacatctgacgctgccga反向互补),1mm template switch oligo(序列:5'-aggcagtctatcaacgcagtacatrgrgrg-3',其中,尾部3个碱基是核糖核酸g,用于实现template switching反应),1u/μlrna酶抑制剂。
55.3.2将反应混合物置于pcr仪,运行反转录程序:53℃ 1小时,85℃5分钟。使用ampure xp磁珠纯化反转录的cdna。
56.3.3加入cdna扩增溶液:500nm扩增引物1(序列:5'-[磷酸化]tcgtcggcagcgtcagatgt-3'),500nm扩增引物2(序列:5'-aggcagtctatcaacgcagtac-3'),1
×
kapa hifi hotstart readymix。混匀,放入pcr仪。
[0057]
3.4运行pcr程序:
[0058][0059]
步骤2-4进行10个循环。
[0060]
3.5使用ampure xp磁珠纯化扩增的cdna。
[0061]
4.去除rrna:
[0062]
4.1使用lambda核酸外切酶消化上一步扩增的cdna,得到单链cdna。
[0063]
4.2使用illumina ribo-zero革兰氏阴性菌rrna去除试剂盒去除rrna反转录生成的单链cdna。去除rrna反转录生成的单链cdna后保留的产物大部分为mrna反转录生成的单链cdna。
[0064]
4.3使用扩增引物3序列:5'-tcgtcggcagcgtcagatgt-3')和bst dna聚合酶将单链cdna恢复为双链cdna。
[0065]
5.加测序接头及文库扩增:
[0066]
5.1cdna打断,末端修复及加a:取26μl扩增的cdna,加入2μlnebnext ultra ii fs enzyme mix和7μl nebnext ultra ii fs reaction buffer,混匀置于pcr仪中。37℃ 5分钟,65℃ 30分钟。
[0067]
5.2连接头:向上一步反应产物中加入30μl nebnext ultra ii ligation master mix,1μl nebnext ligation enhancer,2.5μl read2接头(终浓度1μm。由上寡核苷酸(序列:5'
‑‑
[磷酸化]gatcggaagagcacacgtctgaactccagtc-3')和下寡核苷酸(序列:5'-cttccgatct-3')梯度退火生成),20℃孵育15分钟。使用ampure xp磁珠纯化。
[0068]
6.3文库扩增:向上一步反应产物中加入文库引物1,文库引物2,1
×
kapa hifi hotstart readymix。混匀,放入pcr仪。
[0069]
(文库引物1终浓度500nm,序列:5'-aatgatacggcgaccaccgagatctacactcgtcggcagcgtcag-3',
[0070]
文库引物2终浓度500nm,序列:5'-caagcagaagacggcatacgagat(i7 index)gtgactggagttcagacg-3'。i7 index为2-20bp个碱基,用于从测序数据中拆分文库)
[0071]
运行以下程序:
[0072][0073]
步骤2-4进行10个循环。
[0074]
6.4使用ampure xp磁珠纯化扩增的文库。使用tapestation进行文库质检。
[0075]
实施例2对实施例1获得的文件进行测序和数据分析
[0076]
1.使用illumina nextseq平台进行pe100双端测序。其中,read1读取的测序数据的前16位为分子标签,16-100位为原始mrna反向互补的序列;read2读取的测序数据为原始mrna的正向序列。
[0077]
2.将read通过read1的16-100位数据反向互补后,和read2的数据同时比对参考基因组,统计参考基因组中比对到的每个基因的测序结果。对分子标签及其对应测序结果的比对情况进行统计,所有具有同一分子标签且对比到同一基因的测序结果合并为一个表达
次数。归纳所有基因的表达次数生成测序结果。
[0078]
3.结果总结。
[0079]
3.1文库中mrna比例(%),如图2所示。
[0080]
作为对比,embr-seq发表的数据中相同样本起始量的文库mrna占比为77-82%。
[0081]
3.2捕获基因数目,如图3所示。
[0082]
作为对比,embr-seq发表的数据中相同样本起始量的文库捕获基因数为3200-3800。
[0083]
根据本发明,可以对原核生物的样本进行rna的检测。进而可以比较不同细胞之间rna序列、种类及表达量的区别。这些细胞之间的区别包括但不限于:不同物种来源、不同宿主来源、不同环境来源、不同原核生物种类、不同细胞周期、不同发育阶段、不同培养条件、不同处理条件、不同原核生物个体。
[0084]
根据本发明,可以与其他研究dna、rna、蛋白的方法联合使用研究细胞特性或功能,以及染色质构象、dna、rna和蛋白质的功能。这些其他研究dna、rna、蛋白的方法包括但不限于:单细胞测序、基因芯片、qpcr、一代测序、二代测序、三代测序、四代测序、基因测序、基因组测序、宏基因组测序、外显子测序、内含子测序、目标基因捕获测序、rna测序、表达谱测序、转录组测序、小rna转录组、微rna测序、宏转录组测序、lncrna测序、肿瘤基因测序、肿瘤基因组测序、bisulfite甲基化测序、chip-dna测序、medip测序、rrbs测序、target-bs测序、hmc测序。
[0085]
本发明在传染病、病原体感染,感染性炎症、口腔疾病如龋齿、菌斑性龈炎、牙周炎、智齿冠周炎、坏死溃疡性龈炎和咽峡炎等疾病的病因研究、预防、诊断、治疗、康复指导、检测和预后有应用潜力。
[0086]
还需要说明的是,在可实施且不明显违背本发明的主旨的前提下,在本说明书中作为某一技术方案的构成部分所描述的任一技术特征或技术特征的组合同样也可以适用于其它技术方案;并且,在可实施且不明显违背本发明的主旨的前提下,作为不同技术方案的构成部分所描述的技术特征之间也可以以任意方式进行组合,来构成其它技术方案。本发明也包含在上述情况下通过组合而得到的技术方案,并且这些技术方案相当于记载在本说明书中。
[0087]
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域技术人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1