本发明涉及生物,具体的,本发明涉及一种基于唯一分子标记符和文库扩增定量控制的环状rna全长测序方法。
背景技术:
1、环状rna(circular rna,circrna)是由前体rna经由反向剪接形成的,具有共价闭合环状结构的一类特殊单链rna分子。circrna发挥其功能均直接或间接与其序列和结构相关。因此,无论是为了深入研究circrna的机制功能,还是为了探索其在临床诊断和治疗中的应用,都需要进行准确系统的circrna鉴定。然而,由于circrna和线性rna在序列上存在同源性,从大量线性rna背景中准确识别circrna信号具有一定困难。目前,circrna的系统鉴定主要有两种策略:一是基于二代测序(next generation sequencing,ngs)数据的算法识别;二是基于三代测序(third generation sequencing,tgs)的circrna全长识别。基于ngs的circrna识别主要利用其反向剪接的特殊序列特征实现,如通过分段比对法(如find_circ、circexplorer、ciri)或伪参考序列法(如knife)识别反向剪接位点(back splicingjunction,bsj),从而实现circrna鉴定。然而,由于与线性rna的序列同源性,这些方法在精细解析与多种功能相关的circrna的内部复杂剪接结构和异构体多样性上仍存在较大困难。尽管研究者已经开发了多种算法从ngs数据中预测circrna的全长结构,但受限于ngs读长较短的特点,其对circrna内部结构的预测能力仍十分有限。随着三代测序技术,即长读长测序技术(long read sequencing)的发展和普及,研究者已经成功实现了circrna全长测序方法(full-length circrna sequencing)。这类技术多采用非破坏性建库策略获得circrna信号(如isocirc的原位环化连接、ciri-long和circfl-seq的滚环逆转录等),并结合tgs平台的超长测序读长,实现了对circrna全长分子序列的直接观测,显著提升了circrna结构变异的检测能力。
2、然而,由于建库过程和分析方法的差异,这两种策略在circrna识别结果上的重叠性较差,为circrna识别的可靠性提出了挑战。在采用聚合酶链式反应(polymerase chainreaction,pcr)作为信号放大的circrna全长测序方法研究中,研究者对tgs平台与ngs平台circrna识别结果的比较发现,在同一rna样本中,仅有约36.3%的ngs平台鉴定circrna能在tgs平台数据中检出,而tgs平台鉴定的circrna被ngs平台支持的占比更是低至22.7%。即便在同样使用了rnase r处理的ngs和tgs测序数据中,两平台的重叠率同样不足一半。tgs平台对circrna识别的高灵敏度可以部分解释这种差异,但仍存在其他因素导致了两平台间识别结果不一致,为circrna分析的准确性提出了挑战。
技术实现思路
1、本发明的目的在于解决现有环状rna全长测序方法中扩增偏倚大、假阳性率高、定量不准确以及tgs与ngs结果一致性差等问题。为此,本发明提供了一种基于唯一分子标记符(umi)和文库扩增定量控制的circrna全长测序方法ucircfl-seq。该方法通过在逆转录引物中引入umi,实现对原始分子的唯一标记,结合umi聚类与循环一致性序列生成,有效消除扩增和测序过程中的随机误差。同时,本发明在文库构建过程中引入实时荧光定量pcr监测,确定最佳扩增循环数,避免了过度扩增造成的偏倚。最终,通过rg和ucrg算法结合umi信息进行全长circrna结构识别与定量,提高了结果的准确性和特异性。
2、与现有方法相比,本发明具有以下优点:
3、高准确性:通过umi去重及一致性序列生成,降低了假阳性识别。
4、高定量性:与rt-qpcr结果具有更高的相关性,定量更可靠。
5、跨平台一致性好:显著提高tgs与ngs平台之间circrna识别结果的一致性。
6、适用性强:可广泛应用于环状rna的基础研究、疾病标志物发现及临床检测。
1.一种基于唯一分子标记符和文库扩增定量控制的环状rna全长测序方法,其特征在于,包括以下步骤:(1) 对待测rna样本进行rrna去除、poly(a)加尾及rnase r处理,富集环状rna;(2) 采用包含唯一分子标记符(umi)的第一链合成引物进行逆转录,获得第一链cdna;(3) 在第一链cdna 3’端加尾后进行第二链cdna合成,获得双链cdna;(4) 通过实时荧光定量pcr监测扩增曲线,确定文库扩增的最优循环数,进行文库扩增并纯化;(5) 使用三代测序平台对所述文库进行长读长测序,获得原始测序数据;(6) 从测序数据中识别并提取umi序列,进行umi聚类及循环一致性序列生成;(7) 将所述一致性序列通过rg和ucrg算法比对至参考基因组,识别反向剪接位点并确定环状rna的全长结构和定量信息。
2.根据权利要求1所述的方法,其中所述umi序列模式为“nnnyrnnnyrnnnyrnnn”。
3.根据权利要求1所述的方法,其中实时荧光定量pcr的扩增循环数为由扩增曲线一阶导数极值点确定的cpd1。
4.根据权利要求1所述的方法,其中文库扩增包括两轮扩增,每轮扩增后均通过dna磁珠进行纯化。
5.根据权利要求1所述的方法,其中比对采用minimap2软件,参数为“-ax splice -uf-k 15 -p 0.5”。
6.根据权利要求1所述的方法,其中circrna定量结果与rt-qpcr结果之间的spearman相关系数不低于0.6。
7.一种用于实施权利要求1所述方法的环状rna全长测序试剂盒,其特征在于,所述试剂盒包括:
8.一种用于实施权利要求1所述方法的环状rna测序文库,其特征在于,所述文库包括带有唯一分子标记符(umi)的双链cdna片段,且文库扩增循环数通过实时荧光定量pcr确定。
9.一种用于环状rna定量分析的用途,其特征在于,应用权利要求1所述方法建立的环状rna测序文库或权利要求7所述试剂盒,用于不同生物样品中环状rna表达水平的比较分析。
10.一种用于疾病分子标志物筛选的用途,其特征在于,应用权利要求1所述方法获得的环状rna全长测序数据,用于筛选和验证与疾病发生发展相关的环状rna分子标志物。