一种对高通量rna测序数据的质量控制方法及装置的制造方法

文档序号:9592873阅读:866来源:国知局
一种对高通量rna测序数据的质量控制方法及装置的制造方法
【技术领域】
[0001] 本发明属于生物技术领域,涉及一种对高通量RNA测序数据进行质量控制的方法 及装置。
【背景技术】
[0002] 转录组分析用的RNA-Seq作为一门高通量转录本定性和定量技术,在转录组的分 析中已逐渐占据了主导地位。相对于基因芯片等技术,RNA-Seq能够对未知转录本进行定 性和定量,同时,其原理是边合成边测序(SequencingbySynthesis,SBS),可以获得每个 片段的碱基排序,所以也可以完成定量以外的其他分析,包括:单核苷酸多态性分析、基因 融合分析和剪切异构分析等。RNA-Seq的这些优势使其得到了广泛的应用,尤其在疾病研究 等方面,如,可以利用RNA-Seq寻找疾病相关的生物标志物,研究疾病和药物作用的机理, 对疾病做出诊断和预测,等等,所以RNA-Seq为生物医药和个体化治疗的研究提供了有效 的手段。
[0003] RNA-Seq作为一项新的技术有很多的优势,也面临许多挑战。如,从获得生物样本 到RNA的提取、建库、测序,RNA经历了复杂的处理过程,这些处理过程会为最终的RNA测序 结果引入相应的误差,这些误差会直接影响RNA-Seq技术的准确性及RNA-Seq数据分析结 果的可靠性。目前关于RNA-Seq测序质量研究主要集中于建库引入的误差以及后期数据分 析的可靠性。在RNA-Seq实验中,需要有RNA富集的过程,在RNA的富集过程中经常会残留 RNA降解产物,并且富集过程对某些序列的富集存在偏差,这些误差将会在后续的处理步骤 中被放大。
[0004] 所述RNA-Seq还面临测序后生物信息学分析的问题,每次测序可以获得极大量 的数据,在分析处理这些数据的过程中需要减低图像分析和碱基识别带来的误差,并且去 除低质量测序读段,如何对数据作均一化处理,这些都是RNA-Seq所要面临的挑战;另外, RNA-Seq对于低丰表达转录本的定量存在偏差,均一化方法也会引入偏差。
[0005] 因此,亟需一种方法对RNA-Seq测序质量及测序后的数据分析进行客观评估,进 行质量控制,优化分析方案,从而提高数据可靠性和可重复性。外源参照物为此提供了契 机。
[0006] ERCC(ExternalRNAControlConsortium)是序列和浓度已知的 92 条长约 250-2000nt外源参照物RNA转录本,浓度有约106倍浓度差别。这些转录本主要来自于人 工合成序列,以及一些病毒基因组序列,在模式生物和常用的非模式生物的样本中无法被 检测到,因此是外源参照物。ERCC目前已经商业化销售,通常为需要外标RNA作为质控的芯 片和测序等研究提供标准样品。ERCC混合样品有两种不同的浓度组成(Mixl和Mix2),两 种混合样本都包含92条ERCC序列,92条序列被分为4组(A、B、C和D,每组23条序列), A、B、C和D四组中的转录本在Mixl和Mix2中的浓度差别比例为4. 0、1. 0、0. 67和0. 5倍。 通过实验中加入ERCC可以比较理论加入浓度和实际测定浓度的关系。目前,在基因芯片和 qPCR等实验中加入ERCC,可以对实验进行质量评估和控制。
[0007] 然而,目前尚未见有关系统有效地利用ERCC对RNA-Seq测序与数据分析进行质量 控制的方法与装置的报道。

【发明内容】

[0008] 本发明要解决的一个技术问题是提供一种基因表达的RNA测序数据质量控制的 方法和装置,尤其是一种对高通量RNA测序数据的质量控制方法及装置。采用该方法及装 置可以分析外源参照物所得到的结果而检验测序数据的质量,并对数据处理过程的各个操 作步骤进行质量控制,提高数据及分析结果的可靠性。
[0009] 本发明公开了一种通过加入外源参照物对高通量RNA测序数据进行质量评估和 质量控制的方法,其包括:系统评估外源参照序列在测定样品中的比例、定量水平、基因覆 盖度及测序错误率等特征,以及评估批次效应并在此基础上优化数据分析方案。
[0010] 更具体的,本发明的对高通量RNA测序数据的质量控制方法,其包括步骤:
[0011] (1)在待测RNA样品建库前加入一定比例的外源参照物,如ERCC(ExternalRNA ControlConsortium)外源RNA标准品;
[0012] (2)由计算机接收包含转录组测序数据的数据集,该数据集包含有比对到外源参 照物转录本的所有读段序列及质量参数;
[0013] (3)在(2)的基础上,计算外源参照物各个转录本测得读段量,进行标准化处理;
[0014] (4)在(3)的基础上,根据表达水平进行表达聚类分析及表达水平与理论表达值 结果对比分析,判断测序过程及分析流程可靠性;
[0015] (5)在(3)的基础上,根据外源参照物转录本表达水平偏差,判断基因表达定量方 法可靠性;
[0016] (6)在⑶的基础上,根据基因覆盖度,判断测序深度;
[0017] (7)在(3)的基础上,根据序列错误率,推测测序错误率及可靠性;
[0018] (8)根据步骤(4)到步骤(7)得到的参数调整优化数据分析方案。
[0019] 本方法中,还包括:通过高通量测序技术对一组样品片段的基因表达进行测序,并 随机加入外源参照物混合样品1和混合样品2,根据混合样品1和混合样品2理论表达差异 与实际测序表达差异判断定量准确性。
[0020] 本方法中,还包括:利用外源参照物样品序列、浓度已知的特性,对经过高通量测 序测得的外源参照物与理论值(真实值)在表达量方面进行比较。
[0021] 本方法中,还包括:通过对经过高通量测序测得的外源参照物3' /5'覆盖率分析, 对RNA完整性与比对偏好方面进行比较。
[0022] 本方法中,还包括:利用外源参照物样品序列、浓度已知的特性,对经过高通量测 序测得的外源参照物与理论值(真实值)在碱基特征
[0023] 本发明进一步公开了对高通量RNA测序数据的质量控制的装置,其包括:基因表 达测算单元、相关性分析单元、基因覆盖度分析单元和碱基错误率分析单元;其中,
[0024](1)基因表达测算单元:对高通量测序得到的测序片段进行转录组分析 (RNA-Seq)分析;
[0025] (2)相关性分析单元:对多个转录组分析结果相关性聚类分析,及将转录组分析 的结果与理论值的结果进行相关性对比分析;
[0026] (3)基因覆盖度分析单元:分析读段在转录本区域的覆盖水平;
[0027] (4)碱基错误率分析单元:分析测序读段序列与理论序列差异的发生比例。
[0028] 本发明装置中,所述基因表达测算单元,还包括基因比对子单元、基因计数子单 元、表达水平标准化子单元。
[0029] 本发明装置中,所述相关性分析单元,还包括基于相关性的聚类分析子单元,及测 量与理论值相关性分析子单兀。
[0030] 所述相关性分析单元中,所述理论值为理论浓度的对数值。
[0031] 本发明可以针对RNA质量、转录组测序实验过程及数据分析流程等多个环节进行 质量控制,从而大幅提高高通量测序数据的可靠性和可重复性。
【附图说明】
[0032] 图1为一种关于基因表达的RNA测序的质控方法的流程图。
[0033] 图2为两组外源参照物样品的ERCCMixl与Mix2表达聚类分析结果。
[0034] 图3为两组外源参照物样品的ERCCMixl与Mix2测序分析结果与理论值对比结 果,其中图3(a)为ERCCMixl测序分析结果与理论值对比结果,图3(b)为ERCCMix2测序 分析结果与理论值对比结果。
[0035] 图4为样品的表达量最高的20个ERCC转录本平均覆盖度。
[0036] 图5为样品的ERCC转录本3' /5'覆盖比例。
[0037] 图6为样品的序列碱基错误率与读段位点关系。
【具体实施方式】
[0038] 下面参照附图用本发明的示例性实施例对本发明进行更全面的描述及说明,但并 不意味着本发明仅限于此。
[0039] 实施例1关于基因表达的高通量RNA测序的质控方法的流程图
[0040] 结合附图1,所述质控方法的流程包括下述步骤:
[0041] (1)测量待测RNA样品总RNA质量,按照mRNA占总RNA2%估算mRNA质量;
[0042] (2)加入量为mRNA估算量的1 %的已商业化的ERCC混合样本(Mixl或Mix2);
[0043] (3)对混合的RNA进行标准方法构建文库,进行高通量测序,获得待测样品的转录 本测序数据;本实施例
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1