一种转录组数据的表达定量方法及系统与流程

文档序号:15778742发布日期:2018-10-30 16:04阅读:2103来源:国知局

本发明涉及生物信息技术领域,具体涉及一种转录组数据的表达定量方法及系统。



背景技术:

目前转录组定量的信息分析方法,主要使用以下两种方法:

1.fpkm(fragmentsperkilobasepermillionmappedreads)。代表每百万测序片断中,中来自于某基因每千碱基长度的片断数。fpkm是将map到基因的片断数除以map到基因组上的所有片断数(以million为单位)与rna的长度(以kb为单位)。

2.基于保守基因进行相对定量,它在rna建库时,根据细胞的含量,加入一定比例的含有保守基因的标准品,在测序完成后,会将基因的表达量和标准品进行比较,得到一份相对表达量。这个方法的成本比较高,需要购买对应的标准品。同时还要对样品的分子数进行精确测量,比如先要测量待测样品中的rna分子总量,再根据标准品的使用说明进行操作(每含有1000个rna分子的待测样品,需要加入0.1ml的标准品)。此外,对人员技能的要求也比较高。



技术实现要素:

本发明的目的在于提供一种转录组数据的表达定量方法及系统,用以解决现有技术中存在的问题。

为实现上述目的,本发明的技术方案为一种转录组数据的表达定量方法,该转录数据的表达定量方法包括:将转录组样品进行测序,获得数据,以及将数据比对上参考基因组,获得比对结果;处理比对结果,得到单碱基的测序深度;根据单碱基的测序深度和外显子长度计算外显子平均测序深度;根据外显子平均测序深度进行聚类,确定内参基因;根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。

可选的,将转录组样品进行测序,获得数据,以及将数据与参考基因组比对,获得比对结果,包括:将转录组样品通过illumina平台进行测序,获得数据,以及将数据通过bwa与参考基因组比对,获得比对结果。

可选的,统计单碱基的测序深度,包括:通过samtools软件处理比对结果,得到单碱基的测序深度。

可选的,根据单碱基的测序深度和外显子长度计算外显子的平均测序深度,包括:累加外显子单碱基深度,再除以外显子长度。

可选的,根据外显子平均测序深度进行聚类,确定内参基因,包括:按外显子平均测序深度的相关性进行聚类,以及将表达稳定且平均测序深度最小的基因确定为内参基因。

可选的,根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量,包括:将外显子平均测序深度除以参考基因的外显子平均测序深度,得到专利数据的表达量。

为实现上述目的,本发明的技术方案为一种转录组数据的表达定量系统,该转录数据的表达定量系统,包括:测序单元、比对单元、处理单元、计算单元、确定单元和定量单元;其中,测序单元,用于将转录组样品进行测序,获得数据;比对单元,用于将数据比对上参考基因组,获得比对结果;处理单元,处理比对结果,得到单碱基的测序深度;计算单元,用于根据单碱基的测序深度和外显子长度计算外显子平均测序深度;确定单元,用于根据外显子平均测序深度进行聚类,确定内参基因;定量单元,用于根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。

可选的,测序单元,具体用于将转录组样品通过illumina平台进行测序,获得数据;比对单元,具体用于:将数据通过bwa与参考基因组比对,获得比对结果。

可选的,处理单元,具体用于:通过samtools软件处理比对结果,得到单碱基的测序深度。

可选的,计算单元,具体用于:累加外显子单碱基深度,再除以外显子长度。

可选的,确定单元,具体用于:按外显子平均测序深度的相关性进行聚类,以及将表达稳定且平均测序深度最小的基因确定为内参基因。

可选的,定量单元,具体用于:将外显子平均测序深度除以参考基因的外显子平均测序深度,得到专利数据的表达量。

本发明具有如下优点:

不需要加入标准品就能达到精确定量的效果,克服fpkm算法的局限性。

附图说明

图1为本发明实施例提供了一种转录组数据的表达定量方法的流程图。

图2为确定内参基因的示意图。

图3为本发明实施例提供了一种转录组数据的表达定量系统的示意图。

具体实施方式

以下实施例用于说明本发明,但不用来限制本发明的范围。

实施例1

图1为本发明实施例提供了一种转录组数据的表达定量方法的流程图。如图1所示,该转录组数据的表达定量方法包括:

步骤s101:将转录组样品进行测序,获得数据。将数据比对上参考基因组,获得比对结果;

对转录组样品进行测序的方法包括但不限于illumina平台,将数据与参考基因组比对上的方法包括但不限于bwa。

步骤s102:处理比对结果,统计单碱基的测序深度;

具体地,处理比对结果,通过samtools软件统计单碱基的测序深度,统计单碱基的测序深度的方法包括但不限于samtools软件。

步骤s103:根据单碱基的测序深度和外显子长度计算外显子平均测序深度;

具体地,将外显子单碱基深度进行累加,然后将累加后的单碱基深度除以外显子长度,得到外显子平均测序深度。

步骤s104:根据外显子平均测序深度进行聚类,确定内参基因。

具体地,按外显子平均测序深度的相关性进行聚类,以及将表达稳定且平均测序深度最小的基因确定为内参基因。

如图2所示,将两个样品中,平均测序深度的比值相近的聚成一类,样品1样品有3个基因(a,b,c),平均测序深度分别为1,6,3;样品2有3个基因(a,b,c),平均测序深度为2,4,6。我们可以将a,c这两个基因聚成一类。a基因,平均测序深度在样品2中是样品1的2倍(2/1),c基因也是2倍(6/3)的关系。而b基因是2/3倍(4/6),不能跟它们聚成一类。由于a基因的平均测序深度最小,进而确定a基因为内参基因。

当有多个样品时,可以先随机选择一个样品作为内参样品,与其他样品都做聚类,找到一个基因,如果这个基因在各个聚类中都存在,则选择它为内参基因;如果找到多个,则选择平均测序深度最小的。

步骤s105:根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。

假设有两个样品a和b,都有3个基因a,b,c,样品a和b对应的平均测序深度分别为1,2,3和2,10,6,找到的内参基因为a。则对于a样品,a,b,c基因的定量为:1/1,2/1,3/1,也就是1,2,3。而b样品中,a,b,c的定量为2/2,10/2,6/2,也就是1,5,3。

本发明使用高杂合的两个小菜蛾转录组进行测试,使用cufflinks软件来计算fpkm,统计出的相关系数只有0.03,而本发明实施例提供的转录组数据的表达定量方法,相关系数可以达到0.74。

实施例2

图3本发明实施例提供了一种转录数据的表达定量系统。如图3所示,该转录数据的表达定量系统包括:测序单元31、比对单元32、处理单元33、计算单元34、确定单元35和定量单元36。

测序单元31,用于将转录组样品进行测序,获得数据;比对单元32,用于将数据比对上参考基因组,获得比对结果;处理单元33,处理比对结果,得到单碱基的测序深度;计算单元34,用于根据单碱基的测序深度和外显子长度计算外显子平均测序深度;确定单元35,用于根据外显子平均测序深度进行聚类,确定内参基因;定量单元36,用于根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。

可选的,测序单元31,具体用于将转录组样品通过illumina平台进行测序,获得数据。

可选的,比对单元32,具体用于:将数据通过bwa与参考基因组比对,获得比对结果。

可选的,处理单元33,具体用于:通过samtools软件处理比对结果,得到单碱基的测序深度。

可选的,计算单元34,具体用于:累加外显子单碱基深度,再除以外显子长度。

可选的,确定单元35,具体用于:按外显子平均测序深度的相关性进行聚类,以及将表达稳定的基因确定为内参基因。

确定单元35确定内参基因的描述可参照步骤s105中的描述。

可选的,定量单元36,具体用于:将外显子平均测序深度除以参考基因的外显子平均测序深度,得到专利数据的表达量。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1