一种dna靶向测序覆盖度图形化评估系统的制作方法

文档序号:10655805阅读:333来源:国知局
一种dna靶向测序覆盖度图形化评估系统的制作方法
【专利摘要】本发明提供了一种DNA靶向测序覆盖度图形化评估系统,包括:数据提取模块,用来提取包含在基因不同区域内各个位点的测序深度数据;数据合并模块,用于当遇到基因包含的碱基位点过多时,将相近的N个位点的测序深度数据合并为均值;图形展示模块,用于展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;所述数据提取模块、数据合并模块、图形展示模块依次连接。本发明不仅评估碱基含量等指标,还包括基因不同区域覆盖情况的评估,及其在多基因、多样本中的多种统计,以图形化的方式形象地汇报评估结果。
【专利说明】
一种DNA靶向测序覆盖度图形化评估系统
技术领域
[0001]本发明属于基因信息数据处理领域,特别是涉及到一种DNA靶向测序覆盖度图形化评估系统。
【背景技术】
[0002]高通量测序技术已十分成熟,测序所需的时间和费用都大大的降低,因此,应用该技术检测基因变异的研究数量也越来越多。然而高通量测序技术并不是完美的,由于其在测序前要通过PCR手段对待测片段进行扩增,因此增加了测序的错误。当拿到了原始的测序数据,对测序质量的评估就显得尤为重要。通常,得到测序数据,第一步就是做质量控制,在这一步有许多的软件可以使用,比如FastQC,它会从GC含量、序列长度分布等等方面给对测序数据进行评估。但是,这只是从总体层面来评估测序数据是否达到了支撑后续分析的要求。
[0003]外显子组测序、基因芯片测序等只对基因的外显子进彳丁捕获测序,每次测序会涉及许多基因。通常的质量评估软件只能在总体层面评估测序质量的好坏。当关注某些具体基因的测序质量评估、或评估基因芯片在各个基因上的捕获水平时,总体的测序质量评估就不能够准确地反映具体受关注基因的测序质量。

【发明内容】

[0004]有鉴于此,本发明提出一种DNA靶向测序覆盖度图形化评估系统,不仅评估碱基含量等指标,还包括基因不同区域覆盖情况的评估,及其在多基因、多样本中的多种统计,以图形化的方式形象地汇报评估结果。
[0005]为达到上述目的,本发明的技术方案是这样实现的:一种DNA靶向测序覆盖度图形化评估系统,包括:
[0006]数据提取模块,用来提取包含在基因不同区域内各个位点的测序深度数据;
[0007]数据合并模块,用于当遇到基因包含的碱基位点过多时,将相近的N个位点的测序深度数据合并为均值;
[0008]图形展示模块,用于展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;
[0009 ]所述数据提取模块、数据合并模块、图形展示模块依次连接。
[0010]进一步的,所述数据提取模块包括extractRange.py单元和extractRangeEXON.py单元,所述extractRange.py单元用于输入bed文件和depth文件,提取包含在基因不同区域内各个位点的测序深度数据;所述extractRangeEXON.py单元作用与extractRange.py相同,其输入文件的bed文件不包括基因区域注释,输出不再包括基因区域注释信息而是基因外显子的编号。
[0011 ] 进一步的,所述图形展示模块包括plotByGene.r单元和plotByGeneEXON.r单元;所述plotByGene.r单元用来展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;所述plotByGeneEXON.r单元输出结果相似,只是用两种颜色间隔显示表示同一基因的不同外显子区域。
[0012]相对于现有技术,本发明所述的一种DNA靶向测序覆盖度图形化评估系统具有以下优势:
[0013]本发明以常见外显子组测序流程处理的输出结果(bed文件和测序深度数据文件)作为输入,基于对测序数据处理得到的测序深度数据以及基因不同区域注释数据,完成数据的提取和整合,呈现外显子组测序对单个基因外显子的覆盖情况,最终以图片的形式展示出每个基因的测序深度分布情况。本发明不仅评估碱基含量等指标,还包括基因不同区域覆盖情况的评估,及其在多基因、多样本中的多种统计,以图形化的方式形象地汇报评估结果,准确地反映具体受关注基因的测序质量。
【附图说明】
[0014]构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0015]图1为本发明的流程示意图。
[0016]图2为本发明实施例的bed文件实例。
[0017]图3为本发明实施例的depth文件实例。
[00?8]图4为本发明实施例的extractRangeEXON.py输入文件实例。
[00?9 ]图5为本发明实施例的extractRangeEXON.py输出文件实例。
[0020]图6为本发明实施例的range文件实例。
[0021 ]图7为本发明实施例的rangeN文件实例。
[0022]图8为本发明实施例的所有基因测序覆盖图。
[0023]图9为本发明实施例的4个具体基因测序覆盖图。
[0024]图10为本发明实施例的所有基因(外显子)测序覆盖图。
[0025]图11为本发明实施例的4个具体基因外显子区域测序覆盖图。
【具体实施方式】
[0026]需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
[0027]下面将参考附图并结合实施例来详细说明本发明。
[0028]如图1所示为本发明的软件流程,本发明的系统架构说明如下:
[0029]1、数据提取模块
[°03°]数据提取模块包括extractRange.py单元,用来提取包含在基因不同区域内各个位点的测序深度数据,与数据处理相关的参数共有5个:参数b为bed文件名,该文件包含染色体号、基因起始位点、基因终止位点、基因名和基因区域注释,具体格式查看图2,(图中箭头代表TAB分割);
[0031]参数d为测序深度数据文件(depth文件),该文件包含染色体号、染色体位点和测序深度。具体格式查看图3 (图中箭头代表TAB分割);
[0032]参数ο为控制产生的输入文件是否保留,因为在此程序会直接调用plotByGene.r作图。若如此做,可以直接删除输出文件。此参数从true和false中取值,true代表删除输出文件,false代表不删除中间文件。输出文件以range为扩展名;
[0033]参数P控制是否直接调用P1tByGene.r作图。此参数从true和false中取值,true代表调用plotByGene.r作图,false代表不调用plotByGene.r作图;
[0034I参数f控制调用plotByGene.r作图后作图的格式。此参数从svg和pdf中取值,分别表不输出图片的格式分别为svg和pdf。
[0035]数据提取模块还包括extractRangeEXON.py的作用于extractRange.py相同。但是由于它们的输入文件略有差异。前者的输入文件(bed文件)包括染色体号、基因起始位点、基因终止位点和基因名,不包括基因区域注释。具体格式查看图4(图中箭头代表TAB分割)。另外,该程序可以接受一个包含bed文件的文件夹路径作为输入,而程序会对该路径下的所有bed文件同时做处理。
[0036]因此输出文件也略有不同,第二列不再是基因区域注释信息而是基因外显子的编号。具体格式的差异请查看图5与图6。
[0037]2、数据合并模块
[0038]数据合并模块包括MergeRange.py单元,MergeRange.py当遇到基因包含的碱基位点过多时,可以利用此程序将相近的N个位点的测序深度数据合并为均值。与数据处理相关的参数共有3个:参数i为输入文件的名称(以range为扩展名的文件)。该文件包括染色体号、基因区域注释、基因名以及测序深度。具体文件格式查看图6(图中箭头代表TAB分割);
[0039]参数0为输出文件名称(以rangeN为扩展名的文件)。其中N有下一个参数决定。输出文件与输入文件格式相同,只是由于最后一列是数据的均值所以最后一列包含小数。具体文件格式查看图7(图中箭头代表TAB分割);
[0040]参数η为将要合并的位点的个数。具体的取值可以根据range文件的大小来决定。当range文件过大时,可以适当将N值设置的大一点,否则会影响作图的速率以及图片的质量和呈现效果。
[0041]3、图形展示模块
[0042I图形展示模块包括plotByGene.r单元,用来展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况。该程序参数共有2个:参数I为输入文件的名称,range文件或者rangeN文件。输入文件格式查看上一部分。
[0043]参数2为输出文件的格式,pdf或者svg。每个输出文件中可能包含多个基因,因此图片可能就是一个图形矩阵。在每个输出文件的第一幅图为图例,后面是其他每个基因的测序覆盖情况。输出图片请查看图8和图9。
[0044]图形展示模块还包括plotByGeneEXON.r单元,与plotByGene.r输出结果相似,但是略有不同。因为只是展示基因的外显子,所以没有图例,只是用两种颜色间隔显示表示不同的外显子区域。输出图片请查看图10和图11。
[0045]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种DNA靶向测序覆盖度图形化评估系统,其特征在于,包括: 数据提取模块,用来提取包含在基因不同区域内各个位点的测序深度数据; 数据合并模块,用于当遇到基因包含的碱基位点过多时,将相近的N个位点的测序深度数据合并为均值; 图形展示模块,用于展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况; 所述数据提取模块、数据合并模块、图形展示模块依次连接。2.根据权利要求1所述的一种DNA靶向测序覆盖度图形化评估系统,其特征在于,所述数据提取模块包括extractRange.py单元和extractRangeEXON.py单元,所述extractRange.py单元用于输入bed文件和depth文件,提取包含在基因不同区域内各个位点的测序深度数据;所述extractRangeEXON.py单元作用与extractRange.py相同,其输入文件的bed文件不包括基因区域注释,输出不再包括基因区域注释信息而是基因外显子的编号。3.根据权利要求1所述的一种DNA靶向测序覆盖度图形化评估系统,其特征在于,所述图形展示模块包括plotByGene.r单元和plotByGeneEXON.r单元;所述plotByGene.r单元用来展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;所述plotByGeneEXON.r单元输出结果相似,只是用两种颜色间隔显示表示同一基因的不同外显子区域。
【文档编号】G06F19/20GK106021996SQ201610319436
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】薛成海, 吕艳玲, 赵爽, 刘忠伟
【申请人】万康源(天津)基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1