一种细小病毒高通量dna测序的数据后分析方法

文档序号:9564771阅读:306来源:国知局
一种细小病毒高通量dna测序的数据后分析方法
【技术领域】
[0001]本发明属于分子生物学技术领域以及信息技术领域,特别涉及染色质测序数据分析技术领域,具体是指一种细小病毒高通量DNA测序的数据后分析方法。
[0002]
【背景技术】
[0003]细小病毒包括侵袭人的人细小病毒B19 (Human Parvovirus B19, PVB19)、人博卡病毒(Human Bocavirus,HBoV),以及侵袭动物(如狗、猪、猫等)的细小病毒。人细小病毒已被证明是能引起包括传染性红斑、血小板减少性紫癜、急性造血停滞、急性肝炎、肺炎或支气管肺炎等多种疾病;且能通过胎盘感染胎儿,引起孕妇流产、早产或胎儿水肿、死胎。犬细小病毒(Canine Parvovirus, CPV)及猪细小病毒(Porcine Parvovirus, PPV)可引起动物腹泻及死亡,对畜牧业危害很大,且HBoV与牛细小病毒、犬细小病毒具有高度同源性,在未来动物细小病毒有可能感染人类。
[0004]DNA测序(DNA sequencing,或译DNA定序)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。
[0005]新一代高通量测序技术的出现极大地丰富了人们研究细胞内变化规律的方案。虽然目前的细小病毒高通量测序技术都有相关的分析方法帮助科研人员进行高通量数据分析。但是,现有工具对这些数据的后期分析缺乏系统性的总结,没有专门数据处理方法会涉及到的诸如平滑、缩放和组间标准化等常用操作,这增加了数据分析人员的工作负担,加大了数据处理的难度。
[0006]

【发明内容】

[0007]本发明的目的是克服了上述现有技术中的缺点,提供一种对于存放有多个样本组数据的矩阵能够进行高效的数据平滑、数据缩放、组间标准化、组间数据量平衡等操作,从而降低数据处理的难度,且应用范围较为广泛的细小病毒高通量测序数据后期分析方法。
[0008]本发明是通过以下方案来实现上述发明目的:
1.一种细小病毒高通量DNA测序的数据后分析方法,其特征在于,所述的方法包括以下步骤:
(1)获得细小病毒高通量测序数据的矩阵数据,对其进行尺寸变换,得到新的矩阵数据;
(2)给定预设的模拟格式高通量数据序列比对数据;
(3)对(1)中获取的新的矩阵文进行分位数规范化处理,形成统一的值域范围;
(4)根据指定的K值,从(3)中筛选出符合条件的数据;
(5)根据所述的新的矩阵文件、筛选后的数据和模拟格式高通量数据序列比对数据生成前景数据和背景数据,通过比较各信号值在前景数据和背景数据中的数量分布,得到前景信号假阳性概率;
(6)根据矩阵数据及预设的预期聚合酶链反应冗余片段在总样本中所占比例,生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据中标记所述的聚合酶链反应冗余片段位置。
[0009]采用了本方法的细小病毒高通量测序数据后期分析方法,其能够根据需要,对高通量测序数据进行高效的数据平滑、数据缩放、组间标准化、组间数据量平衡等操作,且适用于存放有多个样本组数据的矩阵,从而降低数据处理的难度,且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。
[0010]
【附图说明】
[0011]图1为本发明的细小病毒高通量DNA测序的数据后分析方法的步骤流程图。
[0012]
【具体实施方式】
[0013]以下结合实施例对本发明技术方案做进一步说明,所述的实施例是对本发明的解释而不是限定。
[0014]请参阅图1所示,为本发明的细小病毒高通量DNA测序的数据后分析方法的步骤流程图。
[0015]在【具体实施方式】中,该方法如图1所示包括以下步骤:
(1)获得细小病毒高通量测序数据的矩阵数据,对其进行尺寸变换,得到新的矩阵数据;细小病毒高通量测序数据的获得,可以采用现有的各种方法(如双脱氧链终止法)来获得;
(2)给定预设的模拟格式高通量数据序列比对数据;此处的对比数据可以根据分析需要进行相应的调整和变化;
(3)对(1)中获取的新的矩阵文进行分位数规范化处理,形成统一的值域范围;
(4)根据指定的K值,从(3)中筛选出符合条件的数据;此处的K值是可以根据关注的数据特征进行选择;
(5)根据所述的新的矩阵文件、筛选后的数据和模拟格式高通量数据序列比对数据生成前景数据和背景数据,通过比较各信号值在前景数据和背景数据中的数量分布,得到前景信号假阳性概率;
(6)根据矩阵数据及预设的预期聚合酶链反应冗余片段在总样本中所占比例,生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据中标记所述的聚合酶链反应冗余片段位置。
[0016]采用了本方法的细小病毒高通量测序数据后期分析方法,其能够根据需要,对高通量测序数据进行高效的数据平滑、数据缩放、组间标准化、组间数据量平衡等操作,且适用于存放有多个样本组数据的矩阵,从而降低数据处理的难度,且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。
【主权项】
1.一种细小病毒高通量DNA测序的数据后分析方法,其特征在于,所述的方法包括以下步骤: (1)获得细小病毒高通量测序数据的矩阵数据,对其进行尺寸变换,得到新的矩阵数据; (2)给定预设的模拟格式高通量数据序列比对数据; (3)对(1)中获取的新的矩阵文进行分位数规范化处理,形成统一的值域范围; (4)根据指定的K值,从(3)中筛选出符合条件的数据; (5)根据所述的新的矩阵文件、筛选后的数据和模拟格式高通量数据序列比对数据生成前景数据和背景数据,通过比较各信号值在前景数据和背景数据中的数量分布,得到前景信号假阳性概率; (6)根据矩阵数据及预设的预期聚合酶链反应冗余片段在总样本中所占比例,生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据中标记所述的聚合酶链反应冗余片段位置。
【专利摘要】本发明属于在分子生物学技术领域,特别涉及染色质测序数据分析技术领域,具体是指一种细小病毒高通量DNA测序的数据后分析方法。其特征在于该方法根据用户需要,对细小病毒高通量测序数据后期进行高效的数据分析等操作,特别适用于多个样本组数据,从而能够减少数据分析人员的工作负担,降低数据处理的难度,且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。
【IPC分类】G06F19/22
【公开号】CN105320849
【申请号】CN201410376284
【发明人】张艺, 梁建伟, 何飞, 熊玉宇
【申请人】晶能生物技术(上海)有限公司
【公开日】2016年2月10日
【申请日】2014年8月3日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1