一种基因组重测序分析系统及方法_2

文档序号:9887971阅读:来源:国知局
)是染色体变异的一种,是内因和外因共同作用的结果,外因有各种射线、化学药剂、温度的剧变等,内因有生物体内代谢过程的失调、衰老等。主要类型有缺失、重复、倒位、易位。
[0050]基因拷贝数变异CNV(Copy number variat1n),异常的DNA拷贝数变化(CNV)是许多人类疾病(如癌症、遗传性疾病、心血管疾病)的一种重要分子机制。
[0051]图1示出了本发明一实施例提供的一种基因组重测序分析系统的结构示意图,如图1所示,本实施例的一种基因组重测序分析系统10,包括:
[0052]Web应用单元11,用于接收基因组重测序数据和基因组重测序参数,并将所述基因组重测序参数发送至Java交互单元12;
[0053]Java交互单元12,用于根据所述Web应用单元11接收的基因组重测序参数,生成基因组重测序任务信息,并将所述基因组重测序任务信息发送至分析单元13;
[0054]分析单元13,用于根据所述Java交互单元12生成的基因组重测序任务信息,读取所述基因组重测序数据,并通过调用生物信息学软件库和脚本库,对所述基因组重测序数据进行分析,获取基因组重测序分析结果;
[0055]其中,所述生物信息学软件库,包括:BffA、samtooIs、GATK、picard、break dancer、Control_FREEC、SnpEff和blast;
[0056]所述脚本库,包括:SNP检测脚本、InDe I检测脚本、SV检测脚本、CNV检测脚本、功能注释脚本和绘图及统计脚本。
[0057]可以理解的是,基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点SNP(Single Nucleotide Polymorphisms),插入缺失位点InDel( Insert1n-Delet1n)、结构变异位点SV(Structure Variat1n)位点。
[0058]现有技术中,重测序数据分析需要用到多款生物信息学软件,要对每款软件的使用方法都比较了解,且不同分析模块间的衔接需要人工干预,导致分析繁琐,效率低下,为解决该问题,本发明能够实现自动化的生物信息学分析流程。
[0059]本实施例通过调用生物信息学软件和个性化分析脚本库,简化基因组重测序分析流程,提高基因组重测序效率,节省了科研成本。此外,本发明还具有保存基因组重测序分析结果,进行二次查询的功能。
[0060]图2示出了本发明另一实施例提供的一种基因组重测序分析系统的结构示意图,如图2所示,本实施例的一种基因组重测序分析系统20,包括:Web应用单元21、Java交互单元22、分析单元23;
[0061]其中,Java交互单元22包括:结果推送模块221、任务调度模块222、数据交互模块223;
[0062]分析单元23包括:数据评估模块231、序列比对模块232、突变检测模块233、功能注释丰旲块234。
[0063]Web应用单元21用于接收基因组重测序数据和基因组重测序参数,并将所述基因组重测序参数发送至Java交互单元22的任务调度模块222。
[0064]具体来说,Web应用单元21包括用户应用单元和管理应用单元。其中,用户应用单元用于接收外部输入的基因组重测序数据和基因组重测序参数。管理应用单元用于接收外部输入的管理指令和限制指令,从而实现对项目的管理操作,如监控、停止、删除。管理应用单元为扩展模块,可以对不同级别的用户权限进行限制和修改,进而保证系统的稳定性。
[0065]进一步的,基因组重测序数据是进行基因重测序的待检测数据,通过预设格式文本导入Web应用单元21,格式文本包括但不限于FastQ、TXT,其中FastQ文件是高通量测序产生的标准测序结果文件,包括碱基序列和对应碱基的质量值。基因组重测序参数是进行基因重测序的设置参数,包括但不限于参考物种、检测种类、数据库种类。
[0066]Java交互单元22,用于根据所述Web应用单元21接收的基因组重测序参数,生成基因组重测序任务信息,并将所述基因组重测序任务信息发送至分析单元23。
[0067]Java交互单元22,包括:结果推送模块221、任务调度模块222、数据交互模块223。
[0068]任务调度模块222,用于根据所述Web应用单元21接收的基因组重测序数据和基因组重测序参数,生成基因组重测序任务信息,并将所述基因组重测序任务信息发送至分析单元23。
[0069]可以理解的是,基因组重测序参数包含基因组重测序过程所需的各项参数,进一步的,重测序任务信息包括进行重测序过程的计算资源需求,生物信息学软件库和脚本库等信息。
[0070]上述的任务调度模块222,在基因组重测序过程中,还用于实时监测基因组重测序任务的运行状态及进度。
[0071]具体来说,任务调度模块222实时监测基因组重测序任务的运行状态及进度,生成日志界面,记录指令组装、资源申请、任务投递、任务监控以及与结果推送模块221和数据交互模块223通信的操作过程,方便项目运行出错后的错误排查。
[0072]结果推送模块221,用于在基因组重测序分析结束时,根据任务调度模块222发送的展示指令,将分析单元23获取的基因组重测序分析结果在Web应用单元进行呈现。
[0073]具体来说,重测序分析结果能够以预设格式进行下载或在Web应用单元进行呈现,预设格式包括但不限于W0RD、PDF。重测序分析结果包括项目名称、关键词、结果概述等内容,实现自动、高效、便捷的数据分析,为科研工作者提供了一种无任何技术门槛的数据分析手段,可以帮助其快速完成数据分析,并全方位的对分析结果进行挖掘,找出更有生物学意义的结果。
[0074]数据库交互模块223,用于在基因组重测序分析结束时,根据所述任务调度模块222发送的存储指令,将所述分析单元23获取的基因组重测序分析结果存储至数据库。
[0075]具体来说,数据库交互模块223将项目信息、重测序流程运行参数以及重测序分析结果存储至数据库中,当Web应用单元21对结果进行查看或二次检索时,任务调度系统222再次通过数据库交互模块223从数据库中读取重测序分析结果在Web应用单元进行呈现。
[0076]分析单元23,用于根据所述Java交互单元22生成的基因组重测序任务信息,读取所述基因组重测序数据,并通过调用生物信息学软件库和脚本库,对所述基因组重测序数据进行分析,获取基因组重测序分析结果;
[0077]其中,所述生物信息学软件库,包括:13¥4、8&1]11:0018、641'1(4;^&1(1、13代&1<:dancer、Control_FREEC、SnpEff和blast;
[0078]所述脚本库,包括:SNP检测脚本、InDe I检测脚本、SV检测脚本、CNV检测脚本、功能注释脚本和绘图及统计脚本。
[0079]分析单元23,包括:数据评估模块231、序列对比模块232、突变检测模块233、功能注释1?块234。
[0080]数据评估模块231,用于对所述基因组重测序数据进行质量检测,并根据质量检测结果,判断所述基因组重测序数据是否可以进行基因组重测序;
[0081 ]其中,所述质量检测包括碱基质量分布检测和碱基类型分布检测。
[0082]可以理解的是,所述质量检测包括碱基质量分布检测,基于测序数据中包含的碱基质量值,利用Perl脚本对所有碱基的质量值进行统计,当85%以上的碱基质量值高于30分时,此数据才可以继续进行后续分析,否则需要先进行低质量序列过滤才可使用;
[0083]其中,所述质量检测还包括碱基类型分布检测,用于检测有无AT、GC碱基分离现象,高通量测序时,基因组随机打断,由于位点在基因组上的分布是近似均匀的,同时,G/C、A/T含量也是近似均匀的,因此,根据大数定理,在每个测序循环上,GC、AT含量应当分别相等,且等于基因组的GC、AT含量,因此当发生AT或GC分离的情况时,此数据不能继续进行后续分析。
[0084]序列比对模块232,用于将所述数据评估模块评估后的基因组重测序数据与参考基因组分别进行比对率统计、测序深度分布统计、插入片段分布统计,分别得到比对率、基因组覆盖深度、基因组覆盖度。
[0085]上述的序列比对模块232,还用于过滤评估后的基因组重测序数据中的重复序列,得到过滤后的基因组重测序数据。<
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1