肿瘤外显子组测序分析系统及方法

文档序号:10655802阅读:417来源:国知局
肿瘤外显子组测序分析系统及方法
【专利摘要】本发明提供肿瘤外显子组测序分析系统及方法。所述分析系统包括Web交互单元、Java交互单元和数据分析单元。其中Web交互单元用于以Web方式接收肿瘤外显子组测序数据和测序参数;Java交互单元用于对接收的数据和参数,生成测序分析任务;数据分析单元用于根据生成的任务,读取所述肿瘤外显子组测序数据,并通过调用生物信息学软件库和脚本库,对数据进行分析,获取分析结果。本发明提供的肿瘤外显子组测序分析系统及方法,通过调用高效准确的生物信息学软件和个性化分析模块,一键式完成肿瘤外显子组测序分析流程,提高了测序效率;此外,本发明还具有保存肿瘤外显子组测序分析结果,进行二次查询检索的功能,节省了科研成本,有助于更深入地挖掘数据信息。
【专利说明】
肿瘤外显子组测序分析系统及方法
技术领域
[0001]本发明属于生物信息学领域,具体地说,涉及肿瘤外显子组测序分析系统及方法。
【背景技术】
[0002]生物信息学(B1informatics)作为生命科学和计算机科学相结合的新兴学科,是研究生物信息的采集、处理、存储、传播、分析等的学科,可以有效揭示大量而复杂的生物数据所蕴含的生物学规律。
[0003]肿瘤外显子组测序分析作为生物信息领域的重要研究方向,通过运用高通量测序技术对个体或群体中的不同样本进行全外显子组或肿瘤相关基因的测序,对解决重大的基础理论研究和肿瘤治疗的精准治疗策略提供重要的指导作用。

【发明内容】

[0004]本发明的目的是提供肿瘤外显子组测序分析系统。
[0005]本发明的另一目的是提供基于上述分析系统的肿瘤外显子组测序分析方法。
[0006]本发明基于以下构思:肿瘤外显子组测序是对已知基因组序列的物种进行全外显子组或肿瘤相关基因的测序,并在此基础上对个体或群体中样本的异质性进行差异分析。现有技术中,肿瘤外显子组测序数据分析需要多款软件的人工衔接和操作,同时需要操作人员具备一定的专业技术技能,操作流程繁琐。为解决上述问题,本发明提供肿瘤外显子组测序分析系统及方法,使整个生物信息学分析流程实现自动化。
[0007]为了实现本发明目的,本发明提供肿瘤外显子组测序分析系统,所述分析系统包括Web交互单元、Java交互单元和数据分析单元,通过生成肿瘤外显子组测序数据任务信息订单,调用相关生物信息学软件库和脚本库进行分析,获取肿瘤外显子测序分析结果。
[0008]具体而言,Web交互单元,以Web方式接收肿瘤外显子组测序数据和测序参数,并将测序数据和参数发送至Java交互单元,还用于将最终分析结果展示给用户;
[0009]Java交互单元,用于根据所述Web交互单元接收的肿瘤外显子组测序数据和测序参数,生成肿瘤外显子组测序分析任务信息,并将所述信息发送至数据分析单元;以及
[0010]数据分析单元,用于根据所述Java交互单元生成的肿瘤外显子组测序分析任务信息,读取所述肿瘤外显子组测序数据,并通过调用生物信息学软件库和脚本库,对所述数据进行系统分析,获取肿瘤外显子组测序分析结果。
[0011 ] 其中,所述生物信息学软件库包括BWA、SamtooIs、GATK、Picard、Varscan、Anno var、MusigCV、SomaticSignature s和 Blast等;所述脚本库包括 SNV检测脚本、InDe I 检测脚本、CNV检测脚本、功能注释脚本和绘图及统计脚本等。
[0012]所述Java交互单元包括任务调度模块,用于将Web交互单元所接收的测序数据和测序参数以及相应生成的测序分析任务信息发送至数据分析单元;同时还可以实时监测任务的运行状态及进展。
[0013]所述Java交互单元还包括:
[0014]结果推送模块,用于分析结束时,根据相应任务调度模块发送的展示指令,将各数据分析单元中获取的肿瘤外显子组测序分析结果在Web交互单元进行展示;
[0015]数据库交互模块,用于将肿瘤外显子组测序分析结果根据任务调度模块发送的存储指令,将各数据分析单元中获取的肿瘤外显子组测序分析结果存储至数据库。
[0016]所述数据分析单元包括:
[0017]数据评估模块,用于对所述测序数据进行质量检测,并根据质量检测结果,判断所述测序数据是否可以进行后续的测序分析;其中,所述质量检测包括碱基质量分布检测和碱基类型分布检测;
[0018]序列比对模块,用于将评估后的肿瘤外显子组测序数据与参考基因组序列分别进行比对率统计、测序深度分布统计及插入片段分布统计,得到相应的比对率、基因组覆盖深度及基因组覆盖度结果,同时获得过滤后的测序数据;以及
[0019]突变检测模块,通过调用所述生物信息学软件库和脚本库,对所述过滤后的肿瘤外显子组测序数据进行突变检测分析,包括单核苷酸多态性检测和插入缺失检测以及LOH检测。
[0020]优选地,所述数据分析单元还包括功能注释模块,通过调用脚本库和功能注释库完成突变位点的功能注释挖掘,所述基因位置包括基因区、基因间区和非翻译区。
[0021]优选地,所述数据分析单元还包括驱动基因和通路富集分析模块,通过调用脚本库和功能注释库完成驱动基因的检测和筛选,同时对筛选出的高可信度的基因进行生物体功能通路的还原。
[0022]优选地,所述数据分析单元还包括:体细胞突变检测模块,用于对测序数据进行突变类型的统计分析;以及拷贝数变异检测模块,用于通过调用脚本库,完成对肿瘤外显子测序数据的拷贝数变异的检测统计,同时完成在相应参考基因组上的位置展示。
[0023]本发明进一步提供基于上述分析系统的肿瘤外显子组测序分析方法,包括以下步骤:
[0024]S1、通过Web交互单元接收肿瘤外显子组测序数据和测序参数;
[0025]S2、通过Java交互单元,根据Web交互单元接收的肿瘤外显子组测序数据和参数,生成肿瘤外显子组测序分析任务信息;以及
[0026]S3、利用数据分析单元,根据所述肿瘤外显子组测序分析任务,通过调用生物信息学软件库和脚本库,对所述肿瘤外显子组测序数据进行分析,获取肿瘤外显子组测序分析结果并将结果展示给用户。
[0027]本发明提供的肿瘤外显子组测序分析系统及方法,通过调用高效准确的生物信息学软件和个性化分析模块,一键式完成肿瘤外显子组测序分析流程,提高了测序效率;此夕卜,本发明还具有保存肿瘤外显子组测序分析结果,进行二次查询检索的功能,节省了科研成本,有助于更深入地挖掘数据信息。
【附图说明】
[0028]图1为本发明实施例中肿瘤外显子组测序分析系统的结构示意图。
[0029]图2为本发明实施例中肿瘤外显子组测序分析系统的详细结构示意图。
[0030]图3为本发明实施例中肿瘤外显子组测序分析系统的数据分析单元的工作流程示意图。
[0031]图4为本发明实施例中肿瘤外显子组测序分析方法的流程示意图。
【具体实施方式】
[0032]以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段,所用原料均为市售商品。
[0033]实施例肿瘤外显子组测序分析系统及方法
[0034]本实施例提供的肿瘤外显子组测序分析系统的结构示意图见图1,该分析系统包括:
[0035]Web交互单元11,用于接收肿瘤外显子组测序数据和测序参数,并将所述肿瘤外显子组测序数据和参数发送至Java交互单元12;
[0036]Java交互单元12,用于根据所述Web交互单元11接收的肿瘤外显子组测序数据和参数,生成肿瘤外显子组测序分析任务信息,并将所述测序分析任务信息发送至数据分析单元13;
[0037]数据分析单元13,用于根据所述Java交互单元12生成的肿瘤外显子组测序分析任务信息,读取所述测序数据,并通过调用生物信息学软件库和脚本库,对所述肿瘤外显子组测序数据进行分析,获取肿瘤外显子组测序分析结果。
[0038]其中,所述生物信息学软件库包括:BWA、Samtools、GATK、Picard、Varscan、Anno var、MusigCV、SomaticSignature s和 Blast等;所述脚本库包括 SNV检测脚本、InDe I 检测脚本、CNV检测脚本、功能注释脚本和绘图及统计脚本等。
[0039]该肿瘤外显子组测序分析系统的详细结构示意图见图2,包括Web交互单元21、Java交互单元22和数据分析单元23。
[0040]其中,Java交互单元22包括:结果推送模块221、任务调度模块222、数据库交互模块223 0
[0041 ]数据分析单元23包括:数据评估模块231、序列比对模块232、突变检测模块233、功能注释模块234、驱动基因和通路富集分析模块235、体细胞突变检测和拷贝数变异检测模块236。
[0042]Web交互单元21用于接收肿瘤外显子组测序数据和测序参数,并将所述肿瘤外显子组测序数据和参数发送至Java交互单元22的任务调度模块222。
[0043]Java交互单元22用于根据所述Web交互单元21接收的肿瘤外显子组测序数据和参数,生成肿瘤外显子组测序任务信息,并将所述测序任务信息发送至数据分析单元23。
[0044]数据分析单元23用于根据所述Java交互单元22生成的肿瘤外显子组测序任务信息,读取所述肿瘤外显子组测序数据,并通过调用生物信息学软件库和脚本库,对所述测序数据进行分析,获取肿瘤外显子组测序分析结果。
[0045]数据评估模块231用于对所述肿瘤外显子测序数据进行质量检测,并根据质量检测结果,判断所述测序数据是否可以进行肿瘤外显子组测序分析;其中,所述质量检测包括碱基质量分布检测和碱基类型分布检测。
[0046]可以理解的是,所述质量检测包括碱基质量分布检测,基于测序数据中包含的碱基质量值,利用Perl脚本对所有碱基的质量值进行统计,当85%以上的碱基质量值高于30分时,此数据才可以继续进行后续分析,否则需要先进行低质量序列过滤方可使用。
[0047]其中,所述质量检测还包括碱基类型分布检测,用于检测有无AT、GC碱基分离现象,高通量测序时,基因组随机打断,由于位点在基因组上的分布是近似均匀的,同时,G/C、A/T含量也是近似均匀的,因此,根据大数定理,在每个测序循环上,GC、AT含量应当分别相等,且等于基因组的GC、AT含量,因此当发生AT或GC分离的情况时,此数据不能继续进行后续分析。
[0048]序列比对模块232用于将所述数据评估模块评估后的测序数据与参考基因组分别进行比对率统计、测序深度分布统计、插入片段分布统计,分别得到比对率、基因组覆盖深度、基因组覆盖度。
[0049]上述的序列比对模块232,还用于过滤评估后的肿瘤外显子组测序数据中的重复序列,得到过滤后的肿瘤外显子组测序数据。
[0050]具体而言,序列比对模块232还用于过滤比对结果中的重复序列,重复序列主要是由于测序PCR产生的,会影响测序深度等比对评估参数,最终导致突变检测的假阳性,比对结果一般以BAM格式(二进制的比对结果存储格式,占用空间小,检索速度快)进行存储,使用Picard的Mark Duplicate模块进行处理去重复,屏蔽PCR-duplicat1n的影响。
[0051]突变检测模块233用于通过调用所述生物信息学软件库和脚本库,对所述过滤后的肿瘤外显子组测序数据进行突变检测分析。
[0052]可以理解的是,所述突变检测分析包括单核苷酸多态性检测、插入缺失检测、结构变异检测。
[0053]功能注释模块234,在突变检测分析过程中,用于对突变所在的基因组位置进行功能注释,所述基因位置包括基因区、基因间区和非翻译区。
[0054]驱动基因检测和通路富集模块235用于将突变检测的过滤结果进行驱动基因的检测和相应富集通路的展示。
[0055]体细胞突变检测模块236用于对体细胞中的突变类型进行统计。
[0056]其中,所述功能注释数据库包括KEGG。
[0057]具体地,数据分析单元23的工作流程见图3,用BWA将测序数据Reads比对到参考基因组上,并用Picard去除比对重复,用Samtools统计比对结果;SNV和InDel检测以及LOH检测,基于比对结果,用GATK进行检测,检测前需进行InDel附近重新比对、碱基校正,以降低检测的假阳性;使用Varscan进行CNV检测;突变基因注释,使用Annovar进行功能区域注释,使用Blast进行基因功能注释。
[0058]对本发明的肿瘤外显子组测序分析系统进行了不同真实数据集的测试,与预期的结果一致。
[0059]基于上述分析系统,本实施例还提供肿瘤外显子组测序分析方法(图4),包括以下步骤:
[0060]S1、通过Web交互单元接收肿瘤外显子组测序数据和测序参数;
[0061]S2、通过Java交互单元,根据Web交互单元接收的肿瘤外显子组测序数据和参数,生成肿瘤外显子组测序分析任务信息;
[0062]S3、利用数据分析单元,根据所述肿瘤外显子组测序分析任务,通过调用生物信息学软件库和脚本库,对所述肿瘤外显子组测序数据进行分析,获取肿瘤外显子组测序分析结果并将结果展示给用户。
[0063]本实施例提供的肿瘤外显子组测序分析系统及方法,通过调用高效准确的生物信息学软件和个性化分析模块,一键式完成肿瘤外显子组测序分析流程,提高了测序效率;此夕卜,该系统还具有保存肿瘤外显子组测序分析结果,进行二次查询检索的功能,节省了科研成本,有助于更深入地挖掘数据信息。
[0064]虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
[0065]参考文献
[0066](I)Li H,Durbin R.Fast and accurate short read alignment with Burrows-WheelerTransform.B1informatics,2009 25:1754-60.
[0067](2)DePr isto MA,Banks E ,Poplin R,et al.A framework for variat1ndiscovery and genotyping usingnext-generat1n DNA sequencing data.Naturegenetics,201I,43(5):491-498.
[0068](3)Koboldt D Cj Zhang QjLarson D E,et al.VarScan 2: somatic mutat1nand copy number alterat1ndiscovery in cancer by exome sequencing[J].Genomeresearch,2012,22(3):568-576.
[0069](4)Picard:http://sourceforge.net/projects/picard/.(Picard).
[0070](5)ffang KjLi MjHakonarson H.ANN0VAR:funct1naI annotat1n of geneticvariants fromhigh-throughput sequencing data[J].Nucleic acids research,2010,38(16):el64-el64.
[0071](6)Chang XjWang K.wANNOVAR:annotating genetic variants for personalgenomes via the web[J].Journal of medical genetics,2012,49(7):433-436.
[0072](7)Yang HjWang K.Genomic variant annotat1n and pr1ritizat1n withANN0VAR andwANN0VAR[J].Nature protocols,2015,10(10):1556-1566.
[0073](8)Dees ND,Zhang QjKandoth CjWendl MC,Schierding WjKoboldt DC,etal.MuSiC:1dentifyingmutat1nal significance in cancer genomes.Genome Res2012;22(8):1589-98.
[0074](9)ffendl MCjWallis JffjLin L,et al.PathScan: a tool for discerningmutat1nal significance in groupsof putative cancer genes.B1informatics2011;27:1595-602.
[0075](1)Lawrence M SjStojanov PjPolak P,et al.Mutat1nal heterogeneity incancer and the search fornew cancer-associated genes[J].Nature,2013,499(7457):214-218.
[0076](Il)Futreal P AjCoin LjMarshall M,et al.A census of human cancergenes[J].Nature ReviewsCancer,2004,4(3):177-183.
[0077](12)Vogelstein B,Papadopoulos NjVelculescu V E,et al.Cancer genomelandscapes!! J].science,2013,339(6127): 1546-15580
【主权项】
1.肿瘤外显子组测序分析系统,其特征在于,所述分析系统包括: Web交互单元,以Web方式接收肿瘤外显子组测序数据和测序参数,并将测序数据和参数发送至Java交互单元,还用于将最终分析结果展示给用户; Java交互单元,用于根据所述Web交互单元接收的肿瘤外显子组测序数据和测序参数,生成肿瘤外显子组测序分析任务信息,并将所述信息发送至数据分析单元;以及 数据分析单元,用于根据所述Java交互单元生成的肿瘤外显子组测序分析任务信息,读取所述肿瘤外显子组测序数据,并通过调用生物信息学软件库和脚本库,对所述数据进行系统分析,获取肿瘤外显子组测序分析结果。2.根据权利要求1所述的分析系统,其特征在于,所述生物信息学软件库包括BWA、SamtooIs、GATK、Picard、Varscan、Annovar、MusigCV、SomaticSignatures和Blast; 所述脚本库包括SNV检测脚本、InDel检测脚本、CNV检测脚本、功能注释脚本和绘图及统计脚本。3.根据权利要求1或2所述的分析系统,其特征在于,所述Java交互单元包括任务调度模块,用于将Web交互单元所接收的测序数据和测序参数以及相应生成的测序分析任务信息发送至数据分析单元;同时还可以实时监测任务的运行状态及进展。4.根据权利要求1-3任一项所述的分析系统,其特征在于,所述Java交互单元还包括: 结果推送模块,用于分析结束时,根据相应任务调度模块发送的展示指令,将各数据分析单元中获取的肿瘤外显子组测序分析结果在Web交互单元进行展示;以及 数据库交互模块,用于将肿瘤外显子组测序分析结果根据任务调度模块发送的存储指令,将各数据分析单元中获取的肿瘤外显子组测序分析结果存储至数据库。5.根据权利要求1-4任一项所述的分析系统,其特征在于,所述数据分析单元包括: 数据评估模块,用于对所述测序数据进行质量检测,并根据质量检测结果,判断所述测序数据是否可以进行后续的测序分析;其中,所述质量检测包括碱基质量分布检测和碱基类型分布检测; 序列比对模块,用于将评估后的肿瘤外显子组测序数据与参考基因组序列分别进行比对率统计、测序深度分布统计及插入片段分布统计,得到相应的比对率、基因组覆盖深度及基因组覆盖度结果,同时获得过滤后的测序数据;以及 突变检测模块,通过调用所述生物信息学软件库和脚本库,对所述过滤后的肿瘤外显子组测序数据进行突变检测分析,包括单核苷酸多态性检测和插入缺失检测以及LOH检测。6.根据权利要求1-5任一项所述的分析系统,其特征在于,所述数据分析单元还包括功能注释模块,通过调用脚本库和功能注释库完成突变位点的功能注释挖掘,所述基因位置包括基因区、基因间区和非翻译区。7.根据权利要求1-6任一项所述的分析系统,其特征在于,所述数据分析单元还包括驱动基因和通路富集分析模块,通过调用脚本库和功能注释库完成驱动基因的检测和筛选,同时对筛选出的高可信度的基因进行生物体功能通路的还原。8.根据权利要求1-7任一项所述的分析系统,其特征在于,所述数据分析单元还包括: 体细胞突变检测模块,用于对测序数据进行突变类型的统计分析;以及 拷贝数变异检测模块,用于通过调用脚本库,完成对肿瘤外显子测序数据的拷贝数变异的检测统计,同时完成在相应参考基因组上的位置展示。9.基于权利要求1-8任一项所述分析系统的肿瘤外显子组测序分析方法。10.根据权利要求9所述的方法,其特征在于,包括以下步骤: .51、通过Web交互单元接收肿瘤外显子组测序数据和测序参数; .52、通过Java交互单元,根据Web交互单元接收的肿瘤外显子组测序数据和参数,生成肿瘤外显子组测序分析任务信息;以及. 53、利用数据分析单元,根据所述肿瘤外显子组测序分析任务,通过调用生物信息学软件库和脚本库,对所述肿瘤外显子组测序数据进行分析,获取肿瘤外显子组测序分析结果并将结果展示给用户。
【文档编号】G06F19/20GK106021993SQ201610316928
【公开日】2016年10月12日
【申请日】2016年5月12日
【发明人】郑洪坤, 张增金, 孔关义, 李俊晖, 梁运鹏
【申请人】北京百迈客云科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1