一种基于云计算基因序列数据质控管理方法与流程

文档序号:17335452发布日期:2019-04-05 22:25阅读:216来源:国知局
一种基于云计算基因序列数据质控管理方法与流程

本发明属于基因工程技术领域,具体涉及一种基于云计算基因序列数据质控管理方法。



背景技术:

随着二代测序技术的成熟和完善,基因组测序在肿瘤研究领域得到了广泛应用。肿瘤样本按照取样来源可分为新鲜冰冻组织、石蜡切片组织、血液和唾液等类型,基因组测序按照测序类型可分为全基因组测序、外显子组测序和目标区域捕获测序。全基因组重测序(wholegenomesequencing,wgs)是对人类不同个体或群体进行全基因组范围测序,通过与人类参考基因组进行比较,得到丰富的全基因组变异信息,并在个体或群体水平上进行生物信息分析。全外显子组测序(wholeexomesequencing,wes)利用探针杂交富集外显子区域的dna序列,结合高通量测序,可以发现外显子区域相关变异信息。目标区域捕获测序是通过定制基因组目标区域的探针,与基因组dna进行杂交,将目标区域dna富集后进行高通量测序的技术手段。目标区域测序对于目标基因进行高深度测序,可精确检测变异,通常配合全基因组测序和外显子测序对已获得基因突变进行大样本量的验证。

无论是基于何种样本类型和测序类型,对于大部分分析云平台或者分析技术人员而言,最关心的永远是数据以及分析结果。在拿到数据后,就会立刻按照流程或者需求进行分析,却很少对数据进行质控,即使有部分公司会进行质控,也仅仅局限于对原始测序数据的简单质控。对于样本、实验流程、以及数据后续质控等环节,则很少涉及。

目前的情况是,样本处理、建库、测序等都是实验室部门的工作范畴,而拿到原始测序数据后的分析,才是分析技术人员的工作。由于实验室与分析技术人员隶属于不同部门,因此实验室和分析部门的独立却造成了样本到数据再到分析之间的断层,这是不合理的。所有的分析结果都是基于测序数据,但测序数据同样是基于样本以及实验室的操作情况,因此样本和实验结果直接影响了后续的测序以及分析,这两者之间有直接联系。将样本处理与实验环节与分析环节隔离成两个环节,实验人员不了解数据质量,无法从测序数据中寻找不足之处,分析人员不了解实验流程和样本信息,无法掌握数据的所有信息,对后续分析必然不利,因此这种流程对双方都不利,存在很大的局限性。



技术实现要素:

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于云计算基因序列数据质控管理方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种基于云计算基因序列数据质控管理方法,包括:样本临床信息管理、实验数据管理、数据全流程质控和分析结果管理。

进一步地,样本临床信息管理的检测项目包括基因组学分析、转录组学分析。

进一步地,基因组学分析包括全基因组测序、全外显子测序和靶向区域测序,检测内容包括碱基替换突变、插入缺失突变、拷贝数变异、结构变异、dna甲基化、功能注释、通路富集等;转录组学分析包括丰度计算、表达量分析、基因融合、可变剪切、差异表达分析、功能注释和通路富集等,数据覆盖mrna、microrna、lncrna、scrna的转录测序数据。

进一步地,实验数据管理包括:搭建实验数据库,保存实验信息数据。

进一步地,实验数据库的信息包括:

记录信息包括实验室id、样本接收日期、实验进度、样本取样体积、引物id、dna产量、建库产量、杂交捕获产量、上机量、样本存放位置、操作人、实验结果、备注;

实验进度阶段包括:样本接收、核酸、建库、上机、分析、已完成;实验进度阶段会实时更新。

进一步地,数据全流程质控包括:接收到原始数据后,对原始数据进行校验质控,然后对原始数据预处理、与参考基因组进行测序数据比对、产生变异检测结果各个环节都进行相应的质控。

进一步地,对原始数据的校验质控包括:分析前对原始数据进行校验,确保数据无误,然后对原始数据进行质控,检测测序效果以及数据质量,包括序列数、测序量、碱基质量、重复序列等。

进一步地,对原始数据预处理环节的质控包括:在开始分析前,对数据进行预处理,过滤出干净而有效的序列数据,预处理结束后,对预处理后的数据会在此进行质控,并且将预处理前后两次质控结果进行对比,提供表格数据结果和图形化结果。

进一步地,与参考基因组进行测序数据比对结果的质控包括:对经过预处理的测序数据进行分析,第一步是基于参考基因组对测序数据进行比对,将测序数据与参考基因组进行比对,比对上的序列则为有效序列,用于后续分析,无法比对的序列则是无效序列;比对后生成bam文件,对bam文件进行质控。

进一步地,变异检测结果的质控包括:将测序数据进行比对后,生成bam文件,基于参考基因组,从bam文件中寻找出与参考基因序列不同的位点信息,以差异序列所在位置为单位,每个差异位点表示一个变异,将所有的变异信息进行整合,生成vcf文件,对vcf结果进行质控。

进一步地,分析结果管理包括:对原始测序数据进行处理,生成包含变异结果的vcf文件;基于vcf中的数据进行深入分析,从中挖掘出有用的数据结果;后续分析包含差异表达分析、通路富集分析、拷贝数检测、结构变异分析、dna甲基化分析等;经过一系列分析后得到的结果为最终分析结果。

本发明提供的基于云计算基因序列数据质控管理方法,将实验环节与分析环节紧密联系在一起,既让分析人员能够全面了解临床信息、样本信息、实验结果,有助于其进行后续分析,提高分析结果的精准性,又能帮助实验人员了解测序数据的质量,从而反思实验过程中存在的不足之处,进而提高实验质量,可以很好地满足实际应用的需要。

附图说明

图1为样本临床信息收集模板图;

图2为实验数据库信息输入界面图;

图3为数据全流程质控流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于云计算基因序列数据质控管理方法,包括四个环节:样本临床信息管理、实验数据管理、数据全流程质控和分析结果管理,每个环节具体包括的内容如下:

(1)样本临床信息管理

为了有助于实验人员和分析人员对样本数据有足够的了解,帮助更好地完成实验操作和分析流程,获得可靠、准确、有意义的分析结果,本发明在建立管理系统的同时,还设计了样本临床信息收集模板,如图1所示,用于收集样本临床信息。

可分析的肿瘤类型包括肺癌、肠癌、卵巢癌、胰腺癌、乳腺癌等常见肿瘤在内的总共数十种肿瘤;可支持的样本类型包括石蜡切片、新鲜组织、血液和唾液四种,基本囊括了目前常见的几种样本类型。

检测项目涵盖基因组学分析、转录组学分析和正常人疾病风险检测,其中基因组学又可细分为全基因组测序、全外显子测序和靶向区域测序三大类,检测内容覆盖碱基替换突变、插入缺失突变、拷贝数变异、结构变异、dna甲基化、功能注释和通路富集等;转录组学分析同样可细分为丰度计算、表达量分析、基因融合、可变剪切、差异表达分析、功能注释和通路富集等,数据覆盖mrna、microrna、lncrna、scrna等多种转录测序数据。正常人疾病风险检测可对人体健康情况进行评估,涵盖遗传病筛选、肿瘤风险预测、消化道疾病、神经系统疾病等慢性疾病的检测分析,提前预防可能存在的药物不良反应等常见问题。

肿瘤类型、样本类型结合检测项目,可以明确用户的分析需求,从而可以让云平台能够自动从预先制定好的多种分析方案中选择出最匹配的方案进行分析,进而帮助分析人员进行后续深入分析,同时提供具备实际意义的结果解读报告。

(2)实验数据管理

为了使得实验室工作更加流程化、规范化,搭建了专门的实验数据库,用于保存所有的实验信息数据,帮助实验室了解实验进展和样本处理情况,从而可以合理安排实验任务,有效提高了工作效率。实验数据存储到实验数据库中。

搭建的实验数据库如图2所示,记录信息包括实验室id、样本接收日期、实验进度、样本取样体积、引物id、dna产量、建库产量、杂交捕获产量、上机量、样本存放位置、操作人、实验结果、备注等。

实验进度包括样本接收、核酸、建库、上机、分析、已完成等数个阶段,而且会实时更新,帮助实验人员快速了解各样本的状态和实验进度,从而合理安排后续实验内容与日程。此外,还可以让分析部门、用户、销售实时跟踪样本进展,为后续分析、沟通做准备。

实验质控详细说明了样本质量情况、实验结果好坏等,有助于实验人员从中汲取经验,提升实验过程中的不足之处,同时给分析部门提供参考,对后续深入分析、过滤以及参数优化具有借鉴意义。

(3)数据全流程质控

如图3所示,接收到原始数据后,对原始数据进行校验质控,然后对原始数据预处理、与参考基因组比对、产生变异检测结果各个环节全都进行相应的质控,详细掌握了每个环节数据的质量情况,极大提高了分析结果的可靠性和准确性。

对原始数据的校验质控:分析前对原始数据进行校验,确保数据无误,然后对原始数据进行质控,检测测序效果以及数据质量,包括序列数、测序量、碱基质量、重复序列等。原始数据的质量好坏,完全取决于样本质量和实验流程,因此对原始数据进行质控,不仅可以验证样本质量,还可以与实验质控结果相结合,帮助实验室不断优化实验流程。质控结果分为两大类:表格数据结果和图形化结果,数据库中存储表格数据结果,用户通过可视化页面查看图形化结果,有助于用户更加快速、直接的了解样本的质量以及测序数据的质量情况。

原始数据预处理环节的质控:原始测序数据因为实验操作、上机测序等过程存在的偏差,会包含引物序列、错误序列、噪声序列、低质量序列等无效序列数据,这些序列数据不仅对后续分析没有任何作用,反而还会影响分析结果的准确性。因此,在开始分析前,需要对数据进行预处理,过滤出干净而有效的序列数据,如此可提升分析结果的准确性,同时还可一定程度节省计算资源的浪费,减少分析时间。预处理阶段不仅会去除残留的引物序列,还会过滤低质量序列和错误序列,净化数据。预处理结束后,对预处理后的数据会在此进行质控,并且将预处理前后两次质控结果进行对比,同样提供了表格数据结果和图形化结果,帮助了解预处理的效果,明确对数据进行预处理的重要性。同时对比结果一定程度可以反映实验和测序的水平。

与参考基因组进行测序数据比对结果的质控:对经过预处理的测序数据进行分析,第一步同时也是不可或缺的环节,就是基于参考基因组对测序数据进行比对。参考基因组是全球范围普遍认可的人类基因组序列,是所有的人类基因序列分析的参考标准。将测序数据与参考基因组进行比对,比对上的序列则为有效序列,可用于后续分析,无法比对的序列则是无效序列。比对后生成的bam文件,是一种二进制文件,包含了比对上的所有序列。对bam文件进行质控,可以反映比对效果,从而真正了解实验操作水平的高低以及测序质量优劣。原始质控结果包含图表信息,图形结果可直观反映质控结果。此外,基于测序数据和比对结果的两次质控结果,还计算了一些质控指标,如ratioofreadsmapped、ratioofreadsontarget、averagedepth、coverageontargetwithdepth≥200x等,这些指标可以更加直观、简洁明了的反应质控结果和数据优劣程度。

变异检测结果的质控:将测序数据进行比对后,生成了bam文件,接下来便是基于参考基因组,从bam文件中寻找出与参考基因组不同的位点信息,以差异序列所在位置为单位,每个差异位点表示一个变异。将所有的变异信息进行整合,生成了vcf(variantcallformat)文件。因为实验、测序、算法存在的误差,vcf的结果中必然存在部分假阳性结果。这时,需要对vcf结果进行质控,可以帮助去除一些假阳性结果,初步了解变异检测结果的质量,有利于后续分析。质控结果为数字型结果,可以表格的形式存储并提供给用户。

以上四个环节的质控组成了一套完成的质控流程,详细记录了每一环节数据的质量情况,为最终分析结果的可靠性和准确性提供了保障。

(4)分析结果管理

在对原始测序数据进行处理后,生成了包含变异结果的vcf文件。之后便是基于vcf中的数据进行深入分析,从中挖掘出有用的数据结果。后续分析包含差异表达分析、通路富集分析、拷贝数检测、结构变异分析、dna甲基化分析等等。经过一系列深入分析后得到的结果为最终分析结果。但单纯的基因序列数据分析结果没有太大意义,只有结合样本临床信息进行解读,才能发掘出基因序列数据分析的真正意义。同时为了便于理解分析结果,更好地进行解读,对分析结果还提供了一系列的可视化图形结果,以及完整的分析解读报告。根据用户的需求,可视化结果和分析报告分为临床版和科研版两大类,临床版侧重于突变结果以及相关临床用药指导,而科研版更加注重结果的丰富性,因此设计的可视化图形结果更加多种多样,满足科研需求。

除了电子版报告可直接通过云平台下载外,原始测序数据、比对数据bam文件、突变检测初步结果vcf文件、各种质控结果以及最终分析结果txt文件等都可以通过云平台进行下载,满足用户想要自行研究与查看的需求。

考虑到人类基因序列数据量非常庞大,要想挖掘出隐藏在巨大数据量背后的意义与价值,不仅需要借助大数据计算,同时还要依靠规范、可靠、数据量充足的数据库。因此,对于所有步骤的分析结果都会自动进行保存备份,为后续建立独立数据库奠定基础。

本发明达到的有益效果包括:

以临床信息为起点,全面采集患者的样本及对应的临床信息,同时还提供信息补充、修改、完善等功能,便于管理患者信息,同时有助于实验室工作人员了解样本信息,从而设计合理的实验流程,还有利于分析技术人员了解数据本质以及背后的意义,为分析与结果解读提供必备基础;

以实验数据管理为关键,帮助实验室整理所有样本信息,合理安排实验任务,从而可以提高实验效率。丰富全面的样本信息有利于实验室了解样本,从而预先设计好实验流程,有助于提高实验效率与质量;全面的实验数据还可帮助分析人员对数据具备初步的了解,以及后续分析的流程优化等;

以数据分析与质控为核心,对数据进行全流程、全方位的质控,帮助更深入的掌握数据情况,进而优化后续分析流程与参数,显著提高分析的可靠性和准确性,提高分析效率,减少计算、人力、时间资源浪费;此外,还可通过系统将这些信息反馈给实验室,帮助实验室通过数据质控结果了解实验情况,进而寻找实验过程可能存在的不足,从而优化实验流程;

以分析结果解读为终点,将分析结果与临床信息相结合,发掘结果与临床之间的深层次联系,让纯粹的数据结果变得有实际意义;同时将结果反馈给客户,帮助客户了解分析结果,有助于提高整体工作效率,降低沟通成本。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1