一种无创产前生物信息学检测系统及其方法和应用与流程

文档序号:15144927发布日期:2018-08-10 20:20阅读:1842来源:国知局

本发明属于生物信息学领域,涉及一种自动分析方法及其应用,尤其涉及一种无创产前生物信息学检测系统及其方法和应用。



背景技术:

目前,高通量测序可以实现一次测序几十到上百个样本,同时产出几百g的数据量,数据量之大,样本之多都对目前的数据分析提出了严峻的考验;此外,高通量数据分析步骤繁多,人为参与较多,容易造成误差,并且不便于投入生产。

目前,主流的无创产前检测流程(nipt)主要采用了标准z值算法和gc矫正z值算法等,不同的算法对chr13、chr18与chr21的检出效果不同:其中,标准z值算法对chr21三体检出效果较好,gc矫正z值算法对chr13与chr18三体检出效果较好。此外,计算胎儿浓度的算法也较多,包括基于y染色体法、基于snp方法与基于序列片段(reads)长度方法等。

现有技术中,cn201610377564.6公开了一种无创产前生物信息检测分析方法,采用稳健回归和cv回归,根据不同的待测样本数量选择不同的检测分析方法,利用待测样本所获得的参数和正常参考集所获得的参数采取不同的分析策略,更大程度上提升分析的准确度。cn200710028600.9保护了一种检测21号染色体和性染色体数目异常的试剂盒,该试剂盒利用定量荧光多重聚合酶链反应技术,分别以21-三体和性染色体上特异的遗传位点进行荧光引物七重复合扩增,根据扩增产物剂量的差异分析染色体数目异常,达到检测临床样品中21号染色体和性染色体数目异常的目的。上述不同算法的计算结果略有差异,目前比较权威的计算方法是基于chry染色体法,但是此方法只能计算怀男胎儿的胎儿浓度,而无法计算女胎儿的胎儿浓度。

因此,重新开发一种准确度高、能够检测所有胎儿生物信息学的方法显得尤为重要。



技术实现要素:

针对上述问题,本发明提供一种无创产前生物信息学检测系统及其方法和应用,可以自动完成从数据完成测序流程并获得原始数据(以下简称“下机”)情况的监控到自动分析再到给出检测结果的整个过程,中间无需人员进行操作,减少人为因素引入的误差,降低假阴性假阳性的检出率,减少数据分析的复杂性,使其更适合投入生产使用。

第一方面,本发明提供一种无创产前生物信息学检测方法,所述方法包括以下步骤:

(1)获取原始数据:提取孕妇外周血cfdna,进行全基因组测序,得到原始数据;

(2)原始数据的筛选投递:启动自动监控程序,判断原始数据是否完全下机以及样本配置文件是否准备完毕,如果结果为“是”,进入步骤(3);如果结果为“否”,返回步骤(1),直到自动监控程序的结果为“是”为止,进入步骤(3);

(3)原始数据质控:对结果为“是”的原始数据进行数据拆分,得到fastq文件,然后对fastq文件进行基本质控;对于不满足质控要求的数据,不进行后续的分析工作,重新测序;满足质控要求的数据则进行参考基因比对和结果输出。

优选地,所述参考基因比对具体包括:通过与参考基因组比对,进行胎儿第13、18和21号染色体的胎儿染色体异常检测,以及胎儿浓度检测。

优选地,所示结果输出具体包括:根据步骤(3)和步骤(4),分别根据胎儿染色体异常检测的判断标准和胎儿浓度检测的判断标准,输出最终结果。

本发明的方法能自动完成从数据下机监控到自动分析再到给出检测结果的整个过程,中间无需人员进行操作,减少人为因素引入的误差,减少数据分析的复杂性,使其更适合投入生产使用。

优选地,在步骤(1)中,采用二代测序仪进行全基因组测序。

优选地,采用nextseq500测序仪进行全基因组测序。

优选地,所述全基因组测序的测序序列片段的长度为30-300bp,例如可以是30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp或300bp,以及所述范围内所有的点值,由于篇幅的限制,在此不再一一列举,优选为50-125bp。

优选地,所述全基因组测序采用单端测序和/或双端测序,例如可以采用单端测序,或双端测序,或单双端测序的组合,优选为单端测序。

优选地,在步骤(2)中,通过监控“runcompletionstatus.xml”文件是否生成,判断原始数据是否完全下机,由于不同测序平台下机文件的顺序可能不一样,具体监控哪个文件还应根据平台来定。作为优选的方案,可采用perl语言完成监控脚本(monitor_nipt.pl)编写;采用自编脚本监控原始测序数据是否完全下机和用于分数据的samplesheet文件是否就位;根据数据下机情况自动完成数据的监控与投递任务,此监控系统可以完成循环监控任务,只需投递一次,就可以监控以后所有下机数据,中间无需人员参与,减少了错误的引入。

优选地,在步骤(3)中,采用bcl2fastq软件(由illumina公司官方提供)对结果为“是”的原始数据进行数据拆分,得到fastq文件。

优选地,采用fastqc软件对所述fastq文件进行基本质控(q20、q30、数据量等),对不满足质控要求的样本不进行随后的分析工作,重新建库上机测序。

优选地,在步骤(4)中,采用短序列比对软件与参考基因组进行比对,例如可采用bowtie2软件。

优选地,所述参考基因组为为人类基因组,优选为hg19基因组。

优选地,与参考基因组进行比对所得结果以sam文件或bam文件的形式输出,优选为sam文件。

优选地,在步骤(4)中,所述胎儿染色体异常检测采用标准z值法进行,优选采用python或perl语言实现;然后采用gc矫正z值法进行胎儿染色体异常检测,优选采用perl语言或r语言实现,获得gc矫正后的样本z值作为后续的分析使用;随后,采用开源的软件wisecondor对上述比对结果进行统计,得到结果wisecondor软件主要以图的形式展示检测结果,在本发明修改了其原始代码,使其输出相应染色体的检测z值;在本发明中,优选采用标准z值法、gc矫正z值法与wisecondor等多种算法与软件结合的形式进行染色体异常检测,综合判断,以减少假阴性假阳性检率。

优选地,所述标准z值法采用批次内阴性样本(即原始数据中的无染色体异常的胎儿样本)作为参考;通过计算批内阴性样本的平均值与标准差,带入z值公式来计算所有检测样本的z值,而并不是现有技术普遍采用的阴性样本集方法;批次内阴性样本作为参考的优点是可以有效减少实验批次间误差,降低假阴性假阳性的检出率。

优选地,所述标准z值法的计算公式为:

优选地,在步骤(4)中,所述胎儿浓度检测计算公式为:

通过公式变化,可以的胎儿dna含量计算如下:

采用开源的seqff算法计算胎儿浓度。由于目前上述两种胎儿浓度检测方法中,每种计算胎儿浓度的方法都有其缺点和局限性,为了进一步降低每个算法的误差,提高检测准确性,在本发明中采用两种不同计算方法的平均值来作为最终胎儿浓度。

优选地,在步骤(5)中,所述胎儿染色体异常检测的判断标准为:

若|z值|≤3,则胎儿染色体为正常;此时z值可以是1、2、3、0、-1、-2或-3,以及所述范围内所有的点值,由于篇幅的限制,在此不再一一赘述;

若z值>3,则胎儿染色体为三倍体;此时z值可以是4、5、6、8、10、12、14、16、18或20,以及所述范围内所有的点值,由于篇幅的限制,在此不再一一赘述;

若z值<-3,则胎儿染色体为单倍体;此时z值可以是-4、-5、-6、-8、-10、-12、-14、-16、-18或-20,以及所述范围内所有的点值,由于篇幅的限制,在此不再一一赘述。

优选地,所述胎儿浓度检测的判断标准为:

若胎儿浓度≥4%,则正常,可以进行随后染色体异常分析;此时的胎儿浓度足够,不容易出现假阴性结果,所述浓度例如可以是5%、6%、8%、10%、12%、14%、16%、18%或20%,以及所述范围内所有的点值,由于篇幅的限制,在此不再一一赘述;

若胎儿浓度<4%,则返回步骤(1);此时的胎儿浓度例如可以是3.5%、3%、2.5%、2%、1.5%、1%或0.5%,以及所述范围内所有的点值,由于篇幅的限制,在此不再一一赘述。

作为更优选的技术方案,所述无创产前生物信息学检测方法包括以下步骤:

(1)获取原始数据:提取孕妇外周血cfdna,采用nextseq500测序仪进行全基因组测序,得到原始数据;测序所得序列片段的长度为30-300bp;

(2)原始数据的筛选投递:启动自动监控程序,判断原始数据是否完全下机以及样本配置文件是否准备完毕,如果结果为“是”,进入步骤(3);如果结果为“否”,返回步骤(1),直到自动监控程序的结果为“是”为止,进入步骤(3);通过监控“runcompletionstatus.xml”文件是否生成,判断原始数据是否完全完成测序流程并完全传到集群特定目录;

(3)原始数据质控:采用bcl2fastq软件对结果为“是”的原始数据进行数据拆分,得到fastq文件,然后采用fastqc软件对fastq文件进行基本质控;对于不满足质控要求的数据,不进行后续的分析工作,重新测序;满足质控要求的数据则进入步骤(4);

(4)参考基因比对:采用短序列比对软件与参考基因组比对,进行胎儿第13、18和21号染色体的胎儿染色体异常检测,以及胎儿浓度检测;所述参考基因组为人类基因组;与参考基因组进行比对所得结果以sam文件或bam文件的形式输出;

所述胎儿染色体异常检测采用标准z值法进行,然后采用gc矫正z值法进行胎儿染色体异常检测;然后采用开源的软件wisecondor对上述比对结果进行统计,得到结果;

所述胎儿浓度检测采用开源的seqff算法和所述公式②算法分别计算,然后取平均值的方法作为最终结果;

(5)最终结果输出:根据步骤(3)和步骤(4),分别根据胎儿染色体异常检测的判断标准和胎儿浓度检测的判断标准,输出最终结果;

所述胎儿染色体异常检测的判断标准为:

若|z值|≤3,则胎儿染色体为正常;

若z值>3,则胎儿染色体为三倍体;

若z值<-3,则胎儿染色体为单倍体;

优选地,所述胎儿浓度检测的判断标准为:

若胎儿浓度≥4%,则正常,可以进行随后染色体异常分析;

若胎儿浓度<4%,则返回步骤(1)。

第二方面,本发明提供一种无创产前生物信息学检测装置,包括以下部件:

(1)原始数据获取单元:用于将提取的孕妇外周血cfdna进行全基因组测序,得到原始数据;

(2)原始数据筛选投递单元:用于自动监控,判断原始数据是否完全完成测序流程并获得原始数据,以及samplesheet是否准备完毕,如果结果为“是”,进入原始数据质控单元;如果结果为“否”,返回原始数据获取单元,直到自动监控程序的结果为“是”为止,进入原始数据质控单元;

(3)原始数据质控单元:用于对结果为“是”的原始数据进行数据拆分,得到fastq文件,然后对fastq文件进行基本质控;对于不满足质控要求的数据,不进行后续的分析工作,重新测序;满足质控要求的数据则进入参考基因比对单元;

(4)参考基因比对单元:用于与参考基因组进行比对,进行胎儿第13、18和21号染色体的胎儿染色体异常检测,以及胎儿浓度检测;

(5)结果输出单元:用于根据原始数据质控单元和参考基因比对单元的结果,分别根据胎儿染色体异常检测的判断标准和胎儿浓度检测的判断标准,输出最终结果。

第三方面,本发明提供如第二方面所述的无创产前生物信息学检测装置在高通量数据分析方面的应用。

与现有技术相比,本发明至少具有以下有益效果:

1)本发明能完全实现nipt分析流程的自动化,一键化,减少数据分析的复杂性,减少人为操作引入的误差,便于投入生产;

2)本发明能完全实现自动监控数据下机到分析流程自动分析的过程,保证数据及时开始分析;

3)在本发明中,计算样本的z值时采用批次内阴性样本作为对照样本,有效减少不同批次建实验误差影响,可以提高检出准确性;

4)本发明采用多种胎儿浓度算法计算胎儿浓度,综合评估计算结果,以其均值作为最终值;

5)采用标准z值法、gc矫正z值法与wisecondor等多种算法与软件进行染色体异常检测,综合判断以减少假阴性假阳性检率。

附图说明

图1是实施例1中linux系统screen命令下运行监控shell脚本;

图2是实施例1中shell监控脚本中所示的内容;

图3为本发明的无创产前生物信息学检测方法的流程图;

图4为本发明的无创产前生物信息学检测方法的后续步骤流程图;

图5为实施例1中wisecondor软件chr13号染色体阳性检测结果;

图6为实施例1中wisecondor软件chr18号染色体阳性检测结果;

图7为实施例1中wisecondor软件chr21号染色体阳性检测结果;

图8为实施例1中wisecondor软件阴性检测结果。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例1无创产前生物信息学检测装置

本实施例提供一种无创产前生物信息学检测装置,具体包括如下组件:

(1)原始数据获取单元:用于将提取的孕妇外周血cfdna进行全基因组测序,得到原始数据;

(2)原始数据筛选投递单元:用于自动监控,判断原始数据是否完全完成测序流程并获得原始数据,以及样本配置文件是否准备完毕,如果结果为“是”,进入原始数据质控单元;如果结果为“否”,返回原始数据获取单元,直到自动监控程序的结果为“是”为止,进入原始数据质控单元;

(3)原始数据质控单元:用于对结果为“是”的原始数据进行数据拆分,得到fastq文件,然后对fastq文件进行基本质控;对于不满足质控要求的数据,不进行后续的分析工作,重新测序;满足质控要求的数据则进入参考基因比对单元;

(4)参考基因比对单元:用于与参考基因组进行比对,进行胎儿第13、18和21号染色体的胎儿染色体异常检测,以及胎儿浓度检测;

(5)结果输出单元:用于根据原始数据质控单元和参考基因比对单元的结果,分别根据胎儿染色体异常检测的判断标准和胎儿浓度检测的判断标准,输出最终结果;

后续实施例将采用实施例1中的装置进行检测。

实施例2

本实施例提供一种无创产前生物信息学检测方法,采用实施例1中的装置,流程如图3-4所示,包括以下步骤:

(1)获取原始数据:提取孕妇的外周血cfdna样本,然后采用现在有的nextseq500测序仪对该样本建库后上机测序。

(2)原始数据的筛选投递:在上机测序之前需提前启动自动监控程序,监控原始数据是否完全下机和用于分数据的samplesheet文件是否已经存在,是否可以开始投递任务等。

自动监控程序的流程如下:首先,进入linux命令行模式,运行linuxscreen命令建立分析窗口,在新建窗口下直接运行监控shell脚本,即可完成数据的循环监控。此监控脚本会在后台循环监控数据是否下机,保证样本及时分析,减少人为操作可能带来的错误。

图1所示为screen命令下运行shell监控脚本的实例。运行完的批次会显示在screen新建窗口标准输出,保证后面不会循环分析此批次样本。

所述shell监控脚本中的内容如图2所示:其中,第1行为bashshell解释器位置;第3行为监控数据下机的perl脚本(monitor_nipt.pl),监控shell脚本主要是调用此程序来完成数据的监控和任务的投递工作;第4-8行为监控perl脚本的运行参数。

参数说明:

-dir:监控脚本监控的原始测序数据下机路径;

-suf:监控脚本监控数据下机完成的文件,监控到此文件即可开始数据分析;

-stat:监控脚本会把以前已经完成的任务写到此文件中,避免重复执行分析;

-cmd:nipt样本分析主流程;

-log:监控脚本会把报错等信息写到此文件中;

当监控程序监控到所需文件已经下机,则自动完成分析流程的投递工作;

此监控程序通过监控测序数据传到集群的最后一个文件来识别数据是否完全传到集群是否可以开始分析任务;主要通过监控以runcompletionstatus.xml结尾的文件判断数据是否传输完成。

(3)原始数据质控:首先根据原始下机数据和samplesheet文件进行数据的拆分工作,然后对原始下机数据进行基本质控,与参考基因组比对,得到比对结果sam文件用于随后计算胎儿染色体z值。

(4)参考基因比对:

(4-1)此分析流程会自动统计每条染色体上的序列片段分布情况,然后根据基于chry染色体的方法(即式②)计算胎儿浓度,此方法只可计算男性胎儿的胎儿浓度;然后根据比对结果,计算基于seqff方法的胎儿浓度,此方法既可以计算男性也可以计算女性胎儿的胎儿浓度。最后分析流程得到两种计算方法得到的平均值做为最终结果。

(4-2)运行基于标准z值算法的程序脚本,计算标准z值方法检出的胎儿染色体情况(计算公式如式①所示);

随后运行基于gc矫正z值算法的程序脚本,计算得到gc矫正后样本每条染色体的z值结果,以供最后判断胎儿染色体情况。

然后调用wisecondor软件对比对结果进行统计,得到结果。wisecondor软件主要以图的格式展示输出结果,本流程通过修改其原始程序可以得到每条染色体的z值,以供最后综合判断胎儿染色体情况。

(5)自动根据胎儿浓度检测结果,三种胎儿染色体异常检测结果综合胎儿染色体以否异常,具体的判断标准如上所述。

检测结果汇总如表1所示,其中,每个算法与软件都会生成自己独立的检测结果,为了利于报告组根据各个算法结果来出具检测报告,所以把所有样本的检测结果会自动汇总为一个总表,一行代表一个样本的检测结果。

表1

从表1可以ipe18008000样本胎儿浓度平均值为10.65%,大于胎儿最低浓度阈值4%,唯一比对序列片段大于2.5mb,标准z值方法与gc矫正后chr21、chr18与chr13的|z值|≤3,图8显示的为其wisecondor软件输出的检测结果,结果显示也为阴性结论,综合判断最终结论为阴性,说明胎儿染色体不存在异常。ipe18008001、ipe18008002与ipe18008003样本胎儿浓度均大于4%,唯一比对序列片段大于2.5mb,符合质控要求。ipe18008001样本标准z值方法与gc矫正后chr21染色体z值>3,图7显示其wisecondor检测结果也为t21阳性,最终判断为t21三体阳性。ipe18008002样本标准z值方法与gc矫正后chr18染色体z值>3,图6显示其wisecondor检测结果也为t18阳性,最终判断为t18三体阳性。ipe18008003样本标准z值方法与gc矫正后t13染色体z值>3,图5显示其wisecondor检测结果也为t13阳性,最终判断为t13阳性。有且只有标准z值方法,gc矫正后z值方法与wisecondor软件都检出此样本为阳性,最终结论才会报阳性,检测结果有差异的样本,需要重新采血上机测序,以降低假阳性与假阴性的检出率。

综上所述,本发明能完全实现nipt分析流程的自动化,一键化,减少数据分析的复杂性,减少人为操作引入的误差,便于投入生产;本发明能完全实现自动监控数据下机到分析流程自动分析的过程,保证数据及时开始分析;在本发明中,计算样本的z值时采用批次内阴性样本作为对照样本,有效减少不同批次建实验误差影响,可以提高检出准确性;本发明采用多种胎儿浓度算法计算胎儿浓度,综合评估计算结果,以其均值作为最终值;采用标准z值法、gc矫正z值法与wisecondor等多种算法与软件进行染色体异常检测,综合判断以减少假阴性假阳性检率。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1