一种基于一代测序技术的数据质控方法和微生物鉴定方法与流程

文档序号:36653925发布日期:2024-01-06 23:40阅读:23来源:国知局
一种基于一代测序技术的数据质控方法和微生物鉴定方法与流程

本发明属于生物信息领域,特别是涉及一种基于一代测序技术的数据质控方法和微生物鉴定方法。


背景技术:

1、第一代测序技术,其原理为双脱氧终止法,即利用特定标记的双脱氧三磷酸核苷酸(ddntp)终止dna链的复制,通过读取四种碱基的位置信息获得测序结果。一代测序由于精度高(99.999%),读长长(1000bp左右),被誉为测序检验的金标准。其原始输出结果为.ab1格式文件,里面包含了上机及测序的完整信息,通过一些图形界面软件可查看测序峰图、并导出序列结果(txt、fastq或fasta格式),进而开展下一步分析。

2、目前来讲,微生物一代测序的目的主要是通过对其16s区域测序来进行菌种鉴定,但由于pcr技术的限制,测序结果中首位两端的碱基质量通常较差;加之微生物送样中极易有其他杂菌干扰,需要通过测序来进行质控,因此,获得一条高质量测序序列对于后续分析鉴定极为重要。

3、现有通用的质控方法大都是通过第三方软件得到ab1文件的峰图,进而根据峰图去判断测序质量。但是该方法存在两大不足,一是该方法依赖于人工去识别峰图,具有一定的主观性,没有定量统一的标准,会导致结果的一致性较差。且人工方式通量较低,对于大批量的测序结果,需要花费大量时间才能完成判定;二是现有的第三方图形界面工具如finchtv、snapgene、dnastar等只是解析展示峰图,无法判定结果质量(是否有杂菌污染,测序是否成功等)并截取合格序列片段至输出文件(只能导出全部测序结果)。由于原始下机序列首尾包含了大量的低质量序列,直接比对会导致结果的误差较大,影响判定。

4、同时,也存在一些程序语言专门处理一代测序数据,如python语言中的biopython模块等。这些程序的优势在于可以通过设置循环或者并行来批量处理ab1文件。但其缺点在于只能实现对ab1文件的解析及格式转化,同样无法实现对测序质量的判定及合格序列的截取。

5、除此之外,也有一些方法,如专利cn113345522a中利用的sangeranalyser和sangerseqr包实现了对一代测序数据的质量及杂峰控制。但该方法也存在一些不足:

6、1、质量控制模块中,只对两端的碱基进行剪切,但是一代测序结果中部甚至任一区域都可能会出现质量较差的碱基,对于这些碱基的质控也至关重要。

7、2、杂峰控制模块中,只是对双峰进行鉴定,但是一代测序结果中还有其他杂峰,这些杂峰同样也是判断菌株和测序质量的重要标准,不能忽视。

8、3、测序数据的质量会直接影响最终结果,例如当用低质量序列与已知物种比对时,会得出错误的判断结论。


技术实现思路

1、为了解决上述问题,本发明首先提出了一种基于一代测序技术的数据质控方法,通过处理一代测序结果,提高了处理的速度,并能获得到高质量的筛选序列,提高了比对结果的置信度。

2、为达到上述目的,本发明采用的技术方案是:一种基于一代测序技术的数据质控方法,包括步骤:

3、s1. 获取一代测序结果的指定文件夹下格式为ab1的全部文件路径,并设置循环逐一处理;

4、s2. 读取单个ab1文件,获得测序质量信息,并根据阈值滑窗截取合格片段;

5、s3. 循环处理s2中的每个合格片段,剔除具有混杂信号的片段,并在剩余片段中选取长度最大的片段;

6、s4. 判定s3结果中长度最大的片段的长度是否符合质控阈值;若是则质控成功;

7、其中,若s2、s3或s4任一步骤质控失败,则测序结果质量不合格,流程终止。

8、在本发明的一个具体方案中,所述步骤s1中,通过python中的os.walk()函数获取一代测序结果的指定文件夹下格式为ab1的全部文件路径。

9、在本发明的一个具体方案中,步骤s2中,使用python中的biopython模块的seqio.read()函数解析ab1文件,并获取测序质量及四种碱基在每个位点的信号值。

10、在本发明的一个具体方案中,所述根据阈值滑窗截取合格片段,包括:从第一个碱基开始以一个碱基为单位向后延伸,若当前片段的测序质量符合阈值,则继续向后延长,直至片段质量不符合阈值或到序列末端;同时从当前片段的后一个碱基开始,继续进行滑窗判定,直至到达序列末端。

11、在本发明的一个具体方案中,所述根据阈值滑窗截取合格片段通过4个参数与设定阈值比较以判断片段是否合格:最低片段质量、最低碱基质量、离群碱基数量和连续离群碱基数量。

12、在本发明的一个具体方案中,可选的,对于最低片段质量的阈值设定包括两种选择模式,第一种为严格模式(strict mode),即该片段所有碱基的测序质量都满足阈值;第二种为宽松模式(loose mode),即该片段碱基的平均质量满足最低片段阈值。

13、特别地列举本发明的一些阈值,如,若片段末端位点在50bp前或800bp后,若质量不符合阈值将会被直接舍弃。

14、最低碱基质量:若片段中最低碱基质量低于设定阈值,则该片段质控失败。

15、离群碱基数量:离群碱基是指碱基质量低于片段最低质量阈值的碱基数量。

16、连续离群碱基数量:连续离群碱基数量是指在该片段中存在的连续碱基位点,其质量值都低于设定阈值。其数目若大于设定阈值,则该片段质控失败。

17、在本发明的一个具体方案中,在步骤s3中所述的混杂信号指同一个位点存在多个碱基信号或有多个碱基信号都很高,导致该位点存在噪音,无法分辨主信号类型。这种情况可能是由于样本制备中存在杂菌污染或pcr中的实验出错等因素导致。该特征可通过“最大碱基信号值/信号总值”反映。特别地,若一个位点只有两个碱基信号或两个碱基的信号都很高,则将该位点识别为双峰位点,该特征通过“第二大碱基信号值/最大信号值”反映。

18、在本发明的一个具体方案中,采用4个参数控制混杂信号剔除,包括主峰比例、次峰比例、混杂信号位点数量和连续混杂信号的最大片段长度。

19、在本发明的一个具体方案中,所述s2、s3或s4任一步骤质控失败包括以下任意一种情形:步骤s2中未截取到合格片段;步骤s3中剔除了所有片段;或步骤s4中长度最大的片段长度不符合质控阈值。

20、可以理解的是,本发明的质控方法可以用于任何与基因测序和基因比对的方法中。示例性的应用场景包括微生物鉴定。

21、因此,作为本发明的第二方面,本发明还提供了一种微生物物种鉴定方法,包括将质控成功的序列片段与指定参考物种的序列比对,获得一致性比较结果,所述质控成功的序列片段是通过前述任意一项所述的基于一代测序技术的数据质控方法进行质控得到的。

22、进一步的是,所述微生物为细菌,所述将质控成功的序列片段与指定参考物种的序列比对是将质控成功的序列片段与指定序列进行blast基因序列比对,获得一致性结果。

23、采用本技术方案的有益效果:

24、本发明相比于人工查看峰图,本发明的质控方法可直接使用程序化脚本批量处理大量测序数据,并获得高质量的测序结果,大大提高了工作效率和结果质量。

25、本发明相比于python中的一代测序数据处理函数,在其基础上增加了对一代测序数据质量和信号的判定及截取等功能,从而可以检测到因样本本身或测序导致的异常结果,并获得合格序列的高质量结果。

26、本发明将质控后高质量的序列与目标序列进行比对,提高了比对结果的置信度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1