一种提高宏基因组物种鉴定准确性的方法、装置、存储介质及其应用与流程

文档序号:37631972发布日期:2024-04-18 17:45阅读:7来源:国知局
一种提高宏基因组物种鉴定准确性的方法、装置、存储介质及其应用与流程

本发明属于生物,涉及一种提高宏基因组物种鉴定准确性的方法、装置、存储介质及其应用。


背景技术:

1、核酸是生命体遗传信息的主要载体,不同的碱基数量和排列顺序造就了生命体的多样性。基因测序技术解析生命体的核酸结构,可以突破不同病原体类型的局限性,已逐渐成为临床微生物鉴定领域的重要工具。随着测序技术的不断发展,自动化测序、焦磷酸测序、高通量测序、甲基化修饰测序等技术应运而生。如现在在临床诊断中应用最广泛的高通量测序,增加了测序通量、降低了测序成本,与传统实验室病原检测方法相比,可以无偏向性的全面覆盖多种病原体,在同时鉴定细菌、真菌、病毒和寄生虫等多种类型病原微生物的同时,还可以检测耐药基因和毒力因子,指导临床精准用药。

2、目前,在基于测序技术的病原鉴定分析流程中,普遍是根据序列与物种参考基因组的比对情况鉴定病原微生物。如cn110349630a公开一种血液宏基因组测序数据的分析方法、装置及其应用,包括数据质控统计和拆分步骤、人源序列去除步骤、质粒序列去除和内参比对步骤、病原基因组序列库比对步骤和病原参数注释步骤。但同源物种的基因组相似性较高,如大肠埃希菌和志贺菌属,肺炎链球菌和缓症链球菌,蜡样芽孢杆菌和炭疽芽孢杆菌等,仅根据序列比对情况难以区分。虽然基因组相似度较高,但临床致病意义以及对应的治疗方法不尽相同。在基于高通量测序的病原分析鉴定过程中,常常出现因为基因组相似度较高,使得序列误分配至其它物种或者难以准确判断单一还是混合感染。因此,在基于分子水平检测的病原鉴定分析流程中,提高物种鉴定能力、减少基因组间同源干扰十分必要。

3、综上所述,开发能够高效且准确鉴定病原微生物的方法具有重要意义。


技术实现思路

1、针对现有技术的不足和实际需求,本发明提供一种提高宏基因组物种鉴定准确性的方法、装置、存储介质及其应用,在基于分子测序的生物鉴定分析流程中,区分同源物种、减少基因组间同源干扰。

2、为达上述目的,本发明采用以下技术方案:

3、第一方面,本发明提供一种提高宏基因组物种鉴定准确性的方法,所述方法包括以下步骤:

4、s1、物种基因组下载:获取目标物种的同源物种列表,并在公共数据库中下载各同源物种基因组,构建同源物种数据库;

5、s2、分析数据库构建:分别选取各同源物种中基因组为代表株,将所有同源物种的代表株构建病原分析数据库;

6、s3、同源区域的提取:根据代表株对应的基因组注释文件,分别提取各代表株的序列片段,并比对至步骤s1所构建的同源物种数据库,提取各物种的同源序列;

7、s4、同源区域的保守性和特异性计算:将所有同源序列对齐,计算序列各个碱基位点的种内保守性及种间特异性;

8、种内保守性=种内该位点碱基出现次数/同源物种数据库中该物种基因组数量;

9、种间特异性=1-(其他物种该位点碱基的出现频率/同源物种数据库中其他物种基因组数量);

10、s5、cs_snp的筛选:保留种内保守性>=0.9和种间特异性>=0.8的位点,作为各物种的鉴定snp位点cs_snp;

11、s6、待测样本cs_snp分析:基于待测物种的测序数据,将测序序列比对至步骤s2构建的病原分析数据库,记录cs_snp的检出情况,计算一致率;

12、一致率=该物种检出与cs_snp一致的位点数量/该物种所有检出的cs_snp数量×100%;

13、进行真实性判断,cs_snp位点满足以下条件判定目标物种检出:

14、(1)cs_snp位点测序深度>=3且碱基频率>1%,或者cs_snp位点测序深度<3且碱基频率>=80%;

15、(2)待测样本cs_snp位点数量>=10,且一致率>=80%。

16、本发明中,基于各同源物种的多株参考基因组,分析各物种的种内保守(innerspecies conservation)且种间特异(interspecies specificity)的单核苷酸多态性位点(single nucleotide polymorphism,snp)作为可区分同源物种鉴定位点(cs_snp);基于测序数据已有特征,比对至构建的病原分析数据库;根据cs_snp位点的检出情况,区分同源物种,提高检测结果准确性。

17、可以理解,本发明的提高宏基因组物种鉴定准确性的方法可应用与临床诊断,亦可应用于非疾病诊断和/或治疗为目的的物种鉴别、分析的基础研究等领域,此外,该方法亦可用于pcr、杂交捕获的探针设计和扩增子测序。

18、优选地,步骤s2中选取各同源物种中基因组的数量可根据实际需求选择,例如可选择1~5株或更多,理论数量越多结果越准确。

19、优选地,步骤s1中所述同源物种的基因组相似性>=90%。

20、优选地,所述公共数据库包括national center forbiotechnology information(ncbi)的refseq数据库和/或genebank数据库。

21、优选地,步骤s1具体包括:

22、获取基因组相似性>=90%的物种的列表,从national center forbiotechnology information的refseq数据库和/或genebank数据库中下载各物种的参考基因组,优先选择组装水平assembly_level列为complete genome或chromosome的参考基因组序列,其次选择组装水平为contig或scaffold的参考基因组序列;各物种下载至少100株基因组,若基因组收录数不足100株的则按最大收录数下载,并记录各个物种实际下载的参考基因组数量;将下载得到的所有参考基因组构建本地数据库,得到同源物种数据库。

23、优选地,所述数据库的形式为blast。

24、优选地,步骤s2具体包括:

25、分别选取各同源物种中1株基因组为代表株,优先选择含gff注释文件的refseq参考基因组;将所有代表株构建病原分析数据库,构建的病原分析数据库为bwa形式。序列分配方式为最优分配,当比对率相同时,则各分配1条;比对率要求覆盖率(coverage)>=90%,比对率(identity)>=90%。

26、优选地,步骤s3具体包括:根据各物种代表株对应的注释文件提取其包括基因区域序列片段,将各序列片段比对s1步骤中构建的同源物种数据库,提取有比对结果的序列保存。

27、优选地,所述比对的方法包括blastn。

28、第二方面,本发明提供一种提高宏基因组物种鉴定准确性的装置,所述装置用于执行第一方面所述的提高宏基因组物种鉴定准确性的方法中的步骤,所述装置包括:

29、物种基因组下载单元,用于执行包括:

30、获取目标物种的同源物种列表,并在公共数据库中下载各同源物种基因组,构建同源物种数据库;

31、分析数据库构建单元,用于执行包括:

32、分别选取各同源物种中基因组为代表株,将所有同源物种的代表株构建病原分析数据库;

33、同源区域的提取单元,用于执行包括:

34、根据代表株对应的基因组注释文件,分别提取各代表株的序列片段,并比对至物种基因组下载单元所构建的同源物种数据库,提取各物种的同源序列;

35、同源区域的保守性和特异性计算单元,用于执行包括:

36、将所有同源序列对齐,计算序列各个碱基位点的种内保守性及种间特异性;

37、种内保守性=种内该位点碱基出现次数/同源物种数据库中该物种基因组数量;

38、种间特异性=1-(其他物种该位点碱基的出现频率/同源物种数据库中其他物种基因组数量);

39、cs_snp的筛选单元,用于执行包括:

40、保留种内保守性>=0.9和种间特异性>=0.8的位点(优选为0.8~0.9),作为各物种的鉴定snp位点cs_snp;

41、待测样本cs_snp分析单元,用于执行包括:

42、基于待测物种的测序数据,将测序序列比对至分析数据库构建单元构建的病原分析数据库,记录cs_snp的检出情况,计算一致率;

43、一致率=该物种检出与cs_snp一致的位点数量/该物种所有检出的cs_snp数量×100%;

44、进行真实性判断,cs_snp位点满足以下条件,判定目标物种检出:

45、(1)cs_snp位点测序深度>=3(例如可以为3~10)且碱基频率>1%,或者cs_snp位点测序深度<3且碱基频率>=80%;

46、(2)待测样本cs_snp位点数量>=10,且一致率>=80%。

47、优选地,所述物种基因组下载单元,用于执行包括:

48、获取基因组相似性>=90%的物种的列表,从national center forbiotechnology information的refseq数据库和/或genebank数据库中下载各物种的参考基因组,优先选择组装水平assembly_level列为complete genome或chromosome的参考基因组序列,其次选择组装水平为contig或scaffold的参考基因组序列;各物种下载至少100株基因组,若基因组收录数不足100株的则按最大收录数下载,并记录各个物种实际下载的参考基因组数量;将下载得到的所有参考基因组构建本地数据库,得到同源物种数据库。

49、优选地,所述数据库的形式为blast。

50、优选地,所述分析数据库构建单元,用于执行包括:

51、分别选取各同源物种中1株基因组为代表株,优先选择含gff注释文件的refseq参考基因组;将所有代表株构建病原分析数据库,构建的病原分析数据库为bwa形式,序列分配方式为最优分配,当比对率相同时,则各分配1条;比对率要求覆盖率(coverage)>=90%,比对率(identity)>=90%。

52、优选地,所述提取同源区域的提取单元,用于执行包括:

53、根据各物种代表株对应的注释文件提取其包括基因区域序列片段,将各序列片段比对物种基因组下载单元中构建的同源物种数据库,提取有比对结果的序列保存。

54、优选地,所述比对的方法包括blastn。

55、第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现第一方面所述提高宏基因组物种鉴定准确性的方法的步骤。

56、第四方面,本发明提供第一方面所述的提高宏基因组物种鉴定准确性的方法、第二方面所述的提高宏基因组物种鉴定准确性的装置或第三方面所述的计算机可读存储介质在生物检测或鉴定中的应用。

57、优选地,所述生物包括细菌和/或真菌。

58、与现有技术相比,本发明具有以下有益效果:

59、本发明创造性的使用种内保守和种间特异的snp位点(cs_snp)作为物种的鉴定位点,基于序列的cs_snp位点检出情况区分同源物种,获得各物种的cs_snp位点可在分析流程中复用,在不额外增加实验的基础上,减少同源干扰,进一步提升宏基因组物种检出的可信度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1