临床病原微生物宏基因组数据库的构建方法及构建系统与流程

文档序号:36639321发布日期:2024-01-06 23:24阅读:25来源:国知局
临床病原微生物宏基因组数据库的构建方法及构建系统与流程

本技术属于数据库构建领域,具体涉及一种临床病原微生物宏基因组数据库的构建方法及构建系统。


背景技术:

1、宏基因组测序(mngs)在感染性疾病诊断中发挥着重要作用,依靠生物信息学手段对mngs微生物进行筛选、过滤、比对、物种注释等系统的生物信息学分析,对临床感染疾病的精准诊疗具有重要的指导意义。而从临床样本的测序数据到精确的鉴定病原微生物的种类,构建准确可靠的临床级病原微生物数据库是实现宏基因组物种精准鉴定的前提。临床级病原微生物数据库的质量直接影响着致病原微生物检测结果的精确度,该数据库的大小直接影响鉴定结果所需要花费的时间,在参考数据库构建完成之后再进行宏基因组生物信息分析。

2、国际上构建标准的参考数据库仍面临着各种问题和挑战。目前,构建参考数据库的方式有三种:第一,对所有物种的基因组进行序列筛选后,全部纳入到数据库,以用于后续生物信息分析的各种比对;这种方法构建的数据库能包含物种的全部信息,但是数据库包含大量的冗余序列,需要极大的计算机存储空间,物种鉴定分析所需要的检测时间也就非常长。第二,选择代表性基因组,选择一个物种的一条代表性的基因组来构建数据库,虽然能够缩短检测时间,但是,由于同一物种的不同基因组所包含的信息存在差异,会丢失掉大部分的物种信息。第三,打断重组,将同一菌种的基因组进行打断后重新组装,可以尽可能保留基因组的亚种变异信息,但是由于病原微生物的种类繁多,从菌种的水平将基因组打断后重新组装非常困难;同时,在组装过程中打断重组法也会引入两个新的问题:一是由于受组装软件的限制,组装效率受打断后的读长(reads)长度、组装软件参数、基因组gc含量、基因组长度等多个因素影响,导致组装性能低;二是对于通过组装获取的病原微生物基因组的准确性需要进一步验证。


技术实现思路

1、为至少在一定程度上克服相关技术中存在的问题,本技术提供了一种临床病原微生物宏基因组数据库的构建方法及构建系统。

2、根据本技术实施例的第一方面,本技术提供了一种临床病原微生物宏基因组数据库的构建方法,其改进之处在于,包括以下步骤:

3、收集病原微生物的物种信息并校正;

4、根据校正后的病原微生物基因组结果进行检索;

5、对细菌基因组进行过滤并统计数目;

6、对病毒病原微生物的参考基因组进行筛选过滤;

7、对筛选后病原微生物基因组进行下载;

8、基于k-mer的比对策略,将上述筛选结果得到的基因组打断为固定长度的片段,每条序列之间含有若干碱基的overlap,得到有重叠区域的reads;

9、对有重叠区域的reads进行分类,获取基因组中的污染区域;

10、将污染区域用n进行标记,保证原始基因组序列的长度,完成所有基因组的污染序列的标记;

11、去除基因组污染序列的基因组;

12、对于得到的基因组基于k-mer以及最低公共祖先算法的构建比对数据库;

13、进行数据库管理,定期更新及维护数据库;

14、进行数据存储优化,按照物种的界水平区分,依据不同的设置标准对数据库进行分区为不同的数据库。

15、优选的,所述收集病原微生物的物种信息并校正包括:

16、将收集到的病原微生物的名称作为关键字,采用聚焦网络爬虫技术在主流文献、词典和权威数据库中进行检索,得到该病原微生物的名称对应的物种分类编号;

17、以物种分类编号为关键字对收集到的物种名称是否为物种的科学名称进行校对;

18、根据物种分类编号和物种的科学名称确定物种的分类学水平,保留在种水平的物种信息;其中,保留的在种水平的物种信息包括物种的科学名称、物种的分类学水平以及病原微生物的名称对应的物种分类编号。

19、进一步地,所述根据校正后的病原微生物基因组结果进行检索包括:

20、以校正病原微生物信息后的种水平的物种分类编号为关键字,使用python字段匹配的原理从genbank数据库中检索获得的物种分类编号对应的所有参考基因组。

21、进一步地,所述对细菌基因组进行过滤并统计数目包括:

22、将从genbank数据库检索得到的包含全部基因组相关信息的数据框中的“assembly_accession”与ncbi中对所有原核生物ani计算的统计结果ani_report_prokaryotes.txt中的“genbank-accession”作为关键字,使用python中的字段匹配函数merge()对assembly_summary_genbank.txt文件和ani_report_prokaryotes.txt文件进行连接,并使用python语法构建比较运算方法,以保留ani计算结果与声明的物种一致且最佳匹配的物种与声明的物种一致的基因组;

23、以物种分类编号为关键字,使用python中的value_counts()统计关键字出现的次数,从而得到每一个物种的全部基因组的数目;

24、采用python语法中的参数by设定标签,参数level设定索引的位置并进行分组,提取统计的关键字,再根据关键字使用词频统计函数value_counts()统计该物种中四个组装水平下基因组的数目。

25、进一步地,对病毒病原微生物的参考基因组进行筛选过滤包括:

26、采用python语法构建比较运算符,以用于判断在ncbi的refseq项目分类中参考基因组是否为reference genome或representative genome,如果是reference genome或representative genome,则保留该参考基因组;

27、反之,则采用python语法构建比较运算,以用于判断统计得到的每一个物种的全部基因组的数目;

28、如某个病原微生物的全部基因组的数目小于或等于预设条数,则保留该物种的全部基因组作为本次构建数据库时该物种的基因组;

29、如该病原微生物下的全部基因组的数目大于预设条数,则取该病原微生物全部基因组数目的5%~15%作为该物种在本次构建数据库中该物种的基因组。

30、进一步地,基于k-mer的比对策略,将上述筛选结果得到的基因组打断为固定长度的片段,每条序列之间含有若干碱基的overlap,得到有重叠区域的reads;

31、对有重叠区域的reads进行分类,获取基因组中的污染区域包括:

32、采用基于k-mer的比对策略,将上述筛选结果得到的基因组打断为固定长度的片段,每条序列之间含有若干碱基的overlap,得到有重叠区域的reads;

33、对有重叠区域的reads进行分类,获取基因组中的污染区域:将有重叠区域的reads分别比对到kraken2的标准数据库和eupathdb真核数据库;

34、针对真菌和寄生虫微生物的reads,将真菌和寄生虫的reads与kraken2的标准数据库进行比对,比对到数据库上的序列为被细菌或者病毒污染的序列,未比对上的序列为未被细菌或者病毒污染的序列,同时使用dustmasker来屏蔽额外的低复杂度序列,最终得到被污染的区域的位置信息,根据污染区域的位置信息,将污染区域用n进行标记,以保证原始基因组序列的长度,至此完成真菌和寄生虫的污染序列的标记过程;

35、针对细菌和病毒微生物的reads,将细菌和病毒的reads与eupathdb真核生物数据库进行比对,比对到数据库上的序列为被真核生物污染的序列,未比对上的序列为未被真核生物污染的序列,同时使用dustmasker来屏蔽额外的低复杂度序列,最终得到被真核生物污染的区域的位置信息,根据污染区域的位置信息,将污染区域用n进行标记,以保证原始基因组序列的长度,至此完成所有基因组的污染序列的标记过程。

36、进一步地,对于得到的基因组基于k-mer以及最低公共祖先算法的构建比对数据库包括得到的所有基因组序列切割为固定k-mer的序列并计数,并将所有不同k-mer的序列以及序列数存储为一个数据库文件;

37、对数据库文件进行排序,并生成索引文件;

38、将seqid与ncbi中的taxonomy数据库物种分类编号taxonid做映射,即将k-mer比对到数据库里获取其taxonid,并将k-mer构建成taxonomy tree,形成界门纲目科属种的分类树;

39、使用最低公共祖先算法lca根据taxonomic id number给每一个节点分配一个lcavalue值,至此数据库构建完成。

40、进一步地,所述进行数据库管理,定期更新及维护数据库包括定期进行数据一致性检查,确保数据库中的数据与ncbi网站上的数据保持一致;

41、跟踪人间传染病名录以及ncbi网站的更新,定期收集更新的新物种信息,包括:物种名称、序列总数,基因组的长度、代表性序列;并更新数据库中的数据信息,包括向数据库中新增新物种、删除污染基因组序列、更新物种的名称、基因组版本变更;

42、将收集到的新数据加入已有的数据库中,重新建立索引,完成数据库的更新。

43、进一步地,进行数据存储优化,按照物种的界水平区分,依据不同的设置标准对数据库进行分区为不同的数据库包括按照物种的界水平区分,依据不同的设置标准对数据库进行分区为不同的数据库,即细菌、病毒、真菌以及寄生虫数据库分别构建为单个数据库;

44、当仅需要实时更新单个界的数据库时,避免对所有数据库进行大规模的重新构建索引,节省数据库构建所需要的时间。

45、本发明还提供一种临床病原微生物宏基因组数据库的构建系统,其改进之处在于,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器处理所述计算机程序时实现如所述权利要求1~9任一项所述临床病原微生物宏基因组数据库的构建方法。

46、根据本技术的上述具体实施方式可知,至少具有以下有益效果:本技术从国际公共数据库中收集临床中重要的病原微生物的基因组,基于距离矩阵建立系统发育进化树修正标记错误的序列,基于核心基因评估基因组序列的完整性和污染物区域的方式获取到高质量基因组,在保证基因组数据的高质量的同时降低数据量,构建适合临床分析的病原宏基因组临床专用参考数据库,使其比使用原始基因组的数据库具有更好的灵敏度,能够大大减少假阳性,提高物种鉴定的准确性,节省物种鉴定分析的时间。

47、应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本技术所欲主张的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1