基于测序数据的病原微生物检测方法及系统

文档序号:29868130发布日期:2022-04-30 16:22阅读:322来源:国知局
基于测序数据的病原微生物检测方法及系统

1.本发明属于生物检测技术领域,尤其涉及基于测序数据的病原微生物检测方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.作为生命科学的一个重要领域,基因测序技术有了很大的发展,具有高通量测序能力的二代测序技术目前已经广泛地应用到了各个领域。二代测序技术(ngs)相较于一代测序技术添加了可逆终止末端,边合成边测序,可以并行地对几十万到几百万条dna分子进行测序。依赖于二代测序技术的特点,宏基因组学测序迅速发展。
4.1998年,handelsman等人提出了宏基因组的概念,即环境中所有微生物基因组的总和。相较于传统的基因测序方法,宏基因组学测序不需要提前制备,可以直接从环境中获取待检病毒,可以检测到样本中的多种微生物,可以有效地分析不同微生物与环境或其宿主之间的关系。在自 2014 年宏基因组测序首次应用于临床诊断并取得巨大成效后,宏基因组学测序因为具有检测周期短,准确率高,病原体覆盖广等特点已经被广泛应用于新出现病原体的检测与识别。得到病毒的基因序列后,使用宏基因组学技术直接检测样本中是否含有目标病毒是一种快速而且有效的方法,这对于从病毒传播初期直接确定传染源,阻断病毒传播具有积极作用。
5.现有技术中,fastv 软件在微生物检测识别,亚种识别等方面可以取得非常好的效果,但是软件的执行时间限制了其能力的发挥,除此之外,对于大规模的数据,fastv软件无法应用于检测任务。
6.具体的,fastv软件在病原微生物的检测目前主要存在如下几个问题:1.fastv软件运行效率存在问题,线程扩展性较差,限制了它的使用价值。
7.2.fastv软件内存使用量非常大,这导致其只能处理小规模的数据,无法应用在大规模数据的处理上。
8.3.fastv在病原微生物的检测上尽管已经达到了较高的准确性和精确度,但是在检测标准上仍然存在一些问题,这些问题限制了它的使用价值。


技术实现要素:

9.为克服上述现有技术的不足,本发明提供了基于测序数据的病原微生物检测方法,可以处理大规模的数据,达到更高的准确性和精确度。
10.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:第一方面,公开了基于测序数据的病原微生物检测方法,包括:唯一的kmer的生成步骤:生成参考基因的唯一的kmer;质量控制步骤:重新划分生产者消费者模型的任务分配,对测序数据进行预处理
和质量控制,获得经过质量控制之后的测序数据文件;微生物检测步骤:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。
11.进一步的技术方案,只在某种参考基因组中出现而不在其他参考基因组中出现的kmer称为唯一的kmer,并将测序数据中唯一的kmer的覆盖度作为检测的标准。
12.进一步的技术方案,在生成唯一的kmer的过程中产生的中间结果存储在硬盘中。
13.第二方面,公开了基于测序数据的病原微生物检测系统,包括:唯一的kmer的生成模块,被配置为:生成参考基因的唯一的kmer;质量控制模块,被配置为:重新划分生产者消费者模型的任务分配,对测序数据进行预处理和质量控制,获得经过质量控制之后的测序数据文件;微生物检测模块,被配置为:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。
14.以上一个或多个技术方案存在以下有益效果:本发明采用了一种节省内存的编码方式和通过将中间结果存储在硬盘中的方案来解决生成唯一的kmer过程中内存占用量过大的问题。除此之外,采用了高效的实现方式,这种方式提高了程序的运行速度,减少了唯一的kmer生成过程所消耗的时间。
15.本发明重新划分了生产者与消费者模型的任务分配来充分地利用处理器的多核,修改了编码方式来充分减少分支预测错误的惩罚,将核心部分使用向量化方式来做并行化处理,提高程序的处理速度。
16.本发明采用向量化的方式来加速这一过程。布隆过滤器对于数据集中不存在的数据具有非常好的过滤作用,因此我们采用了布隆过滤器这一数据结构来加速查询过程。
17.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
18.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
19.附图1为本发明的方法流程图。
具体实施方式
20.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
21.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
22.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
23.实施例一本实施例公开了基于测序数据的病原微生物检测方法,针对于fastv软件的缺陷,本发明有针对性地进行优化,更好地发挥了硬件的性能,提高软件的执行效率,采用了多种
方法减少其内存的使用量,使之可以处理大规模的数据。此外,本发明修改了fastv的检测标准,使之可以达到更高的准确性和精确度。包含了病原微生物检测的整个流程的高效实现。
24.参见附图1所示,主要包括唯一的kmer的生成,质量控制,微生物检测三个步骤。
25.步骤一,唯一的kmer的生成:在进行病原微生物检测之前,首先需要生成参考基因的唯一的kmer。将只在某种参考基因组中出现而不在其他参考基因组中出现的kmer称为唯一的kmer,并将测序数据中唯一的kmer的覆盖度作为检测的标准。在生成唯一的kmer的过程中主要存在的问题是内存使用量过大,产生的中间结果的大小通常是参考基因的大小与kmer长度的乘积。在生成如bacterial参考基因组的唯一的kmer时,使用的内存量会超过1t,超过了一般服务器的内存大小。
26.为了解决这个问题,本发明采用了一种节省内存的编码方式和通过将中间结果存储在硬盘中的方案,来解决生成唯一的kmer过程中内存占用量过大的问题。
27.具体的,首先对kmer进行分类,分类的依据是每个kmer的最小值。计算每个kmer的最小值,连续的最小值相同的kmer会被分到同一类中,此时不存储每个kmer,而是将kmer所覆盖到的字串作为中结果存到硬盘中,这样节省了内存,同时保证了正确性。在第二步,读取硬盘中的中间结果,可以根据内存的限制来决定每次处理的中间结果的数量。
28.除此之外,本发明采用了高效的实现方式,一些常见的代码优化手段,如使用hash数据结构加速查询,使用生产者与消费者模型,输出二进制数据等。
29.这种方式提高了程序的运行速度,减少了唯一的kmer生成过程所消耗的时间。
30.步骤二,质量控制:在基因文库制备以及测序过程中,由于设备或是操作的问题,引入错误或是误差是不可避免的,但是这会对下游任务产生影响,妨碍下游任务的进行,因此对测序数据进行预处理和质量控制是必不可少的。
31.本发明主要采取以下几种质量控制的方法:引物剪切、碱基校正、滑动窗口质量修建、尾部裁剪、预处理、重复性评估、过度表达序列分析。
32.通过质量控制过程,在软件层面提高了测序的准确性,可以有效地提高检测过程中的准确性。但是质量控制这一过程却会拖慢整个处理流程。
33.为此,本发明充分地利用了现代处理器的各种特性和各种数据结构来加速这一过程的处理。本发明重新划分了生产者与消费者模型的任务分配来充分地利用处理器的多核,修改了编码方式来充分减少分支预测错误的惩罚,将核心部分使用向量化方式来做并行化处理,提高程序的处理速度。
34.本发明的整个处理流程使用了生产者消费者模型,生产者提供数据,消费者得到数据后进行质量处理和病原微生物检测。
35.步骤三,病原微生物检测:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。通过检测的结果以及设置的阈值来得到最终的检测结果。
36.在这一过程中,首先是唯一的kmer文件加载慢的问题,由于在处理大规模数据时生成的唯一的kmer文件较大,单线程加载文件非常缓慢,拖慢了整个处理的流程。
37.本发明使用了生产者消费者模型来处理这个问题,并且设计了多线程无锁hash插入来加速处理流程。
38.需要说明的是,在生成唯一的kmer和加载唯一的kmer数据时也使用了生产者消费者模型。
39.在检测过程中需要kmer,然后将kmer映射成64位整数,但是直接映射会影响程序的执行效率,因此本发明设计了一种编码映射方式来加速这一过程。
40.此处是把四个碱基映射为不同的数值,每个碱基用2bit表示,同时相比于之前的映射方式来说提高了映射的速度。
41.在检测过程中会生成一些统计信息,这些统计信息可以进一步地帮助判断测序数据的情况,辅助对生成的结果进行分析。
42.本发明采用向量化的方式来加速这一过程。布隆过滤器对于数据集中不存在的数据具有非常好的过滤作用,因此采用了布隆过滤器这一数据结构来加速查询过程。
43.效果验证:见表1。
44.表1fastv和rabbitv对比结果表-表示因为程序使用内存太大无法运行。
45.实施例二本实施例的目的是提供基于测序数据的病原微生物检测系统,包括:唯一的kmer的生成模块,被配置为:生成参考基因的唯一的kmer;质量控制模块,被配置为:重新划分生产者消费者模型的任务分配,对测序数据进行预处理和质量控制,获得测序数据文件;微生物检测模块,被配置为:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。
46.在唯一的kmer的生成模块中:对kmer进行分类,分类的依据是每个kmer的最小值,计算每个kmer的最小值,连续的最小值相同的kmer被分到同一类中;存储时,不存储每个kmer,将kmer所覆盖到的字串作为中结果存到硬盘中。
47.本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1