一种快速检测HGT的方法与流程

文档序号:36971002发布日期:2024-02-07 13:20阅读:22来源:国知局

本发明涉及hgt检测,尤其涉及一种快速检测hgt的方法。


背景技术:

1、dlight、ranger-dtl和angst通过基因和物种树之间的冲突识别hgt事件;darkhorse和hgtector利用blast匹配来搜索同一基因组中分类上不一致的基因片段。上述hgt检测工具需要现有的参考组装基因组,根据各种序列特征推断转移基因,侧重通过探索系统发育树或者基因组组成不一致来检测过去的hgt事件。它们都不适合寻找个体中的hgt事件。

2、近些年,lemon和daisy通过把宏基因组测序数据比对到参考基因组,来检测hgt事件。它们可以寻找个性化的hgt事件,但是所依赖的参考基因组过于庞大,导致消耗过多的计算资源。这限制了它们在大规模研究中的应用。

3、现有hgt检测技术需要现有的参考分离物基因组,受制于将测序读数与大型参考数据库比对或组装过程,导致检测过程缓慢,计算成本高,且hgt检测精度相对较低,难以应用于实际的大规模宏基因组学研究中。因此提出一种快速检测hgt的方法。


技术实现思路

1、本发明的目的在于提供一种快速检测hgt的方法,解决了现有hgt检测技术检测过程缓慢,计算成本高,且hgt检测精度相对较低,难以应用于实际的大规模宏基因组学研究中的问题。

2、为实现上述目的,本发明提供如下技术方案:一种快速检测hgt的方法,包括以下步骤:

3、s1:允许近似匹配的k-mer编码算法:

4、(1)用n个散列函数对k-mer进行编码,dna序列的四种碱基有12种类型的替换错配,每个映射中,每两个碱基映射到相同的值,因此每个映射容许4种类型的替换;

5、(2)在散列函数中用随机映射将每个k-mer转换成一个二进制数字,再将二进制数转换为十进制数;

6、(3)通过在不同的哈希函数中为每个碱基分配不同的映射来容忍更多的替换;

7、s2:基于上述k-mer编码算法估计基因组深度和跨物种reads比对,而从参考数据库中提取hgt相关片段的程:

8、(1)在所有reads中,枚举所有k-mers,并记录出现次数,最多随机选择m个碱基对的读数,采用滑动窗口法丢弃样本中不存在的参考片段;

9、(2)k-mer排列中,结构变化断点附近的深度为零,因此沿着基因组深度急剧变化的区域可能包含hgt断点,收集这些选定区域周围的k-mers作为标记;

10、(3)我们比较每个位置左段和右段的平均深度,一旦深度差超过截止阈值,该位置将被选择为候选断点,并记录其对应的物种和断点位置;

11、(4)枚举每一个read,并检查其是否包含k-mer标记,来自不同物种但位于相同read的标记代表可能的hgt信号,对应的位置被赋值为hgt候选断点,通过从参考数据库中收集hgt候选断点前后各500bp来提取hgt相关参考片段;

12、s3:从不一致的read比对中再次推断精确hgt断点位置:

13、(1)使用bwa将测序reads比对到hgt相关的参考片段,其中每一个不一致的read都意味着一对断点,两个物种的断点位置构成一个二维向量;

14、(2)以两个物种的基因组为坐标,基于欧式距离使用dbscan算法对断点进行聚类,在每个聚类中得到断点对的大致位置,随后采用split-read确定断点的确切位置;

15、(3)将split-read的soft-clipping部分从下限到上限利用smith-waterman算法比对到参考序列上,一直比对到相似度高于截止阈值,其停止位置即为精确的hgt断点。

16、优选的,所述s1的(1)中n值为3。

17、优选的,所述s2的(1)中m值默认为2000000000,且丢弃样本中不存在的参考片段时,若窗口中的k-mer匹配率大于截止值,则将参考片段保留在窗口中,否则则丢弃该片段。

18、优选的,所述s2的(3)中左段和右段的比较默认长度为5,所述s2的(3)中深度差超过值默认为截止阀值的3倍。

19、优选的,所述s3的(3)中相似度高于截止阈值的值为0.8。

20、与相关技术相比较,本发明提供的一种快速检测hgt的方法具有如下有益效果:

21、1、计算效率高,计算成本低。本发明创造技术在检测hgt的过程中避免了把测序数据比对到大型参考数据库,而是将大型参考数据库减少到一个小型的hgt相关参考数据库,由此实现较高的计算效率,可以用十个线程大约两个小时内处理一个宏基因组样本,其执行速度比传统基于比对的hgt检测工具快四倍以上,能够从宏基因组中快速准确地检测hgt测序数据,因此可以实际应用于像人类肠道微生物组这样的大型群体的hgt检测中。

22、2、准确度和精确性高。将本发明提出的localhgt应用于人类肠道微生物组,并与基于比对的hgt检测工具lemon进行了性能比较。在不同的深度数据集上,localhgt的f1分数都高于lemon,表明localhgt在hgt检测方面具有较高的准确性和精确度,且在低深度数据集中表现更优。

23、使得的本方法具有将参考数据库减少到一个小型的hgt相关参考数据库来加快对比,在执行速度提高四倍以上的同时具有较高的准确性,同时提高了计算效率,也降低了计算成本,还能够便利地应用于实际的大规模宏基因组学研究中的特点。



技术特征:

1.一种快速检测hgt的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种快速检测hgt的方法,其特征在于,所述s1的(1)中n值为3。

3.根据权利要求1所述的一种快速检测hgt的方法,其特征在于,所述s2的(1)中m值默认为2000000000,且丢弃样本中不存在的参考片段时,若窗口中的k-mer匹配率大于截止值,则将参考片段保留在窗口中,否则则丢弃该片段。

4.根据权利要求1所述的一种快速检测hgt的方法,其特征在于,所述s2的(3)中左段和右段的比较默认长度为5,所述s2的(3)中深度差超过值默认为截止阀值的3倍。

5.根据权利要求1所述的一种快速检测hgt的方法,其特征在于,所述s3的(3)中相似度高于截止阈值的值为0.8。


技术总结
本发明公开了一种快速检测HGT的方法,涉及HGT检测技术领域,解决了现有HGT检测技术检测过程缓慢,计算成本高,且HGT检测精度相对较低,难以应用于实际的大规模宏基因组学研究中的问题,现提出如下方案,其包括第一部分为一种允许近似匹配的k‑mer编码算法;第二部分为基于上述k‑mer编码算法估计基因组深度和跨物种reads比对,而从参考数据库中提取HGT相关片段的程序;第三部分为利用BWA比对从不一致的reads比对中再次确定HGT精确断点位置。本方法具有将参考数据库减少到一个小型的HGT相关参考数据库来加快对比,在执行速度提高四倍以上的同时具有较高的准确性,同时提高了计算效率,也降低了计算成本,还能够便利地应用于实际的大规模宏基因组学研究中的特点。

技术研发人员:赵梓丞,李梦瑶,高鹏,贺小兰
受保护的技术使用者:深圳百人科技有限公司
技术研发日:
技术公布日:2024/2/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1