检测线粒体起源核基因组序列的方法、装置和存储介质

文档序号:35277503发布日期:2023-08-31 20:23阅读:42来源:国知局
检测线粒体起源核基因组序列的方法、装置和存储介质

本技术涉及核基因组序列检测,特别是涉及一种检测线粒体起源核基因组序列的方法、装置和存储介质。


背景技术:

1、人类细胞的遗传物质存在于细胞核和线粒体中。细胞核dna(ndna)约由31亿个碱基对组成,包括22对常染色体和2条性染色体。线粒体dna(mitochondrial dna,mtdna)是长度为16 569bp的双链环状分子。mtdna片段整合到ndna是内共生事件的必然结果,这些整合到ndna的mtdna片段被称为线粒体起源核基因组序列(nuclear fragments ofmitochondrial origin,numts)。大多数numts是古老、中性的,是细胞长期进化的产物,且在人类参考基因组中已有记载。在人类参考基因组中已有记载的numts,即参考基因组线粒体起源核基因组序列(ref-numts),而那些新近发生的非参考基因组中的numts,称为非参考基因组线粒体起源核基因组序列(non-ref numts),尤其是体细胞中的non-ref numts,可影响核基因组的稳定性和相关基因的表达,已被报道与多种人类疾病的发生发展相关。此外,non-ref numts发生后,其在ndna中也会累积新的突变,而这些突变往往被误认为是mtdna的突变,极大影响了mtdna突变检测及后续疾病相关性的探究。因此,检测numts,尤其是non-ref numts,及其累积的突变对理解人类疾病的发生发展至关重要。

2、当前利用fish(fluorescence in situ hybridization)技术,在ndna和mtdna之间进行序列杂交可有效检测non-ref numts。基于此,koo d-h等人开发了“mtfiber fish”专门用于检测non-ref numts,但其分辨率有限,仅能检测插入片段长度>1kb的non-refnumts;而大部分non-ref numts的片段长度<1kb,无法通过mtfiber fish检出。与此同时,mtfiber fish也无法检测non-ref numts上累积的突变。

3、全基因组测序(whole genome sequencing,wgs)是迄今为止能以单碱基分辨率检测non-ref numts及其累积突变的技术。随着测序技术的发展,wgs的成本呈指数型下降,国内外许多研究已积累了海量wgs数据,可助力non-ref numts的研究。然而,常规30-50×的wgs数据中,mtdna的覆盖深度可达几万层,具有极高的冗余性和异质性,检测non-refnumts具有很大的挑战性,目前可用的工具非常有限。最近发表的一个工具numt-detection可利用wgs检测non-ref numts;但因其检测原理主要是利用不一致配对读对的比对信息,因此具有较高的假阳性、推测的断点精确度有限,且不能检测non-ref numts上累积的突变。

4、综上,在线粒体起源核基因组序列检测技术领域,如何准确、有效的检测non-refnumts,仍然是本领域的研究重点和难点;并且,目前尚无能同时检测non-ref numts及其累积突变的工具和方法。


技术实现思路

1、本技术的目的是提供一种新的检测检测线粒体起源核基因组序列的方法、装置和存储介质。

2、为了实现上述目的,本技术采用了以下技术方案:

3、本技术的第一方面公开了一种检测线粒体起源核基因组序列的方法,其包括以下步骤:

4、测序数据预处理步骤,包括1)将全基因组测序数据比对到线粒体参考基因组中,仅保留能够比对到线粒体参考基因组的读段;2)将比对到线粒体参考基因组的读段比对到包含人23对染色体和线粒体参考基因组的参考序列中,去除非唯一比对的读段,得到不含ref-numts的读段集;

5、线粒体起源核基因组序列检测步骤,包括1)从不含ref-numts的读段集中,提取一部分序列比对到核基因组参考序列,其余部分比对到线粒体参考基因组的读段,作为潜在连接读段;2)根据潜在连接读段的比对位置,对距离50bp以内的潜在连接读段进行聚类,作为读簇,定位发生整合的mtdna片段的坐标和方向,以及核基因组整合的位置,将发生整合的mtdna片段作为non-ref numts;3)在读簇的位置上下游100bp寻找不一致比对读对,即其中一个读段比对到线粒体参考基因组,另一个配对读段比对到核基因组参考序列,统计不一致比对读对的数目,这些不一致比对读对即non-ref numts的支持信息;4)计算non-refnumts为纯合还是杂合,即支持读段数目与核基因组平均覆盖深度的比值,其中,支持读段数目为潜在连接读段的数目和不一致比对读对的数目之和,核基因组平均覆盖深度为比对到核基因组参考序列的读段数目乘以读段长度再除以核基因组参考序列的长度。

6、本技术中,非唯一比对的读段是指该读段既能够比对到线粒体参考基因组,又能够比对到人23对染色体的参考序列中,这样的读段可以认为是潜在的ref-numts序列,将其去除后,即获得不含ref-numts的读段集;可以理解,本技术的线粒体起源核基因组序列检测主要是指对non-ref numts的检测,因此需要去除已经被明确记载于人类参考基因组中的ref-numts。

7、本技术的线粒体起源核基因组序列检测步骤中,先根据1)和2)确定non-refnumts的存在以及位置;在3)条,不一致比对读对,位于“读簇位置上下游100bp”,“一个读段比对到mtdna,配对读段比对到ndna”,这两个信息即能判断这些不一致读对是non-refnumts存在的结果。

8、本技术的线粒体起源核基因组序列检测步骤中,第4)条,在non-ref numts插入的核基因组位置,若该non-ref numts为杂合,则一条染色体是正常的序列,一条插入了mtdna片段,那么覆盖到该位置的读段大致有一半是由1)和3)确定的支持读段,一半是比对正常的读段,即支持读段数目与核基因组平均覆盖深度的比值约为0.5;若为纯和,则基本上都是支持读段覆盖,该比值约为1。判断纯和和杂合能确定non-ref numts影响一条还是两条ndna,类似单碱基突变型别,genotyping;且便于后续确定non-ref numts上累积突变的碱基频率,即杂合non-ref numts上累积的突变,其频率为1/(1+mtdna拷贝数),而纯和non-ref numts上累积的突变,其频率为2/(2+mtdna拷贝数)。

9、需要说明的是,本技术检测线粒体起源核基因组序列的方法,充分利用潜在连接读段的比对信息,通过局部组装和聚类,准确检测non-ref numts,降低当前non-ref numts检测的假阳性率,得到精确的断点和片段信息。本技术的检测方法操作简单、方便,能有效降低non-ref numts分析的时间成本。

10、本技术的一种实现方式中,本技术检测线粒体起源核基因组序列的方法还包括线粒体起源核基因组序列验证步骤,其包括1)组装支持non-ref numts存在的读段或读对中比对到线粒体参考基因组部分的序列,生成一致性序列;2)将生成的一致性序列比对到线粒体参考基因组中,根据其比对位置验证non-ref numts。

11、本技术的一种实现方式中,本技术检测线粒体起源核基因组序列的方法还包括线粒体起源核基因组序列累积突变检测步骤,其包括根据组装的一致性序列比对到线粒体参考基因组的结果,识别错配碱基,即获得non-ref numts累积的突变。对于杂合non-refnumts,其累积突变的频率为1/(1+mtdna拷贝数),纯和non-ref numts上累积的突变,其频率为2/(2+mtdna拷贝数)。

12、需要说明的是,组装的一致性序列有两个作用,一是可以验证non-ref numts的存在,二是通过一致性序列与线粒体参考基因组的比对,能够准确的找出non-ref numts累积的突变。

13、本技术的一种实现方式中,本技术检测线粒体起源核基因组序列的方法还包括注释步骤,其包括注释核基因组参考序列断点位置和non-ref numts所在的区域和基因。

14、需要说明的是,注释步骤主要是对前面步骤检测的non-ref numts,以及non-refnumts比对到核基因组参考序列上的ndna断点位置进行注释

15、本技术的第二方面公开了一种检测线粒体起源核基因组序列的装置,其包括测序数据预处理模块和线粒体起源核基因组序列检测模块;

16、测序数据预处理模块,包括用于1)将全基因组测序数据比对到线粒体参考基因组中,仅保留能够比对到线粒体参考基因组的读段;2)将比对到线粒体参考基因组的读段比对到包含人23对染色体和线粒体参考基因组的参考序列中,去除非唯一比对的读段,得到不含ref-numts的读段集;

17、线粒体起源核基因组序列检测模块,包括用于1)从不含ref-numts的读段集中,提取一部分序列比对到核基因组参考序列,其余部分比对到线粒体参考基因组的读段,作为潜在连接读段;2)根据潜在连接读段的比对位置,对距离50bp以内的潜在连接读段进行聚类,作为读簇,定位发生整合的mtdna片段的坐标和方向,以及核基因组整合的位置,将发生整合的mtdna片段作为non-ref numts;3)在读簇的位置上下游100bp寻找不一致比对读对,即其中一个读段比对到线粒体参考基因组,另一个配对读段比对到核基因组参考序列,统计不一致比对读对的数目,这些不一致比对读对即non-ref numts的支持信息;4)计算non-ref numts为纯合还是杂合,即支持读段数目与核基因组平均覆盖深度的比值,其中,支持读段数目为潜在连接读段的数目和不一致比对读对的数目之和,核基因组平均覆盖深度为比对到核基因组参考序列的读段数目乘以读段长度再除以核基因组参考序列的长度。

18、需要说明的是,本技术检测线粒体起源核基因组序列的装置,实际上就是通过各模块分别实现本技术检测线粒体起源核基因组序列的方法中的各步骤;因此,各模块的具体限定可以参考本技术的方法,在此不累述。

19、本技术的一种实现方式中,为了进一步确保non-ref numts的准确性,本技术检测线粒体起源核基因组序列的装置还包括线粒体起源核基因组序列验证模块,其包括用于1)组装支持non-ref numts存在的读段或读对中比对到线粒体参考基因组部分的序列,生成一致性序列;2)将生成的一致性序列比对到线粒体参考基因组中,根据其比对位置验证non-ref numts。

20、本技术的一种实现方式中,为了进一步检测线粒体起源核基因组序列累积的突变,本技术检测线粒体起源核基因组序列的装置还包括线粒体起源核基因组序列累积突变检测模块,其包括用于根据组装的一致性序列比对到线粒体参考基因组的结果,识别错配碱基,即获得non-ref numts累积的突变。

21、本技术的一种实现方式中,本技术检测线粒体起源核基因组序列的装置还包括注释模块,其包括用于注释核基因组参考序列断点位置和non-ref numts所在的区域和基因。

22、本技术的第三方面公开了一种装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现本技术检测线粒体起源核基因组序列的方法。

23、本技术的第四方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本技术检测线粒体起源核基因组序列的方法。

24、由于采用以上技术方案,本技术的有益效果在于:

25、本技术检测线粒体起源核基因组序列的方法和装置,利用潜在连接读段的比对信息,通过局部组装和聚类,准确检测non-ref numts,降低了non-ref numts检测的假阳性率,能够得到精确的断点和片段信息。本技术检测方法操作简单、方便,能有效降低non-refnumts分析的时间成本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1