线粒体DNA质量控制的制作方法

文档序号:34580178发布日期:2023-06-28 14:07阅读:53来源:国知局
线粒体DNA质量控制的制作方法

本公开部分地涉及鉴定可能被错误标记或污染的不可靠生物样品的方法。


背景技术:

1、10多年来,下一代测序(ngs)已成为生物和生物医学研究中的重要组成部分,因为它使得大批量dna或rna样品的测序可行。ngs具有广泛的应用,诸如用于大型队列遗传研究的全基因组和全外显子组测序、用于临床评估中疾病基因表达特征鉴定的大量rna测序、肿瘤研究/诊断中的组织活检测序和最近出现的单细胞测序研究,为许多不同难题和问题提供答案和解决方案。然而,在涉及大规模样品的研究中,样品鉴定复杂化是常见且几乎不可避免的难题。估计样品鉴定误差率在实践中可在0.2%至6%的范围内(pfeifer等人,amer.j.clin.pathol.,2013,139,93-100;costello等人,bmc genomics,2018,19,332;lerner等人,cancer res.,2015,75,摘要p5-02-08;和sehn等人,amer.j.clin.pathol.,2015.144,667-674)。错误可能以不同程度发生:1)样品之间的完全交换,和/或2)一个样品被一个或多个其他样品污染。在样品处理期间的各种步骤可能引入错误,诸如在样品收集期间的样品错误标记、在移液期间的材料溢出、在进行测序时在合并文库中的索引交换和许多其他意外情况。样品交换/污染随后将降低下游分析的质量和准确性。例如,全转录组分析中的样品交换可能导致错误发现或失去检测差异表达基因的能力。在癌症研究中,通常使用体细胞突变鉴定,假定这些突变中的许多以非常低的频率(<5%)存在,因此即使是低水平(1%至5%)的污染也可能导致假阳性突变调用。出于这些原因,准确检测样品交换和污染是大规模ngs研究中重要的质量控制步骤。

2、线粒体是大多数真核细胞中必需的细胞器。人线粒体dna(mtdna)是位于线粒体中的16.5kb环状dna分子,并且编码线粒体功能所必需的基因产物。在单个细胞中有数百至数千个mtdna拷贝。mtdna是母系遗传的,具有可忽略的重组。因为mtdna是单亲遗传的并且在群体水平上经历可忽略的重组,随时间获得的突变将人类群体细分为若干离散的mtdna单倍群。平均而言,两个随机个体将在其线粒体基因组中具有30至40个核苷酸差异(gunnarsdóttir等人,nature commun.,2011,2,228;slatkin等人,genetics,1991,129,555-562;和ye等人,proc.nat’l acad.sci.usa,2014,111,e4548-e4550)。由于其多拷贝性质,mtdna突变通常仅存在于细胞mtdna的一小部分中,这种状态称为异质性。携带突变的mtdna的百分比称为异质性频率。相比之下,如果在所有mtdna分子中发现突变,则该突变将被称为同质性。以前的研究表明,在一般健康的群体中,大多数个体在其线粒体基因组中具有少于5个异质性(频率>1至2%)(zhang等人,bmc genomics,2017,18,890;和ye等人,proc.nat’lacad.sci.usa,2014,111,10654-10659)。对于一批样品,从同一个体收集的样品应全部属于同一单倍群。


技术实现思路

1、本公开提供了鉴定不可靠生物样品的方法,所述方法包括:a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定,以获得每个生物样品的线粒体dna(mtdna)测序读段;b)在来自前一步骤的每个生物样品的mtdna测序读段中鉴定异质性和同质性;以及c)将初级mtdna单倍群分配给每个生物样品,其中具有与分配给来自同一个体的大部分生物样品的初级mtdna单倍群不同的分配的初级mtdna单倍群的任何生物样品是作为错误标记的生物样品的不可靠生物样品。

2、本公开还提供了鉴定不可靠生物样品的方法,所述方法包括:a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定,以获得每个生物样品的线粒体dna(mtdna)测序读段;b)在来自前一步骤的每个生物样品的mtdna测序读段中鉴定异质性和同质性;c)将初级mtdna单倍群分配给每个生物样品,以及d)确定每个生物样品的总异质性数,其中当生物样品具有高异质性数时,基于异质性位点中的次要等位基因向生物样品分配次级mtdna单倍群,其中具有与所分配的初级mtdna单倍群不同的分配的次级mtdna单倍群的生物样品是被污染的不可靠样品。

3、本公开还提供了鉴定不可靠生物样品的方法,所述方法包括:a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定,以获得每个生物样品的线粒体dna(mtdna)原始测序读段;b)处理mtdna原始测序读段用于质量控制和衔接子序列去除以产生质量控制的mtdna测序读段;c)将质量控制的mtdna测序读段映射到线粒体参考基因组以产生候选mtdna测序读段;d)将候选mtdna测序读段重新映射到人参考基因组并在以下情况下保留候选mtdna测序读段:i)候选mtdna测序读段唯一地映射到线粒体参考基因组或与线粒体参考基因组的错配比与人参考基因组的错配更少;和ii)候选mtdna测序读段的比对错配计数小于5;e)对所保留的候选mtdna测序读段进行映射后处理以用于排序和去重;f)在每个生物样品的所保留的候选mtdna测序读段中鉴定异质性和同质性;以及g)将初级mtdna单倍群分配给每个生物样品,其中具有与分配给来自同一个体的大部分生物样品的初级mtdna单倍群不同的分配的初级mtdna单倍群的任何生物样品是作为错误标记的生物样品的不可靠生物样品。

4、本公开还提供了鉴定不可靠生物样品的方法,所述方法包括:a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定,以获得每个生物样品的线粒体dna(mtdna)原始测序读段;b)处理mtdna原始测序读段用于质量控制和衔接子序列去除以产生质量控制的mtdna测序读段;c)将质量控制的mtdna测序读段映射到线粒体参考基因组以产生候选mtdna测序读段;d)将候选mtdna测序读段重新映射到人参考基因组并在以下情况下保留候选mtdna测序读段:i)候选mtdna测序读段唯一地映射到线粒体参考基因组或与线粒体参考基因组的错配比与人参考基因组的错配更少;和ii)候选mtdna测序读段的比对错配计数小于5;e)对所保留的候选mtdna测序读段进行映射后处理以用于排序和去重;f)在每个生物样品的所保留的候选mtdna测序读段中鉴定异质性和同质性;g)将初级mtdna单倍群分配给每个生物样品;以及h)确定每个生物样品的总异质性数,其中当生物样品具有高异质性数时,向生物样品分配次级mtdna单倍群,其中具有与所分配的初级mtdna单倍群不同的分配的次级mtdna单倍群的生物样品是被污染的不可靠样品。



技术特征:

1.一种鉴定不可靠生物样品的方法,所述方法包括:

2.根据权利要求1所述的方法,其中通过测定测序覆盖率、次要等位基因频率和所述次要等位基因的存在来鉴定所述异质性,其中当:i)所述测序覆盖率≥50;ii)所述次要等位基因频率≥1%;和iii)对于dna数据,从每条链观察到至少两次所述次要等位基因,或对于rna数据,观察到至少三次所述次要等位基因时,存在异质性。

3.根据权利要求1或权利要求2所述的方法,其中通过测定所述测序覆盖率和一个或多个等位基因的存在来鉴定所述同质性,其中当:i)测序覆盖率≥10;和ii)在特定的核酸位点处仅观察到一个等位基因并且其不同于相应的参考等位基因,或在特定的核酸位点处观察到多个等位基因并且所述主要等位基因不同于所述相应的参考等位基因,并且所述特定的核酸位点不满足异质性标准时,存在同质性。

4.根据权利要求1至3中任一项所述的方法,其中将所述初级mtdna单倍群分配给每个生物样品包括使用所述同质性和所述异质性的主要等位基因构建每个生物样品的mtdna序列。

5.根据权利要求1至4中任一项所述的方法,所述方法还包括确定每个生物样品的总异质性数,其中当生物样品具有高异质性数时,向所述生物样品分配次级mtdna单倍群。

6.根据权利要求5所述的方法,其中分配所述次级mtdna单倍群包括使用所述同质性和所述异质性的次要等位基因构建次级mtdna序列,其中具有与所分配的初级mtdna单倍群不同的分配的次级mtdna单倍群的生物样品是被污染的不可靠生物样品。

7.根据权利要求6所述的方法,所述方法还包括通过测定所述污染的生物样品中所有异质性的异质性频率的中值来测定生物样品的污染水平,其中所述异质性频率的中值越大,所述污染水平越大。

8.根据权利要求1至7中任一项所述的方法,所述方法还包括在鉴定异质性和同质性之前,处理从所述核酸测序测定获得的mtdna测序读段用于质量控制和衔接子序列去除,以产生质量控制的mtdna测序读段。

9.根据权利要求8所述的方法,所述方法还包括:

10.根据权利要求9所述的方法,所述方法还包括对所保留的候选mtdna测序读段进行映射后处理以用于排序和去重。

11.根据权利要求1至10中任一项所述的方法,所述方法还包括在鉴定所述异质性和所述同质性之前和/或在处理所述mtdna测序读段以用于质量控制和衔接子序列去除之前,将从所述核酸测序测定获得的mtdna测序读段下采样至期望的深度。

12.根据权利要求1至11中任一项所述的方法,所述方法还包括在对所述多个生物样品进行所述核酸测序测定之前从所述个体获得所述多个生物样品。

13.根据权利要求1至12中任一项所述的方法,其中所述生物样品是血液或组织。

14.根据权利要求1至13中任一项所述的方法,所述方法还包括在对所述多个生物样品进行所述核酸测序测定之前扩增所述生物样品中的核酸分子。

15.根据权利要求1至14中任一项所述的方法,所述方法还包括正确标记所述一个或多个错误标记的生物样品或丢弃所述一个或多个错误标记的生物样品。

16.根据权利要求1至14中任一项所述的方法,所述方法还包括丢弃所述一个或多个污染的生物样品。

17.根据权利要求1至16中任一项所述的方法,其中所述测序测定包括下一代测序(ngs)。

18.根据权利要求17所述的方法,其中所述ngs包括全基因组测序。

19.根据权利要求17所述的方法,其中所述ngs包括全外显子组测序。

20.根据权利要求17所述的方法,其中所述ngs包括rna测序。

21.根据权利要求17所述的方法,其中所述ngs包括亚硫酸氢盐测序。

22.一种鉴定不可靠生物样品的方法,所述方法包括:

23.一种鉴定不可靠生物样品的方法,所述方法包括:


技术总结
本公开提供了通过测定生物样品中存在的线粒体DNA(mtDNA)的异质性和同质性,继而通过mtDNA单倍群来鉴定可能被错误标记或污染的不可靠生物样品的方法。

技术研发人员:张若瑜,W·K·林,G·阿特瓦尔
受保护的技术使用者:雷杰纳荣制药公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1