使用具有独特分子索引(UMI)的冗余读段在测序DNA片段中抑制误差的制作方法

文档序号:28166991发布日期:2021-12-24 22:46阅读:来源:国知局

技术特征:
1.使用独特分子索引(umi)对来自样品的核酸分子测序的方法,其中每个独特分子索引(umi)是能用于鉴定所述样品中双链dna片段的单独分子的寡核苷酸序列,所述方法包括:(a)将衔接头应用于所述样品中双链dna片段的两个末端,其中所述衔接头各自包含双链杂交区、单链5’臂、单链3’臂、和所述衔接头的一条链或每条链上的物理umi,从而获得dna

衔接头产物;(b)扩增所述dna

衔接头产物的两条链以获得多个扩增的多核苷酸;(c)对所述多个扩增的多核苷酸测序,从而获得多个读段,每个读段与物理umi相关联;(d)鉴定与所述多个读段相关联的多个物理umi;(e)鉴定与所述多个读段相关联的多个虚拟umi,其中每个虚拟umi是所述样品中dna片段中发现的序列;以及(f)对于一个或多个所述双链dna片段中的每个,通过组合(i)具有第一物理umi和至少一个虚拟umi但不是第二物理umi的读段和(ii)具有所述第二物理umi和所述至少一个虚拟umi但不是所述第一物理umi的读段,测定共有核苷酸序列;以及(g)对于所述样品中的一个或多个所述双链dna片段中的每个,使用所述共有核苷酸序列测定序列。2.权利要求1的方法,其中所述多个物理umi包含随机umi。3.权利要求1的方法,其中所述多个物理umi包含非随机umi。4.权利要求3的方法,其中每个非随机umi与所述衔接头的每个其它(every other)非随机umi相差所述非随机umi的对应序列位置处的至少两个核苷酸。5.权利要求4的方法,其中所述多个物理umi包括不超过10,000种独特非随机umi。6.权利要求5的方法,其中所述多个物理umi包括不超过1,000种独特非随机umi。7.权利要求6的方法,其中所述多个物理umi包括不超过500种独特非随机umi。8.权利要求7的方法,其中所述多个物理umi包括不超过约100种独特非随机umi。9.权利要求8的方法,其中所述多个物理umi包括约96种独特非随机umi。10.权利要求1的方法,其中将衔接头应用于双链dna片段的两个末端包括将所述衔接头连接到所述双链dna片段的两个末端。11.权利要求1的方法,其中所述多个物理umi包括少于12个核苷酸。12.权利要求11的方法,其中所述多个mui包括不超过6个核苷酸。13.权利要求11的方法,其中所述多个umi包括不超过4个核苷酸。14.权利要求1的方法,其中所述衔接头各自包含所述双链杂交区的每条链上的读段引物序列。15.权利要求1的方法,其中所述衔接头各自包含所述单链5’臂或所述单链3’臂上在所述衔接头的仅一条链上的物理umi。16.权利要求15的方法,其中(f)包括:(i)将所述具有第一物理umi和至少一个虚拟umi但不是第二物理umi的读段折拢(collapsing)成第一组以获得第一共有核苷酸序列;(ii)将所述具有第二物理umi和至少一个虚拟umi但不是第一物理umi的读段折拢成第二组以获得第二共有核苷酸序列;以及
(iii)使用所述第一和第二共有核苷酸序列来测定(f)的共有核苷酸序列。17.权利要求16的方法,其中(iii)包括使用所述第一和第二共有核苷酸序列的定位信息和序列信息来获得(f)的共有核苷酸序列。18.权利要求1的方法,其中所述虚拟umi中的至少一些源自所述样品中所述双链dna片段的末端处或附近的亚序列。19.权利要求1的方法,其中一个或多个物理umi和/或一个或多个虚拟umi与所述样品中双链dna片段独特地相关联。20.权利要求1的方法,其中所述样品中所述双链dna片段包含超过约1,000个dna片段。21.权利要求1的方法,其中所述多个虚拟umi包含约6bp至约24bp的umi。22.权利要求21的方法,其中所述多个虚拟umi包含约6bp至约10bp的umi。23.权利要求1的方法,其中操作(c)中获得所述多个读段包括:从每个扩增的多核苷酸中获得两个配对末端读段,其中所述两个配对末端读段包含长读段和短读段,所述长读段比所述短读段长。24.权利要求23的方法,其中(f)包括:将与第一物理umi相关联的读段对组合成第一组并且将与第二物理umi相关联的读段对组合成第二组,其中所述第一和所述第二物理umi与所述样品中的双链片段独特地相关联;并且使用所述第一组中长读段的序列信息和所述第二组中长读段的序列信息来测定所述样品中所述双链片段的序列。25.权利要求23的方法,其中所述长读段具有约500bp或更多的读段长度。26.权利要求23的方法,其中所述短读段具有约50bp或更少的读段长度。27.权利要求1的方法,其中所述方法抑制在以下一个或多个操作中出现的误差:pcr、文库制备、成簇、和测序。28.权利要求1的方法,其中扩增的多核苷酸包括具有低于约1%的等位基因频率的等位基因。29.权利要求28的方法,其中所述扩增的多核苷酸包括源自肿瘤的无细胞dna分子,并且所述等位基因指示所述肿瘤。30.权利要求1的方法,其中对多个扩增的多核苷酸测序包括获得具有至少约100bp的读段。31.用于制备每条链上具有物理umi的双链体测序衔接头的方法,其包括:提供初步测序衔接头,其包含双链杂交区、两个单链臂、和与所述两个单链臂离得较远的双联杂交区末端的突出端,所述突出端包含5'

ccannnnannnntgg

3';使用所述突出端作为模板来延伸所述双链杂交区的一条链,从而产生延伸产物;并且应用限制酶xcm1来消化所述延伸产物的双链末端,从而产生在每条链上具有物理umi的所述双链体测序衔接头。32.权利要求31的方法,其中所述初步测序衔接头包含每条链上的读段引物序列。33.计算机程序产品,其包含存储程序代码的非暂时机器可读介质,所述程序代码当由计算机系统的一个或多个处理器执行时使所述计算机系统执行使用独特分子索引(umi)来测定样品中感兴趣的序列的序列信息的方法,所述独特分子索引是能用于鉴定所述样品中
双链dna片段的单独分子的寡核苷酸序列,所述程序代码包含:用于获得多个扩增的多核苷酸的读段的代码,其中通过扩增包括所述感兴趣的序列的所述样品中的双链dna片段并且将衔接头附接至所述双链dna片段来获得所述多个扩增的多核苷酸;用于鉴定所述多个扩增的多核苷酸的所述读段中的多个物理umi的代码,其中每个物理umi存在于附接至所述双链dna片段之一的衔接头中;用于鉴定所述多个扩增的多核苷酸的所述读段中的多个虚拟umi的代码,其中每个虚拟umi存在于所述双链dna片段之一的单独分子中;和用于测定所述双链dna片段的序列的代码,所述测定使用所述多个扩增的多核苷酸、所述多个物理umi、和所述多个虚拟umi的读段进行,从而减少所述双链dna片段的测定序列中的误差。对于一个或多个所述双链dna片段中的每个,用于测定共有核苷酸序列的代码,所述测定通过组合(i)具有第一物理umi和至少一个虚拟umi但不是第二物理umi的读段和(ii)具有所述第二物理umi和所述至少一个虚拟umi但不是所述第一物理umi的读段进行;以及对于所述样品中的一个或多个所述双链dna片段中的每个,用于测定序列的代码,所述测定使用所述共有核苷酸序列。34.权利要求33的计算机程序产品,其中所述衔接头各自包含双链杂交区、单链5’臂、单链3’臂、和在所述衔接头的一条链上的物理独特分子索引(umi)。35.计算机系统,其包含:一个或多个处理器;系统存储器;和一个或多个计算机可读存储介质,所述计算机可读存储介质已经在其上存储计算机可执行指令,所述指令使所述计算机系统执行使用独特分子索引(umi)来测定样品中感兴趣的序列的序列信息的方法,所述独特分子索引是能用于鉴定所述样品中双链dna片段的单独分子的寡核苷酸序列,所述指令包括:接收多个扩增的多核苷酸的读段,其中通过扩增包括所述感兴趣的序列的所述样品中的双链dna片段并将衔接头附接至所述双链dna片段来获得所述多个扩增的多核苷酸;在所述多个扩增的多核苷酸的接收读段中鉴定多个物理umi,其中每个物理umi存在于附接至所述双链dna片段之一的衔接头中;在所述多个扩增的多核苷酸的接收读段中鉴定多个虚拟umi,其中每个虚拟umi存在于所述双链dna片段之一的单独分子中;并且对于一个或多个所述双链dna片段中的每个,通过组合(i)具有第一物理umi和至少一个虚拟umi但不是第二物理umi的读段和(ii)具有所述第二物理umi和所述至少一个虚拟umi但不是所述第一物理umi的读段,测定共有核苷酸序列;以及对于所述样品中的一个或多个所述双链dna片段中的每个,使用所述共有核苷酸序列测定序列。36.权利要求35的计算机系统,其中所述衔接头各自包含双链杂交区、单链5’臂、单链3’臂、和所述衔接头的一条链上的物理独特分子索引(umi)。37.p7臂顶部链,其由如seq id no:2所示的序列组成。
38.p5臂底部链,其由如seq id no:3所示的序列组成。

技术总结
公开的实施方案关注用于使用独特分子索引(UMI)序列来测定感兴趣的序列的方法、装置、系统和计算机程序产品,所述独特分子索引序列与单独的多核苷酸片段,包括具有低等位基因频率和长序列长度的序列独特可关联。在一些实施方案中,UMI包含例如使用Y型衔接子引入的物理(外源)UMI,和要测序的DNA片段中存在的虚拟(内源)UMI两者。在一些实施方案中,独特分子索引序列包括非随机序列。还提供了用于实施公开的方法来测定感兴趣的序列的系统、装置、和计算机程序产品。算机程序产品。算机程序产品。


技术研发人员:S.内勒 B.郑 E.科斯特姆 A.阿拉瓦尼斯 A.索 X.蔡 Z.张
受保护的技术使用者:亿明达股份有限公司
技术研发日:2016.04.20
技术公布日:2021/12/23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1