用于检测和抑制由融合事件引起的比对错误的方法与流程

文档序号:23849020发布日期:2021-02-05 13:40阅读:来源:国知局

技术特征:
1.一种用于至少部分地使用计算机来检测基因序列读段中的比对错误的方法,所述方法包括:(a)通过所述计算机接收序列信息,所述序列信息包括从来自受试者的生物样品中的无细胞核酸分子获得的基因序列读段;(b)将所述基因序列读段与参考序列比对以产生比对的序列读段;(c)从所述比对的序列读段中鉴定包含基因内融合断点的基因融合读段的集合;以及(d)通过鉴定在包含所述基因内融合断点的区域内包含遗传变异的一个或更多个基因融合读段的子集来检测比对错误,其中所述区域包含与所述基因内融合断点相邻的一个或更多个核苷酸。2.一种用于至少部分地使用计算机在检测来自受试者的生物样品的无细胞核酸分子中的真正遗传变异时抑制比对错误的方法,所述方法包括:(a)通过所述计算机接收序列信息,所述序列信息包括从所述无细胞核酸分子获得的序列读段;(b)将所述序列读段与参考序列比对以产生比对的序列读段;(c)从所述比对的序列读段中鉴定包含基因内融合断点的基因融合读段的集合;(d)通过鉴定在包含所述基因内融合断点的区域内包含遗传变异的一个或更多个基因融合读段的子集来检测比对错误,其中所述区域包含与所述基因内融合断点相邻的一个或更多个核苷酸;(e)过滤掉所述一个或更多个基因融合读段的子集中的一个或更多个检测到的比对错误的至少一部分,以产生过滤的序列读段;以及(f)检测与所述参考序列相比包含真正遗传变异的过滤的序列读段。3.一种用于至少部分地使用计算机在检测来自受试者的样品的无细胞核酸分子中的真正遗传变异时抑制比对错误的方法,所述方法包括:(a)通过所述计算机接收序列信息,所述序列信息包括从所述无细胞核酸分子获得的测序读段;(b)将所述序列读段与参考序列比对以产生比对的序列读段;(c)从所述比对的序列读段中鉴定包含基因内融合断点的基因融合读段的集合;(d)通过鉴定包含遗传变异的一个或更多个基因融合读段的子集来检测比对错误,其中所述一个或更多个基因融合读段的子集包括对应于smad4、tyro3和/或raf1的基因序列;(e)过滤掉所述一个或更多个基因融合读段的子集中的一个或更多个检测到的比对错误的至少一部分,以产生过滤的序列读段;以及(f)检测与所述参考序列相比包含真正遗传变异的过滤的序列读段。4.一种用于至少部分地使用计算机来检测基因序列读段中的比对错误的方法,所述方法包括:(a)通过所述计算机接收序列信息,所述序列信息包括从来自受试者的生物样品中的无细胞核酸分子获得的基因序列读段;(b)将所述基因序列读段与参考序列比对以产生比对的序列读段;(c)从所述比对的序列读段中确定包含基因内融合断点的基因融合读段的集合;(d)确定在包含所述基因内融合断点的区域内包含遗传变异的一个或更多个基因融合
读段的子集,其中所述区域包含与所述基因内融合断点相邻的一个或更多个核苷酸;以及(e)将所述区域内满足预定标准的每个遗传变异鉴定为比对错误。5.一种用于至少部分地使用计算机在检测来自受试者的样品的无细胞核酸分子中的真正遗传变异时抑制比对错误的方法,所述方法包括:(a)通过所述计算机接收序列信息,所述序列信息包括从所述无细胞核酸分子获得的测序读段;(b)将所述序列读段与参考序列比对以产生比对的序列读段;(c)从所述比对的序列读段中鉴定包含基因内融合断点的基因融合读段的集合;(d)通过鉴定包含遗传变异的一个或更多个基因融合读段的子集来检测比对错误,其中所述一个或更多个基因融合读段的子集包括对应于smad4、tyro3和/或raf1的基因序列;(e)过滤掉所述一个或更多个基因融合读段的子集中的一个或更多个检测到的比对错误的至少一部分,以产生过滤的序列读段;以及(f)检测与所述参考序列相比包含真正遗传变异的过滤的序列读段。6.根据权利要求1-5中任一项所述的方法,其中,所述基因融合读段的集合对应于一个或更多个加工的假基因(ppg)。7.根据权利要求6所述的方法,其中,所述一个或更多个ppg包括一个或更多个样品特异性ppg。8.根据权利要求7所述的方法,其中,所述一个或更多个样品特异性ppg在受试者的群体中鉴定所述受试者。9.根据权利要求6所述的方法,其中,所述一个或更多个ppg源自由以下组成的组:smad4、gnas、tp53、raf1、cdk4、tyro3、mapk1、stk11、ccnd1、hras、met、myc和nras。10.根据权利要求6所述的方法,其中,所述一个或更多个ppg包括源自由以下组成的组的两个或更多个ppg:smad4、gnas、tp53、raf1、cdk4、tyro3、mapk1、stk11、ccnd1、hras、met、myc和nras。11.根据权利要求6所述的方法,其中,所述一个或更多个ppg包括源自由以下组成的组的三个或更多个ppg:smad4、gnas、tp53、raf1、cdk4、tyro3、mapk1、stk11、ccnd1、hras、met、myc和nras。12.根据权利要求1-11中任一项所述的方法,其中,所述遗传变异或真正遗传变异包括单核苷酸变异(snv)或插入或缺失(indel)。13.根据权利要求12所述的方法,其中,所述遗传变异包括snv。14.根据权利要求12所述的方法,其中,所述snv位于内含子-外显子边界处。15.根据权利要求12所述的方法,其中,所述snv位于基因编码序列(cds)内。16.根据权利要求12所述的方法,其中,所述遗传变异包括插入或缺失。17.根据权利要求1所述的方法,其中,所述区域包含与所述基因内融合断点相邻的约2个、4个、6个、8个、10个、15个或20个核苷酸。18.根据前述权利要求中任一项所述的方法,其中,所述一个或更多个检测到的比对错误的一部分基于在所述样品中检测到的比对错误具有的突变等位基因分数小于或等于对应于所述样品中的基因内融合断点的基因内融合的突变等位基因分数被过滤掉。19.根据权利要求18所述的方法,其中,所述一个或更多个检测到的比对错误的一部分
基于所述基因融合读段包含不属于临床可操作变异的预定义集合的遗传变异被过滤掉。20.根据前述权利要求中任一项所述的方法,其中,所述样品是选自由以下组成的组的体液样品:血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液。21.根据前述权利要求中任一项所述的方法,其中,所述受试者患有疾病或紊乱。22.根据权利要求21所述的方法,其中,所述疾病是癌症。23.根据前述权利要求中任一项所述的方法,所述方法包括从受试者的生物样品分离无细胞核酸分子。24.根据权利要求23所述的方法,其中,所述无细胞核酸分子包括dna、rna或它们的组合。25.根据权利要求24所述的方法,其中,所述无细胞核酸分子是双链dna。26.根据前述权利要求中任一项所述的方法,所述方法还包括将一个或更多个包含分子条形码的衔接子附接至所述无细胞核酸分子,然后测序以产生加标签的亲本多核苷酸。27.根据权利要求26所述的方法,其中,所述衔接子被附接至所述无细胞核酸分子的两端。28.根据权利要求26所述的方法,其中,所述无细胞核酸分子被独特地加条形码。29.根据权利要求26所述的方法,其中,所述无细胞核酸分子被非独特地加条形码。30.根据权利要求29所述的方法,其中,每个条形码包含固定的或半随机的寡核苷酸序列,所述寡核苷酸序列与从选定区域测序的多种分子相结合,使得能够鉴定独特的分子。31.根据权利要求26所述的方法,所述方法还包括扩增所述加标签的亲本多核苷酸以产生后代多核苷酸。32.根据权利要求31所述的方法,所述方法还包括针对感兴趣的靶序列选择性富集所述后代多核苷酸,从而产生富集的后代多核苷酸。33.根据权利要求32所述的方法,所述方法还包括扩增所述富集的后代多核苷酸。34.根据权利要求31-33中任一项所述的方法,其中,所述后代多核苷酸或所述富集的后代多核苷酸被用样品索引序列加标签。35.根据任一前述权利要求所述的方法,其中,所述序列信息从核酸测序仪获得。36.根据前述权利要求中任一项所述的方法,其中,所述基因融合读段的集合通过将测序的成对末端读段进行比对和连接来鉴定。37.根据前述权利要求中任一项所述的方法,其中,所述基因融合读段的集合基于跨内含子-外显子边界的覆盖的不连续性来鉴定。38.根据权利要求19所述的方法,其中,所述预定义集合包括存在于cosmic、癌症基因组图谱(tcga)或外显子组聚集联盟(exac)中的变异。39.一种用于至少部分地使用计算机来产生过滤的读段序列信息数据集的方法,所述方法包括:(a)鉴定从获自受试者的生物样品中的无细胞核酸(cfna)获得的测试序列读段的集合中的一个或更多个分裂序列读段,其中每个分裂序列读段包含至少一个断点;以及(b)在所述测试序列读段的集合中,(i)抑制包含距离给定断点选定数目的核苷酸内的至少一个序列变异的一个或更多个所述分裂序列读段的至少一部分和/或一个或更多个所述测试序列读段的至少一部分,从而产生所述过滤的序列信息数据集,或者(ii)抑制包含
距离给定断点选定数目的核苷酸内的至少一个序列变异的所述分裂序列读段的一个或更多个碱基识别和/或所述测试序列读段的一个或更多个碱基识别,从而产生所述过滤的序列信息数据集。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1