用于检测RNA水平基因融合的方法、电子设备和计算机存储介质与流程

文档序号:21094218发布日期:2020-06-16 20:09阅读:来源:国知局

技术特征:

1.一种用于检测rna水平基因融合的方法,包括:

接收全基因组比对信息和全转录组比对信息,所述全基因组比对信息和全转录组比对信息是基于双末端测序数据分别与全基因组参考序列和全转录组参考序列的比对结果而分别生成的,所述双末端测序数据包括待测样本的多个成对读长;

针对所述成对失调读长进行聚类,以生成多个大簇,所述成对失调读长是基于全基因组比对信息而获取的;

针对符合第一预定条件的所述大簇进行全基因组层面的基因注释,以便基于对应基因生成用于标识所述大簇的第一基因名称组合;

基于所述全转录组比对信息,针对所述多个成对读长进行全转录组层面的基因注释,以便基于对应基因生成用于标识所述多个成对读长的第二基因名称组合;以及

识别所述第一基因名称组合和所述第二基因名称组合所关联的相同的对应基因,以便基于所述相同的对应基因确定潜在的融合基因。

2.根据权利要求1所述的方法,还包括:

合并由相同的基因组合名称所标识的大簇,以生成与所述相同的基因组合名称相关联的支持簇;以及

基于具有相同的基因名称的支持簇,确定所述潜在的融合基因的潜在支持簇。

3.根据权利要求1所述的方法,其中生成多个大簇包括:

响应于确定所述成对失调读长对应的映射位置之间的间距满足预定聚类距离,针对所述成对失调读长进行聚类,以生成多个小簇;以及

响应于确定所述小簇的间距满足预定距离,合并所述小簇,以生成所述大簇。

4.根据权利要求1所述的方法,其中第一预定条件包括:

所述大簇所包括的成对失调读长的数量大于或者等于第一预定对数。

5.根据权利要求2所述的方法,还包括:

响应于确定所述潜在支持簇所包括的成对失调读长的数量大于或者等于第二预定对数,确认所述潜在融合基因是否满足以下去除条件:

属于基因家族、假基因、预定的转录本比对非特异性组合、非编码核糖核酸(ncrna)中的至少一种;

属于相邻基因并且相邻基因中的两个基因所分别对应的经与参考转录组比对所获得的支持簇读长方向为相对的;

不属于预定转录结构;

响应于确定所述潜在融合基因不满足所述去除条件,留下所述潜在的融合基因;以及

确定所留下的所述潜在的融合基因为可靠的潜在的融合基因。

6.根据权利要求5所述的方法,其中留下所述潜在的融合基因包括:

响应于确定所述潜在融合基因不满足所述去除条件,将与所述对应基因所相应的成对失调读长和所述对应基因的预定转录本的转录参考序列进行单独比对,以便确定比对质量;

确定所述比对质量是否大于或者等于预定比对质量;

响应于确定所述比对质量大于或者等于预定比对质量,确定所述潜在支持簇中满足预定过滤条件的成对失调读长;以及

响应于确定满足预定过滤条件的成对失调读长的数量大于或者等于第三预定对数,留下所述潜在的融合基因。

7.根据权利要求6中任一所述的方法,其中留下所述潜在的融合基因还包括:

确定与所述比对质量大于或者等于预定比对质量的潜在融合基因相应的所述融合支持簇;

将所述融合支持簇对应在全转录组参考序列上的位置的覆盖区域按相邻预定间距范围进行合并,以便生成合并区域;

确定所述合并区域的数量是否小于或者等于预定个数;以及

响应于确定所述合并区域的数量小于或者等于预定个数,留下所述潜在的融合基因。

8.根据权利要求7所述的方法,其中响应于确定所述合并区域的数量小于或者等于预定个数留下所述潜在的融合基因包括:

响应于确定所述合并区域的数量小于或者等于预定个数,确定相应的所述融合支持簇是否满足以下至少一项条件:

所述融合支持簇中存在的断点满足预定一致性条件;

所述融合支持簇在所述转录本上的比对为连续比对;以及

响应于确定所述融合支持簇满足以上至少一项条件,留下所述潜在的融合基因。

9.根据权利要求8所述的方法,其中所述预定一致性条件包括:

所述融合支持簇中具有同一断点的所有所述失调读长之间以所述同一断点为起点存在相同的不能连续比对的序列,以及具有同一断点的所有所述失调读长的数量大于或者等于2。

10.根据权利要求8中任一所述的方法,还包括:

将所述相应的所述融合支持簇中的成对的读长在全基因组参考序列进行比对,以便基于两端是否存在断点来确定所述成对的读长的类别;

融合所述支持簇中至少包括两种不同类型的所述成对的读长;以及

响应于确定不同类型的所述成对的读长在全基因组参考序列上对应的区域存在重合的融合区域,留下所述潜在的融合基因。

11.根据权利要求10所述的方法,还包括:

采集所留下所述潜在的基因融合的igv图像,以便基于所述igv图像确定参与融合的外显子(exon)号读取融合基因的亚型。

12.根据权利要求11所述的方法,其中基于所述igv图像确定参与融合的外显子(exon)号读取融合基因的亚型,包括:

对所述融合支持簇中具有同一断点并且比对的箭头方向朝向右的所有失调读长,确定从exon号为1开始到断点位置之前能匹配上的位置包括的exon号为5’端参与融合的exon号;以及

对所述融合支持簇中具有同一断点并且比对的箭头方向朝向左的所有失调读长,确定断点位置向右的第一个能匹配上的位置的exon号到向右直到最末端的exon号为3’端参与融合的exon号。

13.一种计算设备,包括:

至少一个处理单元;

至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行根据权利要求1至12任一项所述的方法的步骤。

14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至12中任一项所述的方法。


技术总结
本公开涉及一种用于检测RNA水平基因融合的方法、电子设备和计算机存储介质。该方法包括:接收全基因组比对信息和全转录组比对信息;针对成对失调读长进行聚类,以生成多个大簇;针对符合第一预定条件的大簇进行全基因组层面的基因注释,以便基于对应基因生成用于标识大簇的第一基因组合名称;基于全转录组比对信息,针对多个成对读长进行全转录组层面的基因注释,以便基于对应基因生成用于标识多个成对读长的第二基因组合名称;以及识别第一基因组合名称和第二基因组合名称所关联的相同的对应基因,以便将相同的对应基因确定为潜在的融合基因。本公开有助于对假阳性的快速正确识别,能够明显降低基因融合检测结果的假阳性。

技术研发人员:王凯;陈惠
受保护的技术使用者:至本医疗科技(上海)有限公司
技术研发日:2020.01.20
技术公布日:2020.06.16
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1