DNA重排区域及相应RNA产物检测方法、设备以及存储介质与流程

文档序号:14796950发布日期:2018-06-29 19:32阅读:来源:国知局
技术特征:

1.一种DNA重排区域检测方法,对待测样本的DNA重排区域进行检测,其特征在于,包括以下步骤:

接收对所述待测样本的多个测序片段进行双末端测序获得的多对成对的两个读长的双末端测序数据与参考基因组比对得到的比对信息;

从所述比对信息中获取所有映射距离满足预定映射值对应的映射按预定聚类规则进行聚类得到多个小簇;

将所有所述小簇中的所有所述映射按成对的两个映射对应的两个所述小簇相同的关系分别进行合并得到各个大簇,并分别判断各个所述大簇包括的成对的两个所述映射的对数是否满足预定对数;

分别判断各个所述对数满足所述预定对数的所述大簇中的所有所述映射对应的所有所述读长在所述参考基因组上的比对是否满足预定比对特异性条件;

分别对满足所述预定比对特异性条件的所述大簇中按对应的所述小簇相同的所有所述映射为一组分别对每所述组进行预定过滤;

判定两个所述组被预定过滤后都留下的所述大簇中的所有所述映射对应的区域为所述待测样本的一个实际的DNA重排区域在该参考基因组上的映射区域,相应的所述大簇为支持该DNA重排区域的支持大簇。

2.根据权利要求1所述的DNA重排区域检测方法,其特征在于,还包括以下步骤:

分别对所述支持大簇中的各个成对的两个映射逐一判断是否满足都没有断点的第一断点条件、都有断点的第二断点条件或者只有一个有断点的第三断点条件中的一个条件;

设定满足所述第一断点条件的成对的两个所述映射为第一类映射;

设定满足所述第二断点条件的成对的两个所述映射为第二类映射;

设定满足所述第三断点条件的成对的两个所述映射为第三类映射;

对至少包括两类所述映射的所述支持大簇的不同类对应的映射区域之间确定重合的区域得到与该支持大簇相应的重合区域。

3.根据权利要求1所述的DNA重排区域检测方法,其特征在于,还包括以下步骤:

判定各个所述DNA重排区域的染色体重排类型,具体包括:

根据所述支持大簇中的两组所述映射之间的方向和染色体位置判断染色体重排类型是否为染色体内的缺失、重复、倒位或染色体间的易位中的一种。

4.根据权利要求1所述的DNA重排区域检测方法,其特征在于,还包括以下步骤:

基于参考转录本,结合所述支持大簇中含有的各个映射相应的映射方向以及相应的映射所在位置对各个所述映射区域进行注释得到相应的各个所述DNA重排区域的详细基因结构。

5.根据权利要求4所述的DNA重排区域检测方法,其特征在于,还包括以下步骤:

判定各个所述DNA重排区域的基因重排类型,具体包括:

根据所述映射区域被注释到的详细基因结构,判定相应的DNA重排区域的基因重排类型是否为基因与基因重排、基因内重排或基因与基因间区重排中的一种。

6.根据权利要求1所述的DNA重排区域检测方法,其特征在于:

所述预定映射值为0bp或大于等于2000bp;

所述预定聚类规则为:按用于聚类的各个所述映射对应的映射位置之间的间距满足预定聚类距离的聚为一个所述小簇,

所述预定聚类距离为小于等于500-1000bp,

所述预定对数为大于等于6对,

所述预定比对特异性条件为:用于判断所述预定比对特异性条件的所有所述读长在所述参考基因组上的所有所述映射按照合并规则进行合并得到的合并区域的个数满足预定区域数量,

所述合并规则为:按用于合并的各个所述映射对应的各个所述映

射位置之间的间距满足预定合并距离的合并为一个所述合并区域,

所述预定合并距离为小于等于500-1000bp,

所述预定区域数量为小于等于6。

7.根据权利要求1至6中任意一项所述的DNA重排区域检测方法,其特征在于:

其中,所述预定过滤包括以下步骤:

判断所述组包括的所有所述映射中是否含有存在断点的映射;

当判断不含有存在所述断点的映射时,判断所述组中是否存在相应的所述读长在所述参考基因组上的所有所述映射中存在有断点的映射,

当判断存在时,判定相应的所述组留下,

当判断为含有存在所述断点的映射时,判断相应的所述组中是否存在满足预定一致性条件的断点,

当判断存在满足所述预定一致性条件的断点时,判定满足所述预定一致性条件的断点为可靠断点,并判定相应的所述组留下,

所述预定一致性条件为:各个具有同一断点的所有所述映射相互之间以该同一个所述断点为起点存在相同的不能连续比对上的系列,且这些所述映射的数量大于等于2。

8.根据权利要求7所述的DNA重排区域检测方法,其特征在于:

当所述待测样本为非肿瘤组织样本时,所述预定过滤还包括以下步骤:

判断留下的所述组是否满足各个所述可靠断点附近预定碱基范围内对应的相应的所述映射具有连续相同的碱基数量均小于预定碱基个数的映射的第一条件;

判断留下的所述组是否满足所有存在大于第一预定断点个数的所述可靠断点的映射的数量占该组中的所有映射的总数的比例小于预定比例的第二条件;

判断留下的所述组是否满足所有具有小于等于预定总数的映射对应的同一所述可靠断点的个数小于第二预定断点个数的第三条件;

判定同时满足所述第一条件、所述第二条件或所述第三条件中的一个或多个的所述组留下,

所述预定碱基范围为以所述可靠断点为中点左右扩展20个碱基对应的映射范围,所述预定碱基个数为20个,

所述预定比例为三分之一,

所述第一预定断点个数为2个,

所述预定总数为2个,

所述第二预定断点个数为10个。

9.根据权利要求7所述的DNA重排区域检测方法,其特征在于:

当所述待测样本为肿瘤组织样本时,以非肿瘤组织为进行对照的对照样本,

还接收对所述对照样本的多个测序片段进行双末端测序获得的多对成对的两个对照读长的双末端测序数据与所述参考基因组比对得到的至少包括所述对照读长在所述参考基因组上的各个对照映射的对照比对信息,

所述预定过滤还包括以下步骤:

判断留下的所述组是否满足各个所述可靠断点附近预定碱基范围内对应的相应的所述映射具有连续相同的碱基数量均小于预定碱基个数的映射的第一条件;

判断留下的所述组是否满足所有存在大于第一预定断点个数的所述可靠断点的映射的数量占该组中的所有映射的总数的比例小于预定比例的第二条件;

判断留下的所述组是否满足所有具有小于等于预定总数的映射对应的同一所述可靠断点的个数小于第二预定断点个数的第三条件;

判断留下的所述组是否满足具有所述可靠断点的所有所述映射中存在与所述对照比对信息中分别相同的对照映射的对照断点分别相同的所述可靠断点的所有所述映射的数量小于等于预定条数的第四条件,

判定同时满足所述第一条件、所述第二条件、所述第三条件或所述第四条件中的一个或多个的所述组留下,

所述预定碱基范围为以所述可靠断点为中点左右扩展20个碱基对应的映射范围,所述预定碱基个数为20个,所述预定比例为三分之一,

所述第一预定断点个数为2个,

所述预定总数为2个,

所述第二预定断点个数为10个,

所述预定条数为3-5条。

10.一种RNA产物预测方法,其特征在于,包括:

DNA重排区域检测,用于对待测样本的DNA重排区域进行检测;

RNA产物预测,用于对检测出的DNA重排区域的RNA产物进行预测,

其中,所述DNA重排区域检测采用权利要求5所述的DNA重排区域检测方法进行,

所述RNA产物预测基于所述DNA重排区域的基因重排类型以及相应的支持大簇的详细注释基因结构对DNA重排区域的RNA产物进行预测,包括以下步骤:

当所述DNA重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的所述基因的参与重排的部分被注释为基因的是5´端时,预测相应的所述重排区域的RNA产物为蛋白截短,当所述重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的所述基因的参与重排的部分被注释为3´端时,预测相应的所述重排区域的RNA产物为蛋白缺失,当所述DNA重排区域的基因重排类型为基因与基因重排,且两个参与重排的所述基因各自参与重排的部分都被注释到5´端时,预测该两个基因的RNA产物都为蛋白截短,当所述DNA重排区域的类型为基因与基因重排,且两个参与重排的所述基因各自参与重排的部分都被注释到3´端时,预测该两个基因的RNA产物都为蛋白缺失,当所述DNA重排区域的类型为基因与基因重排,且两个参与重排的所述基因中,一个基因参与重排的部分被注释到5´端,另一个基因参与重排的部分被注释3´端时,预测DNA重排区域的RNA产物为该两个所述基因融合得到的融合蛋白;

当所述DNA重排区域的类型为基因与基因重排或基因内部重排时,当所述支持大簇中的组对应的映射区域在映射方向的最末端被注释到的是内含子时,则根据内含子被剪接掉的一般原理,预测该组被转录后的外显子号,当所述支持大簇中的所述组在所述最末端被注释到的是外显子时,预测该组被转转录的外显子号不变,

当预测出所述DNA重排区域为融合蛋白时,在预测出的两个所述组的所述外显子号所在位置处交界处互补后的密码子互补状态为三联密码子时,预测融合蛋白的融合处的阅读框未发生移位。

11.一种DNA重排区域检测设备,其特征在于,包括:

接收部,接收对待测样本的多个测序片段进行双末端测序获得的多对成对的两个读长的双末端测序数据与参考基因组比对得到的比对信息;

获取聚类部,从所述比对信息中获取所有映射距离满足预定映射值对应的映射按预定聚类规则进行聚类得到多个小簇;

合并判断部,将所有所述小簇中的所有所述映射按成对的两个映射对应的两个所述小簇相同的关系分别进行合并得到各个大簇,并分别判断各个所述大簇包括的成对的两个所述映射的对数是否满足预定对数;

特异性判断部,分别判断各个所述对数满足预定对数的所述大簇中的所有所述映射对应的所有所述读长在所述参考基因组上的比对是否满足预定比对特异性条件;

过滤部,分别对满足所述预定比对特异性条件的所述大簇中按对应的所述小簇相同的所有所述映射为一组分别对每组进行预定过滤;

重排判定部,判定两个所述组被预定过滤后都留下的所述大簇中的所有所述映射对应的区域为所述待测样本的一个实际的DNA重排区域在该参考基因组上的映射区域,相应的所述大簇为支持该DNA重排区域的支持大簇。

12. 一种RNA产物预测系统,其特征在于,包括:

DNA重排区域检测设备,用于对待测样本的DNA重排区域进行检测;以及

RNA产物预测设备,用于对检测出的DNA重排区域的RNA产物进行预测,

其中,所述DNA重排区域检测设备完成权利要求5所述的DNA重排区域检测方法,

所述RNA产物预测设备基于所述DNA重排区域的基因重排类型以及相应的支持大簇的详细注释基因结构对DNA重排区域的RNA产物进行预测,包括:

蛋白质变异类型预测部,当所述DNA重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的所述基因的参与重排的部分被注释为基因的是5´端时,预测相应的所述重排区域的RNA产物为蛋白截短,当所述重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的所述基因的参与重排的部分被注释为3´端时,预测相应的所述重排区域的RNA产物为蛋白缺失,当所述DNA重排区域的基因重排类型为基因与基因重排,且两个参与重排的所述基因各自参与重排的部分都被注释到5´端时,预测该两个基因的RNA产物都为蛋白截短,当所述DNA重排区域的类型为基因与基因重排,且两个参与重排的所述基因各自参与重排的部分都被注释到3´端时,预测该两个基因的RNA产物都为蛋白缺失,当所述DNA重排区域的类型为基因与基因重排,且两个参与重排的所述基因中,一个基因参与重排的部分被注释到5´端,另一个基因参与重排的部分被注释3´端时,预测DNA重排区域的RNA产物为该两个所述基因融合得到的融合蛋白;

转录外显子号预测部,当所述DNA重排区域的类型为基因与基因重排或基因内部重排时,当所述支持大簇中的组对应的映射区域在映射方向的最末端被注释到的是内含子时,则根据内含子被剪接掉的一般原理,预测该组被转录后的外显子号,当所述支持大簇中的所述组在所述最末端被注释到的是外显子时,预测该组被转转录的外显子号不变;

融合处阅读框判断部,当预测出所述DNA重排区域为融合蛋白时,在预测出的两个所述组的所述外显子号所在位置处交界处互补后的密码子互补状态为三联密码子时,预测融合蛋白的融合处的阅读框未发生移位。

13. 一种DNA重排区域检测的设备,其特征在于,包括:

用于存储计算机程序指令的存储器;以及

用于执行程序指令的处理器,

其中,当该计算机程序指令被该处理器执行时,使该设备执行权利要求1至9中任一项所述的DNA重排区域检测方法的步骤。

14.一种计算机可读介质,其特征在于:

所述计算机可读介质存储有计算机程序,

其中,所述计算机程序能被处理器执行以实现如权利要求1至9中任一项所述的DNA重排区域检测方法的步骤。

15. 一种RNA产物预测的设备,其特征在于,包括:

用于存储计算机程序指令的存储器;以及

用于执行程序指令的处理器,

其中,当该计算机程序指令被该处理器执行时,使该设备执行权利要求10所述的RNA产物预测方法的步骤。

16.一种计算机可读介质,其特征在于:

所述计算机可读介质存储有计算机程序,

其中,所述计算机程序能被处理器执行以实现如权利要求10所述的RNA产物预测方法的步骤。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1