DNA重排区域及相应RNA产物检测方法、设备以及存储介质与流程

文档序号:14796950发布日期:2018-06-29 19:32阅读:394来源:国知局

本发明属于生物信息领域,具体涉及一种用于检测DNA重排区域的DNA重排区域检测方法和相应的设备以及存储介质,还涉及针对上述确定的DNA重排区域的相应RNA产物进行的RNA检测方法和相应的设备以及存储介质。



背景技术:

二代测序技术(WGS或目标基因探针捕获)检测DNA水平的变异,是临床肿瘤治疗的靶向用药设计和寻找的最常用技术方式。DNA水平的变异形式主要有单碱基突变(single nucleotide polymorphism,简称SNP),插入缺失(insertion and deletion,简称Indel)、重排(rearrangement,由于发生在DNA水平,我们称DNA重排)和拷贝数变异(copy number variation,简称CNV)四大类型,重排对基因功能的影响相对其它DNA变异形式更大。

其中,上述的DNA重排,指通过DNA片段在基因组中位置的变化,即从一个位置变换到另一个位置,从而改变基因的活性或表达量,是基因活性调节的一种方式,而DNA重排转录会形成融合基因(fusion gene)或基因截断(gene truncation),是癌症发生和发展的重要机制之一。因此,检测DNA重排和功能影响预测对于肿瘤治疗的靶向用药设计和寻找,具有非常重要的意义,是必要的一个环节。

DNA重排在染色体水平的别称又叫染色体结构变异(structure variation,简称SV),其包括的类型(简称染色体重排类型)包含大片段重复,缺失,染色体内易位,染色体间易位,倒位这5种形式。

而DNA重排在基因水平的重排,包括的类型(用基因重排类型表示)大致有3类:1)基因间重排:如ALK, RET, ROS1,BRAF等靶向基因与其它基因的DNA重排;2)基因内重排:Oncogene 如EGFR,MET,激酶主结构域duplication的基因内部重排而造成的异常激活;3)基因与基因间区重排:Tumor suppressor gene的基因内部与基因间区(intergenic区域)重排而造成的truncation截断异常失活。从上可以看出,基因重排类型对临床上肿瘤靶向用药指导直接相关。

目前国内外,基于转录本检测融合基因有了多种方法软件:FusionSeq、TopHat-Fusion、deFuse、FusionHunter、FusionMap,SoapFus(CN201180076185.9)等等(第一者);检测染色体结构变异也有相关方法(如 CN201380004734.0)公开(第二者);国外FMI也就指定一些基因或新发现的fusion gene检测进行专利申请保护(第三者)。

但是,因为第一者的检测对象是RNA,第二者检测水平是染色体水平,只能得到断点范围,需要进一步实验来确认断点;而第三者是通过某些指定基因的DNA检测,预测fusion gene机制。三者均未对DNA进行基因水平的全面直接可视化的重排分析,对于临床肿瘤治疗的靶向用药设计和寻找所需的基因重排类型的变异检测的通用需求并不适用。



技术实现要素:

本发明提供一种用于检测DNA重排区域的DNA重排区域检测方法和相应的设备以及存储介质,还涉及针对上述确定的DNA重排区域的相应RNA产物进行的RNA检测方法和相应的设备以及存储介质。

为了实现上述目的,本发明采用了如下技术方案:

本发明提供了一种DNA重排区域检测方法,对待测样本的DNA重排区域进行检测,其特征在于,包括以下步骤:接收对待测样本的多个测序片段进行双末端测序获得的多对成对的两个读长的双末端测序数据与参考基因组比对得到的比对信息;从比对信息中获取所有映射距离满足预定映射值对应的映射按预定聚类规则进行聚类得到多个小簇;将所有小簇中的所有映射按成对的两个映射对应的两个小簇相同的关系分别进行合并得到各个大簇,并分别判断各个大簇包括的成对的两个映射的对数是否满足预定对数;分别判断各个对数满足预定对数的大簇中的所有映射对应的所有读长在参考基因组上的比对是否满足预定比对特异性条件;分别对满足预定比对特异性条件的大簇中按对应的小簇相同的所有映射为一组分别对每组进行预定过滤;判定两个组被预定过滤后都留下的大簇中的所有映射对应的区域为待测样本的一个实际的DNA重排区域在该参考基因组上的映射区域,相应的大簇为支持该DNA重排区域的支持大簇。

本发明提供的DNA重排区域检测方法,还具有这样的特征,还包括以下步骤:分别对支持大簇中的各个成对的两个映射逐一判断是否满足都没有断点的第一断点条件、都有断点的第二断点条件或者只有一个有断点的第三断点条件中的一个条件;设定满足所第一断点条件的成对的两个映射为第一类映射;设定满足第二断点条件的成对的两个映射为第二类映射;设定满足第三断点条件的成对的两个映射为第三类映射;对至少包括两类映射的支持大簇的不同类对应的映射区域之间确定重合的区域得到与该支持大簇相应的重合区域。

本发明提供的DNA重排区域检测方法,还具有这样的特征,还包括以下步骤:判定各个DNA重排区域的染色体重排类型,具体包括:根据支持大簇中的两组映射之间的方向和染色体位置判断染色体重排类型是否为染色体内的缺失、重复、倒位或染色体间的易位中的一种。

本发明提供的DNA重排区域检测方法,还具有这样的特征,还包括以下步骤:基于参考转录本,结合支持大簇中含有的各个映射相应的映射方向以及相应的映射所在位置对各个映射区域进行注释得到相应的各个DNA重排区域的详细基因结构。

本发明提供的DNA重排区域检测方法,还具有这样的特征,还包括以下步骤:判定各个DNA重排区域的基因重排类型,具体包括:根据映射区域被注释到的详细基因结构,判定相应的DNA重排区域的基因重排类型是否为基因与基因重排、基因内重排或基因与基因间区重排中的一种。

本发明提供的DNA重排区域检测方法,还具有这样的特征,其中,预定intersize为0bp或大于等于2000bp;预定聚类规则为:按用于聚类的各个映射对应的各个映射位置之间的间距满足预定聚类距离的聚为一个小簇,预定聚类距离为小于等于500-1000bp,预定对数为大于等于6对,预定比对特异性条件为:用于判断预定比对特异性条件的所有读长在参考基因组上的所有映射按照合并规则进行合并得到的合并区域的个数满足预定区域数量,合并规则为:按用于合并的各个映射对应的各个映射位置之间的间距满足预定合并距离的合并为一个合并区域,预定合并距离为小于等于500-1000bp,预定区域数量为小于等于6。

本发明提供的DNA重排区域检测方法,还具有这样的特征,其中,预定过滤包括以下步骤:判断组包括的所有映射中是否含有存在断点的映射;当判断不含有存在断点的映射时,判断组中是否存在相应的读长在参考基因组上的所有映射中存在有断点的映射,当判断存在时,判定相应的组留下,当判断为含有存在断点的映射时,判断相应的组中是否存在满足预定一致性条件的断点,当判断存在满足预定一致性条件的断点时,判定满足预定一致性条件的断点为可靠断点,并判定相应的组留下,预定一致性条件为:各个具有同一断点的所有映射相互之间以该同一个断点为起点存在相同的不能连续比对上的系列,且这些映射的数量大于等于2。

本发明提供的DNA重排区域检测方法,还具有这样的特征,当待测样本为非肿瘤组织样本时,预定过滤还包括以下步骤:判断留下的组是否满足各个可靠断点附近预定碱基范围内对应的相应的映射具有连续相同的碱基数量均小于预定碱基个数的映射的第一条件;判断留下的组是否满足所有存在大于第一预定断点个数的可靠断点的映射的数量占该组中的所有映射的总数的比例小于预定比例的第二条件;判断留下的组是否满足所有具有小于等于预定总数的映射对应的同一可靠断点的个数小于第二预定断点个数的第三条件;判定同时满足第一条件、第二条件或第三条件中的一个或多个的组留下,预定碱基范围为以可靠断点为中点左右扩展20个碱基对应的映射范围,预定碱基个数为20个,预定比例为三分之一,第一预定断点个数为2个,预定总数为2个,第二预定断点个数为10个。

本发明提供的DNA重排区域检测方法,还具有这样的特征,当待测样本为肿瘤组织样本时,以非肿瘤组织为进行对照的对照样本,还接收对对照样本的多个测序片段进行双末端测序获得的多对成对的两个对照读长的双末端测序数据与参考基因组比对得到的至少包括对照读长在参考基因组上的各个对照映射的对照比对信息,预定过滤还包括以下步骤:判断留下的组是否满足各个可靠断点附近预定碱基范围内对应的相应的映射具有连续相同的碱基数量均小于预定碱基个数的映射的第一条件;判断留下的组是否满足所有存在大于第一预定断点个数个的可靠断点的映射的数量占该组中的所有映射的总数的比例小于预定比例的第二条件;判断留下的组是否满足所有具有小于等于预定总数的映射对应的同一可靠断点的个数小于第二预定断点个数的第三条件;判断留下的组是否满足具有可靠断点的所有映射中存在与对照比对信息中分别相同的对照映射的对照断点分别相同的可靠断点的所有映射的数量小于等于预定条数的第四条件,判定同时满足第一条件、第二条件、第三条件或第四条件中的一个或多个的组留下,预定碱基范围为以可靠断点为中点左右扩展20个碱基对应的映射范围,预定碱基个数为20个,预定比例为三分之一,第一预定断点个数为2个,预定总数为2个,第二预定断点个数为10个,预定条数为3-5条。

本发明还提供了一种RNA产物预测方法,其特征在于,包括:DNA重排区域检测,用于对待测样本的DNA重排区域进行检测;RNA产物预测,用于对检测出的DNA重排区域的RNA产物进行预测,其中,DNA重排区域检测采用判定出各个DNA重排区域的基因重排类型上述的DNA重排区域检测方法进行,RNA产物预测基于DNA重排区域的基因重排类型以及相应的支持大簇的详细注释基因结构对DNA重排区域的RNA产物进行预测,包括以下步骤:当DNA重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的基因的参与重排的部分被注释为基因的是5´端时,预测相应的重排区域的RNA产物为蛋白截短,当重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的基因的参与重排的部分被注释为3´端时,预测相应的重排区域的RNA产物为蛋白缺失,当DNA重排区域的基因重排类型为基因与基因重排,且两个参与重排的基因各自参与重排的部分都被注释到5´端时,预测该两个基因的RNA产物都为蛋白截短,当DNA重排区域的类型为基因与基因重排,且两个参与重排的基因各自参与重排的部分都被注释到3´端时,预测该两个基因的RNA产物都为蛋白缺失,当DNA重排区域的类型为基因与基因重排,且两个参与重排的基因中,一个基因参与重排的部分被注释到5´端,另一个基因参与重排的部分被注释3´端时,预测DNA重排区域的RNA产物为该两个基因融合得到的融合蛋白;当DNA重排区域的类型为基因与基因重排或基因内部重排时,当支持大簇中的组对应的映射区域在映射方向的最末端被注释到的是内含子时,则根据内含子被剪接掉的一般原理,预测该组被转录后的外显子号,当支持大簇中的组在最末端被注释到的是外显子时,预测该组被转转录的外显子号不变,当预测出DNA重排区域为融合蛋白时,在预测出的两个组的外显子号所在位置处交界处互补后的密码子互补状态为三联密码子时,预测融合蛋白的融合处的阅读框未发生移位。

本发明还提供了一种DNA重排区域检测设备,其特征在于,包括:接收部,接收对所述待测样本的多个测序片段进行双末端测序获得的多对成对的两个读长的双末端测序数据与所述参考基因组比对得到的比对信息;获取聚类部,从所述比对信息中获取所有所述映射距离满足预定映射值对应的映射按预定聚类规则进行聚类得到多个小簇;合并判断部,将所有所述小簇中的所有所述映射按成对的两个映射对应的两个所述小簇相同的关系分别进行合并得到各个大簇,并分别判断各个所述大簇包括的成对的两个所述映射的对数是否满足预定对数;特异性判断部,分别判断各个所述对数满足预定对数的所述大簇中的所有所述映射对应的所有所述读长在所述参考基因组上的比对是否满足预定比对特异性条件;过滤部,分别对满足所述预定比对特异性条件的所述大簇中按对应的所述小簇相同的所有所述映射为一组分别对每组进行预定过滤;重排判定部,判定两个所述组被预定过滤后都留下的所述大簇中的所有所述映射对应的区域为所述待测样本的一个实际的DNA重排区域在该参考基因组上的映射区域,相应的所述大簇为支持该DNA重排区域的支持大簇。

本发明还提供了一种RNA产物预测系统,其特征在于,包括:DNA重排区域检测设备,用于对待测样本的DNA重排区域进行检测;以及RNA产物预测设备,用于对检测出的DNA重排区域的RNA产物进行预测,其中,DNA重排区域检测设备完成上述的DNA重排区域检测方法,RNA产物预测设备基于DNA重排区域的基因重排类型以及相应的支持大簇的详细注释基因结构对DNA重排区域的RNA产物进行预测,包括:蛋白质变异类型预测部,当DNA重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的基因的参与重排的部分被注释为基因的是5´端时,预测相应的重排区域的RNA产物为蛋白截短,当重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的基因的参与重排的部分被注释为3´端时,预测相应的重排区域的RNA产物为蛋白缺失,当DNA重排区域的基因重排类型为基因与基因重排,且两个参与重排的基因各自参与重排的部分都被注释到5´端时,预测该两个基因的RNA产物都为蛋白截短,当DNA重排区域的类型为基因与基因重排,且两个参与重排的基因各自参与重排的部分都被注释到3´端时,预测该两个基因的RNA产物都为蛋白缺失,当DNA重排区域的类型为基因与基因重排,且两个参与重排的基因中,一个基因参与重排的部分被注释到5´端,另一个基因参与重排的部分被注释3´端时,预测DNA重排区域的RNA产物为该两个基因融合得到的融合蛋白;转录外显子号预测部,当DNA重排区域的类型为基因与基因重排或基因内部重排时,当支持大簇中的组对应的映射区域在映射方向的最末端被注释到的是内含子时,则根据内含子被剪接掉的一般原理,预测该组被转录后的外显子号,当支持大簇中的组在最末端被注释到的是外显子时,预测该组被转转录的外显子号不变;融合处阅读框判断部,当预测出DNA重排区域为融合蛋白时,在预测出的两个组的外显子号所在位置处交界处互补后的密码子互补状态为三联密码子时,预测融合蛋白的融合处的阅读框未发生移位。

本发明还提供了一种DNA重排区域检测的设备,其特征在于,包括:用于存储计算机程序指令的存储器;以及用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行上述的DNA重排区域检测方法的步骤。

本发明还提供了一种计算机可读介质,计算机可读介质存储有计算机程序,其中,计算机程序能被处理器执行以实现上述的DNA重排区域检测方法的步骤。

本发明还提供了一种RNA产物预测的设备,其特征在于,包括:用于存储计算机程序指令的存储器;以及用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行上述的RNA产物预测方法的步骤。

本发明还提供了另外一种计算机可读介质,其特征在于:计算机可读介质存储有计算机程序,其中,计算机程序能被处理器执行以实现上述的RNA产物预测方法的步骤。

发明作用与效果

本发明提供的DNA重排区域及相应RNA产物检测方法、设备以及存储介质,由于DNA重排区域检测方法通过基于待测样本的比对信息对映射距离满足预定映射值的映射进行聚类得到各个小簇,并将各个小簇中的映射按成对的两个映射对应的两个小簇相同的关系进行合并得到各个成对映射达到预定对数的大簇,还对满足预定比对特异性条件的大簇进行预定过滤,就能准确地得到的支持DNA重排区域的含有各个映射的相关信息的支持大簇,由此还能对DNA重排区域的进行准确的注释得到详细基因结构、准确判定得到基因重排类型和染色体重排类型等,从而能对DNA重排区域的RNA产物进行准确地预测,使得整个对RNA产物的预测简单,成本低,效率高,而且准确性好。

附图说明

图1为实施例涉及的RNA产物预测系统的结构框图;

图2为实施例所涉及的DNA重排区域检测设备的结构框图;

图3为实施例所涉及的断点一致性条件示意图;

图4为实施例所涉及的映射类型示意图;

图5为实施例所涉及的染色体重排类型的判定示意图;

图6为实施例所涉及的RNA产物预测设备的结构框图;

图7是实施例涉及的根据intron被剪接掉的一般原理预测转录后exon号的示意图;

图8为实施例所涉及的RNA产物预测系统的整体步骤流程图;

图9为实施例涉及的DNA重排区域检测设备的步骤流程图;

图10为实施例涉及的DNA重排区域检测设备的进行预定过滤的步骤流程图;

图11为实施例涉及的RNA产物预测设备的步骤流程;

图12 为验证例涉及的两种方法的检测结果对比。

具体实施方式

以下结合附图来说明本发明的具体实施方式。

一、比对信息来源

以下实施例中,在进行之前,先对待测样本通过探针捕获得到的各个测序片段进行双末端测序得到双末端数据,该双末端数据包括一对对成对的读长;再将获得的双末端数据比对到参考基因组上得到比对信息。

二、定义或术语

测序片段,通常是将来自目标个体的待测样本经过测序平台适配的文库构建流程构建出来的DNA文库,其组成是一定长度的DNA随机片段;

读长,对测序片段末端测序得到的测序序列;

成对的读长,双末端测序得到的来自同一个测序片段两端的两个测序序列;

映射,指读长在参考基因组上的某个位置的比对区域,为了便于叙述,本发明将一个读长在参考基因组上的一个位置上的比对称为一个映射,由于一个读长有可能与参考基因组上不同位置能进行部分或完全地匹配,也即多位置比对,一个读长在参考基因组上可能有多个映射;

成对的映射,成对的读长分别对应的映射;

映射起点位置,上述映射的起点在参考基因组上所处的位置;

映射终点位置,上述映射的终点在参考基因组上所处的位置;

映射距离(intersize),上述成对的映射起点之间的距离,也即成对的映射的两个映射起点位置之间的距离;

映射方向,指一个上述映射在参考基因组上的方向;

映射位置,上述映射起点在参考基因组上所处的位置;

断点,断点通常是指一个读长上,与参考基因组连续匹配和与参考基因组连续不匹配的交界处碱基所在的位点称为该读长的断点;本发明中,为便于说明,将每个读长的断点用其对应的每个映射的断点表示,本发明中凡是涉及的断点,均为一个映射的断点,也即一个上述映射上,与能与参考基因组连续匹配的碱基相邻的与参考基因组进行连续不匹配的碱基所在位点作为该映射的断点;

同一断点,本发明将断点映射在相同基因组位置上的不同映射的断点统称为同一断点;

详细基因结构:指的是基因结构被精确注释到内含子(intron)、外显子(exon)具体组成结构的基因结构;

融合基因(Fusion gene),是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程,在转录水平也指融合蛋白。

实施例

以下实施例以来自目标个体的待测样本为肿瘤组织样本为例进行说明。另外,需要说明的是,待测样本除了为肿瘤组织样本,也可以是含有肿瘤基因组的其他非组织存在的样本,例如ctDNA或外泌体等。

实施例中涉及的对照样本为非肿瘤组织样本,可以为来自群体或上述目标个体的非肿瘤组织样本或血液样本。所谓非肿瘤组织样本指肿瘤组织以外的组织样本,所谓血液样本指的是血液中提取的白细胞的DNA。

所谓目标个体指的是待进行RNA产物预测的个体,所谓群体指的是众多个体(包括上述目标个体)组成的群体。

图1为实施例涉及的RNA产物预测系统的结构框图。

如图1所示,RNA产物预测系统中包括DNA重排区域检测设备100和RNA产物预测设备200,DNA重排区域检测设备100和RNA产物预测设备200之间通过通信网络300通信连接。

图2为实施例涉及的DNA重排区域检测设备的结构框图。

如图2所示,DNA重排区域检测设备100包括接收部10、获取聚类部11、合并判断部12、特异性判断部13、过滤部14、重排判定部15、断点判断部16、设定部17、重合区域确定部18、染色体重排类型判定部19、注释部20、基因重排类型判定部21、检测侧通信部22、检测侧暂存部23以及检测侧控制部24。

接收部10用于接收对待测样本的双末端测序数据与参考基因组比对得到的比对信息,该比对信息包括读长比对得到的在参考基因组上的映射、该映射的映射方向以及映射位置,还包括成对的映射之间的intersize,进一步地,还包括通过映射的匹配情况找出的各个与不同映射分别对应的断点;另外,由于本实施例中,待测样本为肿瘤组织样本,还需要以对照样本作为对照进行过滤,接收部10还接收对对照样本的多个测序片段进行相同的双末端测序获得的多对成对的两个对照读长的双末端测序数据与参考基因组比对得到的对照比对信息,该对照比对信息至少包括对照读长在参考基因组上的各个对照映射以及与不同对照映射分别对应的不同对照断点的对照比对信息。

获取聚类部11,获取所有intersize满足预定intersize对应的映射按预定聚类规则进行聚类得到多个分别含有多个获取的映射的小簇,且为成对的两个映射分别位于不同的两个小簇中:也就是将intersize满足预定intersize距离的一对对映射按预定距离规则进行聚类。

本实施例中,预定intersize距离可以为0或者大于等于2000b,当为0时,表示成对的两个映射不位于同一染色体,也就是它们的映射位置分别在不同的染色体;当为2000bp时,表示成对的两个映射位于同一染色体,也就是它们的映射位置位于同一个染色体时,预定映射值的范围为大于等于2000bp。

本实施例中,预定聚类规则为按用于聚类的各个映射对应的各个映射位置之间的间距满足预定聚类距离的聚为一个小簇,具体地说,就是将相邻的各个映射之间满足预定聚类距离的聚在一起,这样得到的小簇含有的所有映射都满足这样的关系:一个映射的终点和下一个相邻的映射的起点之间的间距,满足预定聚类距离。最后聚类得到的各个小簇之间满足的位置关系是:一个小簇含有的各个映射对应的映射位置中,位于最后一个的映射对应的映射位置,与相邻的小簇的位于最开始一个的映射对应的映射位置之间,间距满足上述预定聚类距离。并且,本实施例中,各个小簇还满足为成对的两个映射分别位于不同的两个小簇中,也即成对的两个映射不在同一个小簇中。该聚类距离过小,会造成反应同一个DNA重排区域的映射聚不到一起,这样加大了查找存在的DNA重排区域的难度;反之,聚类距离过大,则造成反应不同DNA重排区域的映射区分不开,同样加大了查找存在的DNA重排区域的难度,而且还可能将不同DNA重排区域的映射,认为是反应同一个DNA重排区域,造成结果的偏差或错误。本发明人经过研究发现,预定聚类距离为小于等于500-1000bp时最合适。

合并判断部12先将所有小簇中的所有映射按成对的两个映射对应的两个小簇相同的关系分别进行合并得到各个含有至少一对成对的两个映射的大簇,然后再判断得到的各个大簇包括的成对的两个映射的对数是否满足预定对数。

本实施例中,合并的时候,按成对的映射对应的两个小簇相同的进行合并,比如,如表1所示,本实施例得到的映射总共有4对,各对中的映射被聚类的小簇以及每对对应的两个小簇如表1所示。

从中可以看出,在这些结果中,映射对1和映射对3对应的两个小簇都为簇1和簇2,也即满足成对的映射对应的两个小簇相同的关系,合并得到一个大簇,这里叫做大簇1,该大簇1包括映射11、映射12、映射31和映射32;同样的,映射对4-映射对9也满足这种关系,合并后也得到一个大簇,这里叫做大簇2,该大簇包括映射41、映射42、映射51、映射52、映射61、映射62、映射71、映射72、映射81、映射82、映射91和映射92。

判断的时候,判断得到的大簇里面的成对的映射的对数是否满足预定对数,本实施例中预定对数为大于等于6,比如上述举例的大簇1,里面的的映射对为2对<预定对数6,大簇1不满足预定对数,而大簇2里面的映射对对数大于等于预定对数6,大簇2满足预定对数。

特异性判断部13,用于判断对数满足预定对数的大簇中的所有映射对应的所有读长在参考基因组上的比对是否满足预定比对特异性条件,本实施例中,预定比对特异性条件为:用于判断预定比对特异性条件的所有读长在参考基因组上的所有映射按照合并规则进行合并得到的合并区域的个数满足预定区域数量,这里的“用于判断预定比对特异性条件的所有读长”指的就是“对数满足预定对数的大簇中的所有映射对应的所有读长”。

本实施例中,预定合并规则为:按用于合并的各个映射对应的各个映射位置之间的间距满足预定合并距离的合并为一个合并区域,也就是将相邻的各个映射之间满足预定合并距离的合并在一起为一个合并区域,这样得到的合并区域含有的所有映射都满足这样的关系:一个映射的终点和下一个相邻的映射的起点之间的间距,满足预定合并距离。本实施例中,预定合并距离为小于等于500-1000bp。举例说明如下:

在该例子中,表1中得到的大簇中的各个映射由双末端数据中的不同读长映射得到,而这些读长对应的在参考基因组上的所有映射见

表2所示。

从表2中可见,大簇2中的读长41、读长42、读长51、读长52、读长61、读长62、读长71、读长72、读长81、读长82、读长91以及读长92对应的所有映射为:映射41、映射42、映射51、映射53、映射52、映射54、映射61、映射63、映射62、映射64、映射66、映射71、映射72、映射81、映射83、映射85、映射82、映射84、映射91、映射92以及映射94,将这些映射,按上述的预定合并规则合并,看能得到几个合并区域,比如这里合并后能得到4个合并区域,根据上述知道,如果得到的合并区域的个数满足预定区域数量,就表示该大簇2中的所有映射对应的所有读长在参考基因组上的比对满足上述预定比对特异性条件,也即大簇2满足预定比对特异性条件。本实施例中,预定区域数量为小于等于6,4<6,说明大簇2满足上述的预定比对特异性条件。

理论上,得到的预定区域数量越和大簇中的簇数接近,也即接近2个,表示大簇中的读长比对的效果越好,也即特异性越好,但由于出现重排的时候,也会造成比对的不唯一性,本实施例中将预定区域数量不限定为2个,但是如果限定的数量太多,又会影响后面的处理效率,本实施例中,预定区域数量为小于等于6,这样才不至于对发生漏检重排的问题,同时又能保证处理效率,提高了处理速度。

而且,预定合并距离最好是跟预定聚类距离的大一倍,这样相同基因结构内的不同重排形式能被合并到一起。

过滤部14用于对满足预定比对特异性条件后的大簇中按对应的小簇相同的所有映射为一组分别对每组进行预定过滤,比如上述的大簇2,对应的小簇为簇3和簇4,其中,映射41、映射51、映射61、映射71、映射81以及和映射91对应的小簇相同,均为簇3,而映射42、映射52、映射62、映射72、映射82以及和映射92对应的小簇相同,均为簇4,将映射41、映射51、映射61、映射71、映射81以及和映射91为一组(这里命名为组1)进行过滤,将映射42、映射52、映射62、映射72、映射82以及和映射92为一组(这里命名为组2)进行过滤。

过滤部14包括第一判断单元14a、第二判断单元14b、第三判断单元14c、第四判断单元14d、第五判断单元14e、第六判断单元14f、第七判断单元14g、第一判定单元14h、第二判定单元14i以及第三判定单元14j。

第一判断单元14a用于判断上述组包括的所有映射中是否含有存在断点的映射,比如判断组1中,映射41、映射51、映射61、映射71、映射81以及和映射91这6个映射中,是否有存在断点的映射,比如组1中经判断后发现映射41、映射51、映射61、映射71、映射81都存在断点,说明组1中存在断点,对组2进行同样地判断,比如这里判断发现组2中不存在断点。

当判断不含有断点时,第二判断单元14b判断组中是否存在相应的读长在参考基因组上的所有映射中存在有断点的映射,比如上述组2中不存在断点,那么就看组2中的所有映射对应的读长对应的所有映射,也即表2中的所有映射:映射42、映射52、映射54、映射62、映射64、映射66、映射72、映射82、映射84、映射92以及映射94中,是否有存在有断点的映射,比如这里判断发现映射66和映射94为存在断点的映射,判断组2中存在。

当第二判断单元判断存在时,第一判定单元14h判定相应的组留下,比如上述组2中,判定组2在至此的过滤中留下。

第三判断单元14c,当第一判断单元14a判断为含有存在断点的映射时,判断相应的组中是否存在满足预定一致性条件的断点,比如上述的组1中含有存在断点的映射,则这里继续判定是否存在满足预定一致性条件的断点,也即继续判断映射41、映射51、映射61、映射71、映射81各个的断点是否满足预定一致性条件。

图3为实施例所涉及的断点一致性条件示意图。

本实施例中,预定一致性条件为:各个具有同一断点的所有映射相互之间以该同一个断点为起点存在相同的不能连续比对上的系列,且这些映射的数量大于等于2。比如上述的组1中,映射41、映射51、映射61具有的断点为同一断点,那么以该断点,也即该断点的碱基所在位点为起点,看这几个映射与参考基因组比对时,它们之间是否存在相同的不能连续比对上的系列,满足,表示相应的组1中存在满足预定一致性条件的断点。直观地,又例如图3中,图中各个映射呈纵向排列分别与参考基因组进行比对,灰色部分表示存在同一断点的各个映射能匹配的部分,黑色部分表示不能匹配的部分,在图中,各个映射不能比对的部分存在连续相同的系列,这些映射的同一断点满足一致性条件。

第二判定单元14i,当第三判断单元14c判断相应的组中存在满足预定一致性条件的断点,判定满足预定一致性条件的断点为可靠断点,并判定相应的组留下:比如上述的组1中,映射41、映射51、映射61具有的断点为同一断点,经判断满足一致性条件,则判定这几个映射上的为同一个断点的断点为可靠断点。

第四判断单元14d判断经第二判定单元14i判定留下的组,是否满足各个可靠断点附近预定碱基范围内对应的相应的各个映射分别具有连续相同的碱基数量均小于预定碱基个数的第一条件,也即对于该组中的每个具有可靠断点的映射来说,如果这种映射在其可靠断点附近的预定碱基范围内,具有连续相同的碱基,那么这个相同碱基的数量要小于预定碱基个数,这种映射有几个可靠断点,则就应该对每个可靠断点附近都进行这样的判断。另外,这个连续相同的碱基,指的是同一个碱基,比如都是碱基AAA。本实施例中预定碱基范围为以可靠断点为中点左右扩展20个碱基对应的映射范围,也即在该可靠断点的所在位点为中点,在参考基因组上的位置上,将该位点向左和向右各扩展20个碱基,即得到上述预定碱基范围。另外,本实施例中,预定碱基个数为20个。具体举例如下:

比如上述的组1中,看映射41对应的可靠断点附近左右20个碱基范围内,该映射41在该预定碱基范围内,具有的连续相同的碱基为AAAAAA,总共是6个,判断该数量小于20个预定碱基个数,其他具有可靠断点的映射都分别这样去判断,如果所有可靠断点对应的映射,在可靠断点附近的左右20个碱基范围内,相同连续的碱基数量都小于20个,那么认为该组满足上述第一条件。

第五判断单元14e判断经第二判定单元14i判定留下的组,判断留下的组是否满足所有存在大于第一预定断点个数个的可靠断点的映射的数量占该组中的所有映射的总数的比例小于预定比例的第二条件,也即在该组中,看具有可靠断点的映射上,可靠断点的个数是否大于第一预定断点个数,将可靠断点的个数大于第一预定断点个数的映射的数量进行统计,看这个数量占该组中所有映射的总数量的比例,该比例小于预定比例,则表示该组满足第二条件。本实施例中,第一预定断点个数为2个,预定比例为三分之一。具体举例如下:

比如上述的组1中,具有映射41、映射51、映射61、映射71以、映射81以及映射91共6个,统计发现,映射41、映射51和映射61具有可靠断点,并且映射41的可靠断点的个数是3个,映射51的可靠断点的个数是1个,映射61的可靠断点的个数是2个,可靠断点个数大于第一预定断点个数的映射只有映射41这个,预定比例就为1/6<1/3,组1满足第二条件。

第六判断单元14f判断经第二判定单元14i判定留下的组,是否满足所有具有小于等于预定总数的映射对应的同一可靠断点的个数小于第二预定断点个数的第三条件,也即对于有小于等于预定总数的映射支持的所有同一可靠断点,看这些同一可靠断点的个数,如果个数小于第二预定断点个数,则表示该组满足上述第三条件。本实施例中,预定总数为2个,第二预定断点个数为10个。具体举例如下:

比如上述的组1中,具有映射41、映射51、映射61、映射71、映射81以及映射91共6个,如果映射41、映射51、映射61这3个映射具有或者叫做对应同一可靠断点(同一可靠断点1),也即该3个映射的断点在同一位点,或者说该同一可靠断点1由这3个映射支持,而映射71和映射81这2个映射具有或者叫做对应同一可靠断点(同一可靠断点2),可以看出,在组1中,同一可靠断点为同一可靠断点1和同一可靠断点2,而其中只有支持同一可靠断点2的映射的总数(2)小于等于预定总数2,也即该组1中,只有1个对应的映射的总数小于等于预定总数的同一可靠断点,而1<第二预定断点个数10,所以该组1满足第三条件。

第七判断单元14g判断经第二判定单元14i判定留下的组,是否满足具有可靠断点的所有映射中存在与相应的对照比对信息中分别相同的对照映射的对照断点分别相同的可靠断点的所有映射的数量小于等于预定条数的第四条件:也就是对于所有存在可靠断点的映射,与由对照比对信息中的所有对照映射对比,找出有相同对照映射的所有映射,所谓相同就是指同一个读长比对到同一位置得到的映射,对这些找出来的映射逐一看每个映射上是否存在可靠断点,且存在的可靠断点和相同的对照映射上的对照断点,是不是相同的,也即是不是对应同一个位点,统计是相同的映射的数量,如果数量小于等于预定条数,认为相应的组满足第四条件。本实施例中,预定条数为3-5条,这样能很好地去除跟肿瘤变异无关的重排情况。

第三判定单元14j判定同时满足第一条件、第二条件、第三条件或第四条件中的一个或多个的组留下本实施例中,优先地将能同时满足这四个条件的组留下。

重排判定部15,当两个组被过滤后都留下的大簇,也即两个组经过过滤部14分别过滤后都留下的大簇,判定所有该大簇中的映射对应的区域为待测样本的一个实际的DNA重排区域在该参考基因组上的映射区域,相应的大簇为支持该DNA重排区域的支持大簇。

图4为实施例所涉及的映射类型示意图。

图4中,显示的是支持基因A和基因B之间发生DNA重排的DNA重排区域的支持大簇中,成对映射对应的映射类型的情况。

如图4,断点判断部16用于分别对支持大簇中的各个成对的两个映射逐一判断是否满足都没有断点(Breakpoint,BP)的第一条件、都有断点的第二条件或者只有一个有断点的第三条件中的一个条件,也就是对一对对成对的两个映射的断点进行分别判断,看是不是:两个映射都没有断点,也即两个都完全匹配(Whole Mapping),没有穿过示意图中的断点;还是都有断点(Two BP),也即两个都穿过示意图中的断点;还是一个映射有断点,而另一个映射没有断点,也即一个穿过示意图中的断点,另一个没有(One Partner BP)。

如图4,当断点判断部16判断成对的两个映射满足第一断点条件时,设定部17设定该成对的两个映射为第一类映射(I);当断点判断部16判断成对的两个映射满足第二断点条件时,设定部17设定成对的两个映射为第二类映射(II);当断点判断部16判断成对的两个映射满足第三断点条件时,设定部17设定成对的两个映射为第三类映射(III)。

重合区域确定部18用于对至少包括两类映射的支持大簇的不同类对应的映射区域之间确定重合的区域得到重合区域,比如,当一个支持大簇只包括第一类映射和第二类映射时,看为第一类映射的所有成对的映射对应的所有映射区域,再看第二类映射的所有成对的映射对应的所有映射区域,然后将这两种映射区域之间的相互覆盖的区域作为重合区域,结合表3举例,表3中为得到的支持大簇中的映射对关系以及映射区域:

从表3中可以看出,在5-70和18-85之间找重合,确定的这两类之间的重合区域为18-70。

当支持大簇中不同类的映射之间存在重合区域,表示该大簇支持的DNA重排区域更可靠。

并且,单独拿出该重合区域部分的比对情况,等于是放大了重排的部分,当将这部分可视化时,会更清楚,更利于观察。

图5为实施例所涉及的染色体重排类型的判定示意图。

染色体重排类型判定部19,用于判定确定的DNA重排区域的重排类型,具体地判定为:当支持大簇中的两组映射的映射位置分别位于不同的染色体时,也即一组中的各个映射在一个染色体,而另一个组中的各个映射在另一个染色体时,判定DNA重排区域的染色体重排类型为易位;当支持大簇中的两组映射的映射位置位于相同的染色体时,如图5所示,判定各类成对的两个映射之间的方向相同时对应的DNA重排区域的染色体重排类型为倒位(inversion),判定各类成对的两个映射之间的方向相对时对应的DNA重排区域的染色体重排类型为缺失(deletion),判定各类成对的两个映射之间的方向相背时对应的DNA重排区域的染色体重排类型为重复(duplication)。

由于基因重排类型对临床上肿瘤靶向用药指导直接相关,我们为了可以确定具体的基因重排类型,并能用于预测相应的RNA产物,需要确定DNA重排区域的详细基因结构。

注释部20用于基于参考转录本,结合支持大簇中含有的各个映射相应的映射方向以及相应的映射所在位置对映射区域进行注释得到DNA重排区域的详细基因结构,所谓详细基因结构就是精确到内含子和外显子具体结构的结构。

基因重排类型判定部21用于基于注释得到的详细基因结构,判定DNA重排区域的基因重排类型,具体为:当映射区域被注释到的详细基因结构对应一个基因的内部时,判定相应的DNA重排区域的基因重排类型为基因内重排,当映射区域被注释到的详细基因结构对应的为一个基因的内部和该基因与另外基因之间的间区结合的结构,判定相应的DNA重排区域的基因重排类型为基因与基因间区重排,当映射区域被注释到的详细基因结构对应的为两个基因的内部之间的结合时,判定相应的DNA重排区域的基因重排类型为基因间重排。

另外,根据详细基因结构,对于不同的支持大簇,只要被注释为相同基因结构的,就认为这些支持大簇对应的映射区域是同一基因结构的不同的重排形式,比如,两个支持大簇,经注释后,发现都为EML4-ALK,则这两个大簇对应的映射区域,就是基因结构为EML4-ALK的不同的重排形式,也即是EML4基因与ALK基因在变异的时候由于截短不同组合而成的两种重排形式。

检测侧通信部22将检测得到的各个数据信息发送给RNA产物预测设备200。

检测侧暂存部23对DNA重排区域检测设备100运行接收或产生的相关数据进行暂时存储。

检测侧控制部24包括用于控制接收部10、获取聚类部11、合并判断部12、特异性判断部13、过滤部14、重排判定部15、断点判断部16、设定部17、重合区域确定部18、染色体重排类型判定部19、注释部20、基因重排类型判定部21、检测侧通信部22以及检测侧暂存部23运行的计算机程序。

图6为实施例所涉及的RNA产物预测设备的结构框图。

如图6所示,RNA产物预测设备200用于对DNA重排区域检测设备100确定的DNA重排区域的RNA产物进行预测,包括:预测侧通信部210、蛋白质变异类型预测部211,转录外显子号预测部212、融合处阅读框判断部213、预测侧暂存部214以及预测侧控制部215。

预测侧通信部210接收DNA重排区域检测设备100发送来的各个数据信息:包括DNA重排区域的支持大簇的详细基因结构、支持大簇中的各个映射的方向、类型以及映射位置以及DNA重排区域对应的映射区域等。

蛋白质变异类型预测部211基于基因重排类型以及详细注释基因结构对DNA重排区域转录后的蛋白变异种类进行预测,具体包括:

当所述DNA重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的所述基因的参与重排的部分被注释为基因的是5´端时,预测相应的所述重排区域的RNA产物为蛋白截短,当所述重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的所述基因的参与重排的部分被注释为3´端时,预测相应的所述重排区域的RNA产物为蛋白缺失,当所述DNA重排区域的基因重排类型为基因与基因重排,且两个参与重排的所述基因各自参与重排的部分都被注释到5´端时,预测该两个基因的RNA产物都为蛋白截短,当所述DNA重排区域的类型为基因与基因重排,且两个参与重排的所述基因各自参与重排的部分都被注释到3´端时,预测该两个基因的RNA产物都为蛋白缺失,当所述DNA重排区域的类型为基因与基因重排,且两个参与重排的所述基因中,一个基因参与重排的部分被注释到5´端,另一个基因参与重排的部分被注释3´端时,预测DNA重排区域的RNA产物为该两个所述基因融合得到的融合蛋白,根据基因重排类型,还具体为:

当DNA重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的基因的参与重排的部分被注释为基因的是5´端时,预测相应的重排区域的RNA产物为蛋白截短;

当重排区域的基因重排类型为基因与基因间区重排或基因内部重排时,且参与重排的基因的参与重排的部分被注释为3´端时,预测相应的重排区域的RNA产物为蛋白缺失;

当DNA重排区域的基因重排类型为基因与基因重排,且两个参与重排的基因各自参与重排的部分都被注释到5´端时,预测该两个基因的RNA产物都为蛋白截短;

当DNA重排区域的类型为基因与基因重排,且两个参与重排的基因各自参与重排的部分都被注释到3´端时,预测该两个基因的RNA产物都为蛋白缺失;

当DNA重排区域的类型为基因与基因重排,且两个参与重排的基因中,一个基因参与重排的部分被注释到5´端,另一个基因参与重排的部分被注释3´端时,预测DNA重排区域的RNA产物为该两个基因融合得到的融合蛋白。

图7是实施例涉及的根据intron被剪接掉的一般原理预测转录后exon号的示意图。

当DNA重排区域的类型为基因与基因重排或基因内部重排时,采用转录外显子号预测部212对支持DNA重排区域的大簇中的两个组用于重排的位置对应的结构进行转录后的exon号进行预测,以预测出重排区域参与重排处的转录后对应的exon号,具体包括:

当支持大簇中的组对应的映射区域在映射方向的最末端被注释到的是intron时,则根据intron被剪接掉的一般原理,预测该组被转录后的exon号(如图7所示)。

当支持大簇中的组在最末端被注释到的是exon时,预测该组被转转录的exon号不变。

很多靶向药都是根据变异蛋白的exon改变的情况进行针对性地治疗,根据exon号,可以知道发生DNA重排后转录得到的蛋白,与未发生DNA重排时转录产生的原有蛋白相比,蛋白结构域功能是否发生改变,结构域留下的功能性部分是什么,从而能更好地靶向用药起到指导作用。

融合处阅读框判断部213,当蛋白质变异类型预测部211预测出的DNA重排区域为融合蛋白时,在预测出的两个组的exon号所在位置处交界处的密码子状态为三联密码子时,预测融合蛋白的融合处的阅读框未发生移位。

预测侧暂存部214用于暂时存储RNA产物预测设备200接收或运行产生的数据信息。

预测侧控制部215包括控制预测侧通信部210、蛋白质变异类型预测部211,转录外显子号预测部212、融合处阅读框判断部213以及预测侧暂存部214运行的计算机程序。

本实施例中,RNA产物预测方法与RNA产物预测系统的步骤流程一一对应,DNA重排区域检测方法与DNA重排区域检测设备的步骤流程一一对应,RNA产物预测的步骤与RNA产物预测设备的步骤流程一一对应。

图8为实施例所涉及的RNA产物预测系统的整体步骤流程图。

如图8所示,在本实施例中,RNA产物预测系统的步骤流程包括以下步骤:

步骤S1,基于待测样本的比对信息以及对照样本的比对信息,完成待测样本的DNA重排区域检测,然后进入步骤S2;

步骤S2,基于步骤S1得到的详细基因结构以及DNA重排区域的基因重排类型,对DNA重排区域的RNA产物进行预测。

图9为实施例涉及的DNA重排区域检测设备的步骤流程图。

如图9所示,在本实施例中,DNA重排区域检测设备100的步骤流程包含以下步骤:

步骤S1-1,接收部10接收待测样本的比对信息,并接收对照样本的对照比对信息,然后进入步骤S1-2;

步骤S1-2,获取聚类部11获取所有intersize满足预定intersize对应的映射按预定聚类规则进行聚类得到多个分别含有多个获取的映射的小簇,且为成对的两个映射分别位于不同的两个小簇中,然后进入步骤S1-3;

步骤S1-3,合并判断部12将所有小簇中的所有映射按成对的两个映射对应的两个小簇相同的关系分别进行合并得到各个含有至少一对成对的两个映射的大簇,并分别判断各个大簇包括的成对的两个映射的对数是否满足预定对数,当判断满足时,进入步骤S1-4,当判断不满足时,进入结束;

步骤S1-4,特异性判断部13分别判断对数满足预定对数的大簇中的所有映射对应的所有读长在参考基因组上的比对是否满足预定比对特异性条件,当判断满足时,进入步骤S1-5,当判断不满足时,进入结束;

步骤S1-5,过滤部14分别对满足预定比对特异性条件的大簇中按对应的小簇相同的所有映射为一组分别对每组进行预定过滤,然后进入步骤S1-6;

步骤S1-6,检测侧控制部24判断各个大簇中的两个组经预定过滤后是否都留下,当判断为是时,进入步骤S1-7,当判断为不是时,进入结束;

步骤S1-7,重排判定部15判定相应的大簇中的所有映射对应的区域为待测样本的实际的一个DNA重排区域在该参考基因组上的映射区域,判定相应的大簇为支持该DNA重排区域的支持大簇,然后分别进入步骤S1-8和步骤S1-18;

步骤S1-8,断点判断部16分别对支持大簇中的各个成对的两个映射逐一判断是否满足都没有断点的第一断点条件,当判断为满足时,进入步骤S1-9,当被判断不满足时,进入步骤S1-10;

步骤S1-9,设定部17设定该成对的两个映射为第一类映射,然后进入步骤S1-12;

步骤S1-10,断点判断部16继续判断该成对的两个映射是否满足都有断点的第二断点条件,当判断满足时,进入步骤S1-11,当判断不满足时,进入步骤S1-12;

步骤S1-11,设定部17设定该成对的两个映射为第二类映射,然后进入步骤S1-12;

步骤S1-12,断点判断部16继续判断该成对的两个映射是否满足只有一个断点的第三断点条件,当判断满足时,进入步骤S1-13,当判断不满足时,进入步骤S1-14;

步骤S1-13,设定部17设定该成对的两个映射为第三类映射,然后进入步骤S1-14;

步骤S1-14,检测侧控制部24判断各个支持大簇中所有成对的映射是否都被判断完成,当判断为是时,进入步骤S1-15,当判断为不是时,返回步骤S1-8;

步骤S1-15,检测侧控制部24对各个支持大簇分别判断是否至少有两类映射,当一个支持大簇被判断为是时,进入步骤S1-16,当一个支持大簇判断为不是时,进入步骤S1-17;

步骤S1-16,重合区域确定部18对至少包括两类映射的支持大簇的不同类对应的映射区域之间确定重合的区域得到与该各个支持大簇分别对应的各个重合区域,然后进入步骤S1-17;

步骤S1-17,染色体重排类型判定部19根据各个支持大簇中每个小组中映射的映射位置和映射方向判定相应的各个DNA重排区域的染色体重排类型,然后进入结束;

步骤S1-18,注释部20基于参考转录本,结合各个支持大簇中含有的各个映射相应的映射方向以及相应的映射所在位置对各个映射区域进行注释得到DNA重排区域的详细基因结构,然后进入步骤S1-19;

步骤S1-19,基因重排类型判定部21基于注释得到的详细基因结构判定各个DNA重排区域的基因重排类型,然后进入步骤S1-20;

步骤S1-20,将对DNA重排区域的检测得到的相关数据信息通过检测侧通信部22发送给RNA产物预测设备200,然后进入结束。

图10为实施例涉及的DNA重排区域检测设备的进行预定过滤的步骤流程图。

如图10所示,本实施例的DNA重排区域检测设备对每组进行预定过滤的步骤(S1-5)流程具体包括以下步骤:

步骤S1-5-1,第一判断单元14a满足预定比对特异性条件后的一个大簇中的各个组逐一判断包括的所有映射中是否含有存在断点的映射,当判断不含有时,进入步骤S1-5-2,当判断含有时,进入步骤S1-5-4;

步骤S1-5-2,第二判断单元14b判断该组中是否存在相应的读长在参考基因组上的所有映射中存在有断点的映射,当判断存在时,进入步骤S1-5-3,当判断不存在时,进入结束;

步骤S1-5-3,第一判定单元14h判定相应的组留下,然后进入步骤S1-5-12;

步骤S1-5-4,第三判断单元14c判断相应的组中是否存在满足预定一致性条件的断点,当判断为存在时,进入步骤S1-5-5,当判断为不存在时,进入结束;

步骤S1-5-5,第二判定单元14i判定满足预定一致性条件的断点为可靠断点,并判定相应的组留下,然后分别进入步骤S1-5-6、S1-5-7、S1-5-8、S1-5-9;

步骤S1-5-6,第四判断单元14d判断经第二判定单元14i判定留下的组是否满足第一条件,当判断为满足时,进入步骤S1-1-5-10,当判断为不满足时,进入步骤S1-1-5-10;

步骤S1-5-7,第五判断单元14e判断经第二判定单元14i判定留下的组是否满足第二条件,当判断为满足时,进入步骤S1-1-5-10,当判断为不满足时,进入步骤S1-1-5-10;

步骤S1-5-8,第六判断单元14f判断经第二判定单元14i判定留下的组是否满足第三条件,当判断为满足时,进入步骤S1-1-5-10,当判断为不满足时,进入步骤S1-1-5-10;

步骤S1-5-9,第七判断单元14g判断经第二判定单元14i判定留下的组是否满足第四条件,当判断为满足时,进入步骤S1-1-5-10,当判断为不满足时,进入步骤S1-1-5-10;

步骤S1-5-10,检测侧控制部24判断第二判定单元14i判定留下的组是否同时满足第一条件、第二条件或第三条件中的一个或多个,当满足时,进入步骤S1-5-11,当不满足时,进入结束;

步骤S1-5-11,第三判定单元14j判定同时满足第一条件、第二条件、第三条件或第四条件中的一个或多个的组留下,本实施例中,优先地将能同时满足这四个条件的组留下,然后进入步骤S1-5-12;

步骤S1-1-5-12,检测侧控制部24判断大簇中是否还存在未进行预定过滤的组,当判断存在时,返回步骤S1-5-1,当判断不存在时,进入结束。

图11为实施例涉及的RNA产物预测设备的步骤流程图。

如图11所示,本实施例中,RNA产物预测设备200的步骤流程包括以下步骤:

步骤S2-1,预测侧通信部210通过通信网络300接收DNA重排区域检测设备100发送来的与DNA重排区域相关的数据信息,然后进入步骤S2-2;

步骤S2-2,蛋白质变异类型预测部211基于上述数据信息中的基因重排类型以及详细注释基因结构对DNA重排区域转录后的蛋白变异种类进行预测,然后进入步骤S2-3;

步骤S2-3,转录外显子号预测部212对支持DNA重排区域的大簇中的两个组用于重排的位置对应的结构进行转录后的exon号进行预测,以预测出重排区域参与重排处(重排交界处)的转录后对应的exon号,然后进入步骤S2-4;

步骤S2-4,在预测出的两个组的exon号所在位置处交界处(重排交界处/融合交界处)的密码子互补状态为三联密码子时,预测融合蛋白的融合处的阅读框未发生移位。

验证例

本验证例以肺腺癌FFPE待测样本(117J3141D1M1)为例,EGFR-KDD,对其采用两种方法进行RNA产物的检测:

方法一、采用本发明的方法进行DNA重排区域的检测,并进行RNA产物的预测;

方法二、直接采用RNA对其直接检测RNA产物。

以下将两种方法的结果可视化展现出来,以进行直观对比。

图12 为验证例涉及的两种方法的检测结果对比。

如图12所示,图中上面一排为方法一得到的结果,下面一排为方法二得到的结果。上面一排中,左右各为支持大簇中的一个组,图中显示的各个有箭头方向的为映射。图中底端的每栏中出现的例如ASPSCR1:NM_024083:exon7的英文分别表示:基因名:转录本号:外显子或内含子号。

通过本发明提供的DNA重排区域检测方法检测出支持大簇以及支持大簇中各个映射的映射方向、映射位置等,判定该待测样本的DNA重排区域为基因与基因之间的重排,并给出具体的基因结构,而且结合参考转录本等,预测该重排的RNA产物为融合蛋白,进一步能预测出具体exon号,以及阅读框未发送移位。

而从图12也可以看出,方法一得到的结果,与方法二得到的结果完全吻合。

实施例作用与效果

本实施例提供的DNA重排区域及相应RNA产物检测方法、设备以及存储介质,由于DNA重排区域检测方法通过基于待测样本的比对信息对映射距离满足预定映射值的映射进行聚类得到各个小簇,并将各个小簇中的映射按成对的两个映射对应的两个小簇相同的关系进行合并得到各个成对映射达到预定对数的大簇,还对满足预定比对特异性条件的大簇进行预定过滤,就能准确地得到的支持DNA重排区域的含有各个映射的相关信息的支持大簇,由此还能对DNA重排区域的进行准确的注释得到详细基因结构、准确判定得到基因重排类型和染色体重排类型等,从而能对DNA重排区域的RNA产物进行准确地预测,使得整个对RNA产物的预测简单,成本低,效率高,而且准确性好。

另外,对本实施例得到的支持大簇基于参考基因组以及参考转录组进行可视化,能直观地展现出其中的各个映射的方向、映射位置、对应的基因结构等,从而能直观地判断出DNA重排区域的重排形式的种类数、重排类型,并能直观地预测RNA产物。

另外,相应的,本发明还公开了一种DNA重排区域检测的设备,包括:用于存储计算机程序指令的存储器;以及用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行实施例中的DNA重排区域检测设备运行的方法的步骤。技术部分的具体内容可参见本文上述实施例,在此不再赘述。

相应的,本发明还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述DNA重排区域检测设备运行的方法的步骤。具体内容可参见实施例,在此不再赘述。

另外,相应的,本发明还公开了一种RNA产物预测的设备,包括:用于存储计算机程序指令的存储器;以及用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行实施例中的RNA产物预测系统运行的方法的步骤。技术部分的具体内容可参见本文上述实施例,在此不再赘述。

相应的,本发明还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述RNA产物预测系统运行的方法的步骤。具体内容可参见实施例,在此不再赘述。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1