本发明涉及基因融合检测领域,尤其涉及一种用于检测FFPE样本基因融合的装置及方法。
背景技术:
福尔马林固定石蜡包埋(Formalin-fixed and Paraffin-embedded,FFPE)方法制备的组织标本称为福尔马林固定石蜡包埋组织样本,简称FFPE样本。FFPE样本能够长时间保存,其常用于临床病理检验、肿瘤基因检测和医学科学研究,是一个可靠的分子生物学研究的材料来源。
在世界范围内,大约有数十亿份组织样品保存在医院或者组织样品库中。其中绝大多数是FFPE样本。FFPE样本通常代表了珍贵且来源广泛的生物医学研究材料,数量巨大的归档FFPE样本为回顾性研究、阐明疾病机制、发现治疗靶标和指示预后等方面提供了宝贵的资源。特别是,有大量的肿瘤组织切片被以FFPE样本的形式保存。
融合基因是一类在临床上非常重要的染色体结构变异,在癌症发生发展过程中起着关键的作用。精准的融合基因检测结果可以为临床抗癌靶点用药治疗和预后评估提供参考依据。
传统上用于检测融合基因的检测技术主要基于遗传学方法,如FISH。然而,相对较低的分辨率和通量限制了该种方法在复杂的上皮组织癌的检测中的应用。
随着二代测序技术的发展,涌现了大量用于检测融合基因的检测方法。基因融合检测方法中,断点的确认直接影响到检测结果的判定。CREST是当前检测Fusion gene的主流算法之一,该算法利用组装算法实现两次组装,从而排除假阳性,因此其主要优点是假阳性低,但同时由于需要进行两次组装,导致存在检测速度慢、资源要求高、需要进行组装等缺点;同时,组装效果还会受到覆盖度、插入片段长度的影响。FFPE样本因其存在高降解因素,导致片段长度较短,覆盖度降低,对组装片段的长度有较大影响,从而影响融合检测结果。因此,如何对FFPE样本的融合基因进行检测成为本技术领域亟待解决的问题。
技术实现要素:
本发明所要解决的技术问题
现有技术算法由于需要进行两次组装和三次比对,导致存在检测速度慢、资源要求高等不足之处,同时由于FFPE样本的组装序列均较短且覆盖度较低,对于重复序列的组装存在一定的不确定性,可能会导致检测结果错误。
鉴于上述现有技术中存在的问题,本发明的目的在于提供一种用于检测基因融合的装置及方法,其具有检测速度快、资源要求低、稳定性高的优点。
与现有技术算法相比,本发明的检测装置充分利用了PE测序下机测序片段(reads)的信息,减少了比对次数,只需要两次比对,而且不需要组装,提高了检测的稳定性。
即,本发明包括:
一种用于检测FFPE样本基因融合的装置,其包括以下模块:
测序数据获取模块,用于获取FFPE样本的测序数据;优选地,所述测序数据是采用双端测序(Paired-end Sequencing,PE测序)方法获得的测序数据;
比对模块:其与所述测序数据获取模块相连接,用于将获取的测序数据与参考序列进行比对,获取比对结果。所述比对结果包括测序片段在基因中对应的位置信息。所述位置信息包括软剪切信息和成功比对信息。所述测序片段中带有软剪切信息的部分为所述测序片段的软剪切部,所述测序片段中带有成功比对信息的部分为所述测序片段的成功比对部。优选地,该模块可以利用bwa软件,查找测序片段在基因中对应的位置,并形成bam格式文件;优选地,该bam文件中,包括每条测序片段的描述信息(qname),序列信息(seq),比对位置(POS),位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);
再比对模块:其与所述比对模块相连接,用于将带有软剪切信息的测序片段与参考基因组再次比对,获取再比对结果;
真实融合断点判断模块:其与所述再比对模块相连接,用于判断所述测序片段的融合断点;以及
输出模块:其与所述真实融合断点判断模块相连接,用于输出基因融合检测结果,例如,基因融合断点位置(如left_pos,right_pos),染色体编号(如left_chr,right_chr),支持度(如sup)等。
优选地,所述再比对模块例如可以包括以下子模块:
长度过滤子模块:其与所述比对模块相连接,用于过滤去除含有软剪切(soft-clipping)信息的测序片段中长度小于一定值的测序片段;优选地,所述一定值可以是例如15~30bp,优选20~25bp。
断点判断子模块:其与所述长度过滤子模块相连接,用于根据所述长度过滤子模块的结果数据,将测序片段中带有软剪切信息的部分与带有正常比对信息的部分的结合处作为断点;
区分子模块:其与所述断点判断子模块相连接,用于将所述带有软剪切信息的部分和所述带有正常比对信息的部分在断点处分开,并将这两部分的序列信息分别保存至两个文件(例如fastq文件)中;
再比对子模块:其与所述区分子模块相连接,用于对所述分别保存了序列信息的两个文件与参考序列再次进行比对,获取再比对结果;优选地,所述再比对结果包括下述信息:每条测序片段的描述信息(qname)、序列信息(seq)、比对位置(POS)、位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen)。优选地,例如可以利用bwa软件对上述两个fastq文件,再次进行比对,形成bam格式文件。所述bam格式文件包含每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen)。
优选地,所述真实融合断点判断模块可以包括下述子模块:过滤子模块:其与所述再比对子模块相连接,用于根据位标识(flag)值过滤去除未成功比对(unmapped)的测序片段以及低比对质量值(MAPQ)的测序片段;
断点信息获取子模块:其与所述过滤子模块相连接,用于查找具有相同片段描述信息(qname)的测序片段,并获取断点信息;优选地,断点信息包括:(1)Left/right_chr,断点左/右侧序列的染色体编号;(2)left/right_pos,断点左/右侧首个碱基的比对位置;(3)left/right_seq,断点左/右侧碱基的序列;(4)sup,断点支持度,支持该断点的测序片段个数。
融合断点筛选子模块:其与所述断点信息获取子模块相连接,用于在断点信息中筛选融合断点;
融合断点初次合并子模块:其与所述融合断点筛选子模块相连接,用于将具有相同的断点信息的融合断点合并为一个真实融合断点,并将具有相同断点信息的融合断点个数作为真实融合断点的支持度。其中,相同的断点信息是指left_chr、left_pos、right_chr和right_pos均相同。
融合断点再次合并子模块:其与所述断点初次合并子模块相连接,用于将left_chr和right_chr相同,right_pos或left_pos相差一定值(例如3bp)以内的融合断点合并为一个真实融合断点。
优选地,所述断点信息包括:
left_chr:断点左侧序列的染色体编号,read1对应的参考序列编号。
left_pos:断点左侧首个碱基的比对位置,read1对应的比对位置加上read1的序列长度。
left_seq:断点左侧碱基的序列。
right_chr:断点右侧序列的染色体编号,read2对应的参考序列编号。
right_pos:断点右侧首个碱基的比对位置,read2对应的比对位置加上read2的序列长度。
right_seq:断点右侧碱基的序列。
sup:断点支持度,支持该断点的测序片段的个数,默认为1。
此外,断点信息还可以包括,ort:根据测序片段中片段描述信息中的比对结果模式判断所得,“+”表示clean测序片段中断点右侧发生软剪切,“-”表示clean测序片段中断点左侧发生软剪切。
优选地,所述融合断点筛选子模块包括如下元件:
断点质量过滤元件:用于过滤低质量断点,若存在断点A,A中sup个数大于一定值(例如5),且left_seq和right_seq中比对质量值均大于一定值(例如30),且错配率均小于一定值(例如0.05)或/和断点支持度/断点右侧或左侧位置深度大于一定值(例如0.1),则该断点A为融合断点。
相同断点合并元件:用于合并相同断点,若存在断点A和B,A中left_chr等于B中right_chr,A中right_chr等于B中left_chr,A中left_pos等于B中right_pos,A中right_pos等于B中left_pos,则将断点A和B合并为一个融合断点;
优选地,所述融合断点再次合并子模块根据上述融合断点信息,若存在融合断点A中right_pos与融合断点B中right_pos小于一定值(例如5),且融合断点A中left_pos与融合断点B中left_pos小于一定值(例如5),则将此融合断点A和融合断点B合并为一个真实融合断点。从而最终得到基因融合(gene fusion)检测结果。
此外,本发明还包括:
一种用于检测FFPE样本基因融合的方法,其包括以下步骤:
测序数据获取步骤,获取FFPE样本的测序数据;优选地,所述测序数据是采用双端测序(Paired-end Sequencing,PE测序)方法获得的测序数据;
比对步骤:将获取的测序数据与参考序列进行比对,获取比对结果。所述比对结果包括测序片段在基因中对应的位置信息。所述位置信息包括软剪切信息和成功比对信息。所述测序片段中带有软剪切信息的部分为所述测序片段的软剪切部,所述测序片段中带有成功比对信息的部分为所述测序片段的成功比对部。优选地,该模块可以利用bwa软件,查找测序片段在基因中对应的位置,并形成bam格式文件;优选地,该bam文件中,包括每条测序片段的描述信息(qname),序列信息(seq),比对位置(POS),位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);
再比对步骤:将带有软剪切信息的测序片段与参考基因组再次比对,获取再比对结果;
真实融合断点判断步骤:判断所述测序片段的融合断点;以及
输出步骤:输出基因融合检测结果,例如,断点位置(如left_pos,right_pos),染色体编号(如left_chr,right_chr),支持度(如sup)等。
优选地,所述再比对步骤例如可以包括以下子步骤:
长度过滤子步骤:过滤去除含有软剪切(soft-clipping)信息的测序片段中长度小于一定值的测序片段;优选地,所述一定值可以是例如15~30bp,优选20~25bp。
断点判断子步骤:根据所述长度过滤子模块的结果数据,将测序片段中带有软剪切信息的部分与带有正常比对信息的部分的结合处作为断点;
区分子步骤:将所述带有软剪切信息的部分和所述带有正常比对信息的部分在断点处分开,并将这两部分的序列信息分别保存至两个文件(例如fastq文件)中;
再比对子步骤:对所述分别保存了序列信息的两个文件与参考序列再次进行比对,获取再比对结果;优选地,所述再比对结果包括下述信息:每条测序片段的描述信息(qname)、序列信息(seq)、比对位置(POS)、位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen)。优选地,例如可以利用bwa软件对上述两个fastq文件,再次进行比对,形成bam格式文件。所述bam格式文件包含每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen)。
优选地,所述真实融合断点判断步骤可以包括下述子步骤:过滤子步骤:根据位标识(flag)值过滤去除未成功比对(unmapped)的测序片段以及低比对质量值(MAPQ)的测序片段;
断点信息获取子步骤:查找具有相同片段描述信息(qname)的测序片段,并获取断点信息;优选地,断点信息包括:(1)Left/right_chr,断点左/右侧序列的染色体编号;(2)left/right_pos,断点左/右侧首个碱基的比对位置;(3)left/right_seq,断点左/右侧碱基的序列;(4)sup,断点支持度,支持该断点的测序片段个数。
融合断点筛选子步骤:在断点信息中筛选融合断点;
融合断点初次合并子步骤:将具有相同的断点信息的融合断点合并为一个真实融合断点,并将具有相同断点信息的融合断点个数作为真实融合断点的支持度。其中,相同的断点信息是指left_chr、left_pos、right_chr和right_pos均相同。
融合断点再次合并子步骤:将left_chr和right_chr相同,right_pos或left_pos相差一定值(例如3bp)以内的融合断点合并为一个真实融合断点。
优选地,所述断点信息包括:
left_chr:断点左侧序列的染色体编号,read1对应的参考序列编号。
left_pos:断点左侧首个碱基的比对位置,read1对应的比对位置加上read1的序列长度。
left_seq:断点左侧碱基的序列。
right_chr:断点右侧序列的染色体编号,read2对应的参考序列编号。
right_pos:断点右侧首个碱基的比对位置,read2对应的比对位置加上read2的序列长度。
right_seq:断点右侧碱基的序列。
sup:断点支持度,支持该断点的测序片段的个数,默认为1。
优选地,所述断点筛选子模块包括如下步骤:
若存在断点A,A中sup个数大于一定值(例如5),且left_seq和right_seq中比对质量值均大于一定值(例如30),且错配率均小于一定值(例如0.05)或/和断点支持度/断点右侧或左侧位置深度大于一定值(例如0.1),则判断该断点A为融合断点。
若存在断点A和B,A中left_chr等于B中right_chr,A中right_chr等于B中left_chr,A中left_pos等于B中right_pos,A中right_pos等于B中left_pos,则将断点A和B合并为一个融合断点;
优选地,所述融合断点再次合并子步骤根据上述融合断点信息,若存在融合断点A中right_pos与融合断点B中right_pos小于一定值(例如5),且融合断点A中left_pos与融合断点B中left_pos小于一定值(例如5),则将此融合断点A和融合断点B合并为一个真实融合断点,从而最终得到基因融合(gene fusion)检测结果。
根据本发明,能够提供一种检测速度快、资源要求低、稳定性高的用于FFPE样本检测基因融合的装置及方法。现有算法的第二次和第三次比对过程中,每次只比对一条序列,长时间占用系统资源。与现有算法相比,本发明发生算法充分利用了PE测序的优势,减少比对次数仅采用两次比对。第一次比对时即过滤得到所有可能发生融合的片段(含有软剪切信息的测序片段);第二次比对是同时对所有序列进行比对,提高了系统资源的利用率。此外,本发明算法不需要对序列进行组装,没有组装导致的不稳定性,从而实现了对FFPE样本的基因融合检测。
附图说明
图1是实施例1的用于检测FFPE样本基因融合的装置的示意图。
图2现有技术的用于检测基因融合的装置的一例的示意图。
发明的具体实施方式
本说明书中提及的科技术语具有与本领域技术人员通常理解的含义相同的含义,如有冲突以本说明书中的定义为准。
一般而言,本说明书中采用的术语具有如下含义。
参考序列(Refseq):物种参考标准基因组序列。
融合基因(Fusion gene):是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。其有可能是染色体易位、中间缺失或染色体导致所致的结果。
Reads:基因组或转录组序列片段。
PE测序:双端测序,一种测序方法。
read1/2:PE测序下机数据中,read1是第一轮测试得到的碱基序列,read2是第二轮测试得到的碱基序列。
bwa:一种比对方法软件,用于查找reads所在Refseq中的位置,最终可得到bam格式文件。
adapter序列:测序中DNA片段两侧的接头序列。
断点(breakpoint):融合基因中两个基因序列相互连接的点。
soft-clipping reads:软剪切序列片段,在reads进行比对后,若存在部分序列比对到Refseq某位置,另一部分比对到Refseq另一位置或不能比对到Refseq,则该reads被称为soft-clipping reads。
flag:bam格式文件中,用于描述序列比对模式、方向等信息的一个值
cigar:简要比对信息表达式,其以参考序列为基础,使用数据加字母表示比对结果。
unmapped reads:指reads未比对到Refseq中某一位置。
duplication:重复序列,指由PCR扩增的序列。
片段描述信息:Qname,比对片段(template)的描述信息。
错配率:在比对过程中,可以容许reads与Refseq存在一定的差异,差异值与reads长度之比对错配率。
比对质量值:表示比对到错误位置的可能性,值越高表示可能性越低。
实施例
以下给出实施例,对本发明进行更具体的说明,但本发明不限于这些实施例。
实施例1 本发明的用于检测FFPE样本基因融合的装置
采用本发明的检测FFPE样本基因融合的装置对一例女性肺癌患者的组织FFPE样本的基因融合情况进行检测。
采用本发明的FFPE样本拷贝数变异检测装置对一例女性肺腺癌患者的组织FFPE样本的基因融合情况进行检测。
1.1提取FFPE样本的DNA
采用GeneRead DNA FFPE Kit(QIAGEN公司),按照手册说明进行提取操作,得到FFPE样本DNA。
1.2样本打断
使用Biorupter打断仪器进行打断,设定打断条件30个循环,30s ON/30s OFF,将FFPE样本DNA打断成200bp左右的片段,得到打断后的DNA片段。
1.3末端修复(End Repair)
(1)预先从-20℃保存的试剂盒中取出所需试剂,单个样本配制量参见表1。
表1
(2)末端修复反应:加入DNA样本后将1.5mL离心管置于Thermomixer中20℃温浴30分钟。反应结束后使用1.8×核酸纯化磁珠回收纯化反应体系中的DNA,溶于32μLEB。
1.4末端加“A”(A-Tailing)
(1)预先从-20℃保存的试剂盒中取出所需试剂,单个样本配制量参见表2:
表2
(2)末端加“A”反应:加入32μL上一步纯化回收的DNA后将1.5mL离心管置于Thermomixer中37℃温浴30分钟。使用1.8×核酸纯化磁珠回收纯化反应体系中的DNA,溶于18μL EB中。
1.5接头的连接(Adapter Ligation)
(1)预先从-20℃保存的试剂盒中取出所需试剂,单个样本配制量参见表3:
表3
(2)接头的连接反应:加入18μL上一步纯化回收的DNA后将样本管置于Thermomixer中20℃温浴15分钟。使用1.8×核酸纯化磁珠回收纯化反应体系中的DNA,溶于30μL的EB中。
1.6PCR反应
(1)从-20℃保存的试剂盒中取出所需试剂,2mL的PCR管中配制PCR反应体系:
表4
(2)设定PCR程序,PCR反应的程序设定如下:
反应结束及时将样品取出放入4℃冰箱保存并按要求退出或关闭仪器。
(3)用0.9×核酸纯化磁珠回收纯化反应体系中的DNA,纯化后的文库溶于20μL的ddH2O中。对文库进行Qubit检测,将文库送检安捷伦2100。
1.7肺癌目标区域捕获芯片文库杂交
(1)本实验中,用于提供杂交捕获反应的离子环境的缓冲液、以及用于洗脱物理吸附或非特异性杂交的清洗液、漂洗液均可从商业途径获得。
(2)准备杂交文库:将待杂交的DNA文库在冰上融化,取总质量1μg(在后续操作步骤中将此DNA文库称为样本文库)。
(3)制备Ann引物Pool:将样本文库Index对应的标签引物In1(100μM)及公共引物(1000μM)各取1000pmol混合,(在后续操作步骤中将此混合物称为Ann引物pool)。
(4)杂交样本的制备:向1.5mL EP管中加入5μL COT DNA(Human Cot-1DNA,Life technologies,1mg/mL)、1μg样本文库、Ann引物pool。用封口膜密封制备好的杂交样本EP管,将盛有样本文库pool/COT DNA/Ann引物pool的EP管置于真空装置中直到完全干燥。
(5)杂交样本的溶液:向样本文库pool/COT DNA/Ann引物pool的干粉中加入:
7.5μL 2×杂交缓冲液
3μL 杂交组分A
(6)充分混匀后将上述混合物置于预先准备好的95℃加热模块上变性10分钟。
(7)将上述混合物转移至含有4.5μL捕获芯片的0.2mL平盖PCR管中。充分涡旋震荡3秒,将杂交样品混合物置于47℃加热模块上16小时。加热模块的热盖温度需设定为57℃,杂交后产物需进行后续洗脱回收操作。
(8)将10×清洗液(Ⅰ,Ⅱ与Ⅲ)、10×漂洗液和2.5×磁珠清洗液配置成1×工作液。
表5
(9)将下列试剂在47℃加热模块中预热:
400μL 1×漂洗液
100μL 1×清洗液I
1.8制备亲和吸附磁珠
(1)将链霉亲和素磁珠(Dynabeads M-280Streptavidin,以下简称磁珠)在室温下平衡30分钟后,将磁珠充分涡旋混匀15秒。
(2)向1.5mL离心管中分装100μL磁珠,将盛有100μL磁珠的离心管置于磁力架上,约5分钟后小心吸弃上清,加两倍于磁珠初始体积的1×磁珠清洗液,涡旋混匀10秒。将盛有磁珠的离心管放回磁力架,吸附磁珠。待溶液澄清,吸弃上清。重复次步骤,共洗涤两次。
(3)洗涤完毕后吸弃磁珠清洗液,用磁珠初始体积的1×磁珠清洗液涡旋重悬磁珠转入0.2mL的PCR管中。将PCR管置于磁力架上吸附磁珠澄清后吸弃上清。
1.9DNA与亲和吸附磁珠的结合及漂洗
(1)将杂交的样本文库转入盛有亲和吸附磁珠的0.2mL PCR管中,涡旋振荡混匀。
(2)将0.2mL PCR管置于47℃加热模块45分钟,每隔15分钟涡旋混匀一次,使DNA与磁珠结合。
(3)45分钟孵育后,向15μL捕获的DNA样本中加入47℃预热的1×清洗液I 100μL。涡旋混匀10秒。将0.2mL PCR管中的全部组分转入1.5mL离心管中。将1.5mL离心管置于磁力架上吸附磁珠,弃上清。
(4)将1.5mL离心管从磁力架上取下,加入200μL预热47℃的1×漂洗液。吸打混匀10次(需迅速操作,防止试剂、样品温度低于47℃)。混匀后样本置于47℃加热模块上5分钟。重复此步骤,用47℃的1×漂洗液共洗涤两次。将1.5mL的离心管置于磁力架上,吸附磁珠,弃上清。
(5)向上述1.5mL离心管中加入200μL室温的1×清洗液I,涡旋混匀2分钟。将离心管置于磁力架上,吸附磁珠,弃上清。向上述1.5mL离心管中加入200μL室温的1×清洗液Ⅱ,涡旋混匀1分钟。将离心管置于磁力架上,吸附磁珠,弃上清。向上述1.5mL离心管中加入200μL室温的1×清洗液Ⅲ,涡旋混匀30秒。将离心管置于磁力架上,吸附磁珠,弃上清。
(6)1.5mL离心管从磁力架上取下,加入45μL PCR水,溶解洗脱磁珠捕获样本。
1.10捕获DNA的PCR扩增
(1)按下表制备捕获后PCR mix,制备好后涡旋震荡混匀。富集引物F和富集引物R均购自英潍捷基公司。
(2)磁珠吸附DNA PCR的扩增程序设定如下:
(3)杂交捕获DNA PCR产物的回收纯化:用核酸纯化磁珠回收纯化反应体系中的DNA,磁珠使用量为0.9×,纯化后的文库溶于30μL的ddH2O中。
1.11文库定量
对文库进行2100Bio Analyzer(Agilent)/LabChip GX(Caliper)及QPCR检测,记录文库浓度。
1.12文库上机测序
构建好的文库用NextSeq 550AR(PE100)进行测序。
1.13数据处理及分析
采用本发明的检测FFPE样本基因融合的装置对1.12文库上机测序的结果进行处理分析。
本发明的检测FFPE样本基因融合的装置具备:
测序数据获取模块,用于获取使用肺癌目标区域捕获芯片对待检测的肺癌FFPE样本进行捕获测序而获得测序数据。
比对模块:其与所述测序数据获取模块相连接,用于将获取的测序数据与参考序列进行比对,获取比对结果。所述比对结果包括测序片段在参考序列中对应的位置。所述位置信息包括软剪切信息和成功比对信息。所述测序片段中带有软剪切信息的部分为所述测序片段的软剪切部,所述测序片段中带有成功比对信息的部分为所述测序片段的成功比对部。该模块利用bwa软件,查找测序片段在基因中对应的位置,并形成bam格式文件;该bam文件中包括每条测序片段的描述信息(qname),序列信息(seq),比对位置(POS),位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar)、模板长度(Tlen)。
再比对模块:其与所述比对模块相连接,用于将带有软剪切信息的测序片段与参考基因组再次比对,获取再比对结果。
所述再比对模块包括以下子模块:
长度过滤子模块:其与所述比对模块相连接,用于过滤去除含有软剪切(soft-clipping)信息的测序片段中长度小于20bp的测序片段。
断点判断子模块:其与所述长度过滤子模块相连接,用于根据所述长度过滤子模块的结果数据,将测序片段中带有软剪切信息的部分与带有正常比对信息的部分的结合处作为断点。
区分子模块:其与所述断点判断子模块相连接,用于将所述带有软剪切信息的部分和所述带有正常比对信息的部分在断点处分开,并将这两部分的序列信息分别保存至两个fastq文件中。
再比对子模块:其与所述区分子模块相连接,用于对所述分别保存了序列信息的两个文件与参考序列再次进行比对,获取再比对结果;再比对结果包括:每条测序片段的描述信息(qname)、序列信息(seq)、比对位置(POS)、位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen)。利用bwa软件对上述两个fastq文件,再次进行比对,形成bam格式文件。所述bam格式文件包含每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen)。
真实融合断点判断模块:其与所述再比对模块相连接,用于判断所述测序片段的融合断点。
所述真实融合断点判断模块包括下述子模块:
过滤子模块:其与所述再比对子模块相连接,用于根据位标识(flag)值过滤去除未成功比对(unmapped)的测序片段以及低比对质量值(MAPQ)的测序片段;
断点信息获取子模块:其与所述过滤子模块相连接,用于查找具有相同片段描述信息的测序片段,并获取断点信息。断点信息包括:(1)left_chr:断点左侧序列的染色体编号,read1对应的参考序列编号。(2)left_pos:断点左侧首个碱基的比对位置,read1对应的比对位置加上read1的序列长度。(3)left_seq:断点左侧碱基的序列。(4)right_chr:断点右侧序列的染色体编号,read2对应的参考序列编号。(5)right_pos:断点右侧首个碱基的比对位置,read2对应的比对位置加上read2的序列长度。(6)right_seq:断点右侧碱基的序列。(7)sup:断点支持度,支持该断点的测序片段个数,默认为1。
融合断点筛选子模块:其与所述断点信息获取子模块相连接,用于在断点信息中筛选融合断点。
融合断点筛选子模块包括如下元件:
断点质量过滤元件:用于过滤去掉低质量断点。若存在断点A,A中sup个数大于5,且left_seq和right_seq中比对质量值均大于30,且错配率均小于0.05,则该断点A判断为融合断点。
相同断点合并元件:用于合并相同断点。若存在断点A和B,A中left_chr等于B中right_chr,A中right_chr等于B中left_chr,A中left_pos等于B中right_pos,A中right_pos等于B中left_pos。A和B为同一个断点的两种形式,则该断点A和断点B合并为一个融合断点。
融合断点初次合并子模块:其与所述融合断点筛选子模块相连接,用于将具有相同的断点信息(left_chr、left_pos、right_chr和right_pos均相同)的断点合并为一个真实融合断点,并将具有相同断点信息的断点个数作为真实融合断点的支持度。
融合断点再次合并子模块:其与所述断点初次合并子模块相连接,将left_chr和right_chr相同,但right_pos或left_pos相差5bp以内的融合断点合并为一个真实融合断点。所述融合断点再次合并模块根据上述融合断点信息,若存在融合断点A中right_pos与融合断点B中right_pos小于5,且融合断点A中left_pos与融合断点B中left_pos小于5,则将此融合断点A和融合断点B合并为一个基因融合断点(gene fusion)。从而最终得到基因融合检测结果。以及
输出模块:其与所述真实融合断点判断模块相连接,用于输出基因融合检测结果。检测结果如下表所示。
1.14结果验证
采用QPCR方法对同一患者的剩余FFPE样本进行验证,检测其是否发生EML4-ALK的融合。首先对剩余FFPE样本进行RNA提取,具体步骤参照Qiagen FFPERNA提取试剂盒步骤(MagMAXTMFFPE DNA/RNA Ultra Kit)。检测结果表明EML4与ALK发生融合,验证结果与1.13检测结果一致。本发明的检测装置能够成功检出FFPE样本的基因融合。
工业实用性
根据本发明,提供了一种检测速度快、资源要求低、稳定性高的用于FFPE样本检测基因融合的装置及方法。