病毒整合位点捕获测序分析方法

文档序号:472392阅读:2582来源:国知局
病毒整合位点捕获测序分析方法
【专利摘要】一种病毒整合位点捕获测序分析方法,该方法包括:将人的参考序列和病毒的参考序列合并在一起,构建一个混合参考序列;读取测序数据,过滤其中不合格的部分,得到过滤后的测序数据;利用比对软件将处理后的测序数据比对到混合参考序列上,获取一个比对结果,然后对该比对结果进行处理,得到一个用于检测病毒整合的比对结果;根据该用于检测病毒整合的比对结果,执行相应的操作,获取病毒整合的相关序列;综合上述相关序列的比对信息,获取病毒整合位点在参考序列上的坐标;综合整合位点的坐标信息,得到并输出病毒整合结果。利用本发明可以获得具有高精确度的病毒整合位点信息。
【专利说明】病毒整合位点捕获测序分析方法
【技术领域】
[0001]本发明属于基因工程技术、生物信息【技术领域】,尤其涉及一种病毒(HBV)整合位点捕获测序分析的方法。
【背景技术】
[0002]肿瘤病毒主要分为DNA病毒和RNA病毒。DNA病毒引起癌变的作用机理在于,病毒感染细胞后通过早期基因编码的转化蛋白结合或者作用于细胞的抑癌蛋白P53或者Rb上,从而引起P53或者Rb失活,导致细胞无限增殖和生长失控,最终诱发细胞转化和肿瘤形成。而RNA病毒基因组携带有病毒癌基因,其通过病毒癌基因转录翻译产生的蛋白引起宿主细胞转化和致癌作用。某些既不含有病毒癌基因,也不优先插入和整合在细胞癌基因附近的RNA病毒,则通过自身基因组P40tax调节蛋白以反式激活细胞增殖的相关基因表达,从而引起细胞无限增殖和诱发癌症的发生。此外对于HBV、HPV等整合性的病毒,则通过病毒的部分序列整合到宿主基因组中,引起相关基因表达的上调或者下调以及染色体的不稳定性,从而使正常的细胞向无限增殖的肿瘤细胞转化,所以研究病毒与宿主之间的整合关系对于阐明与病毒相关的肿瘤的发生发展机制具有重要的科学意义。
[0003]传统的研究方法主要有染色体步行PCR、qPCR、FISH等,但是这些方法存在工作繁琐、通量低、无法精确定位和确定整合拷贝数等缺陷,大大限制了该研究领域的发展。随着二代高通量测序的发展,产生了通过全基因组测序的方法(如全基因组鸟枪法WGS,who I e-genome shotgun)研究病毒整合情况。虽然WGS测序分辨率达到单碱基水平并且一次性把所有整合事件进行检测,但是现阶段高昂的价格依然限制了其应用。
[0004]因而,本领域仍需对病毒整合位点捕获方法进行改进,以进一步优化测序结果,获得具有高精确度的整合位点信息。

【发明内容】

[0005]鉴于传统的方法(染色体步行PCR、qPCR、FISH等)存在无法精确定位和确定整合拷贝数等缺陷,对后续信息分析造成困难事实,本发明提供一种新的序列捕获及其分析方法(即病毒整合位点捕获分析方法)。本发明根据病毒的序列来设计捕获芯片(或称为病毒芯片)的捕获探针,把宿主基因组片段化之后再与捕获芯片杂交,在捕获到病毒序列同时也把整合位点附近的宿主DNA序列捕获下来,后续对捕获下来的序列进行测序以及生物信息分析,以达到全基因组水平检测病毒的整合位点和热点、病毒分型的目的。
[0006] 一种病毒整合位点捕获测序分析方法,该方法包括:参考序列构建步骤,将人的参考序列和病毒的参考序列合并在一起,构建一个混合参考序列;数据过滤步骤,读取测序数据,过滤该测序数据中不合格的部分,得到过滤后的测序数据;数据比对步骤,利用比对软件将处理后的测序数据比对到混合参考序列上,获取一个比对结果,然后对该比对结果进行处理,得到一个用于检测病毒整合的比对结果;序列获取步骤,根据该用于检测病毒整合的比对结果,执行相应的操作,获取病毒整合的相关序列;整合位点获取步骤,综合上述相关序列的比对信息,获取病毒整合位点在混合参考序列上的坐标;分析结果输出步骤,综合整合位点的坐标信息,得到并输出病毒整合结果。
[0007]进一步地,在整合位点获取步骤之后、分析结果输出步骤之前,所述病毒整合位点捕获测序分析方法还包括:整合位点进阶分析步骤,根据病毒整合位点的坐标,寻找比对结果中支持整合的异常双末端测序序列对的数目,并统计整合位点处的深度、整合位点上下游预设范围的平均深度;所述分析结果输出步骤还包括,综合整合位点的坐标信息、异常双末端测序序列对的数目和深度信息对整合位点进行过滤,得到并输出乙肝病毒整合结果。
[0008]进一步地,所述序列获取步骤包括:序列获取步骤一,从比对结果中挑出截短比对上的测序序列,根据比对位置将相似度大于预设值的序列合并,然后利用比对软件,将被截掉的部分重新比对到混合参考序列上;序列获取步骤二,从比对结果中挑出两端都比对不上的双末端测序序列,将测通的双末端测序序列连成一条长序列,然后利用比对软件,将连接好的长序列比对回混合参考序列上。
[0009]本发明提供的是一种准确有效的病毒(HBV)序列捕获方法,能够更全面获得病毒(HBV)在样本中整合相关序列。通过与WGS (whole-genome shotgun,全基因组鸟枪法)数据比较,发现病毒(HBV)整合位点捕获测序与WGS数据一致性很高,并且能找到很多WGS找不到的低频整合位点,从而可以看出病毒(HBV)整合位点捕获测序具有更高的灵敏度。病毒(HBV)整合位点捕获测序与传统的方法,以及WGS方法相比,具有如下优势:
[0010]I)与人全基因组重测序相比,相同的数据量可得到更高深度,更可靠的整合位点信息。
[0011]2)可在全基因组范围内查找病毒整合位点,获得全面的断点信息。
[0012]3)可以通过对临床活体内病毒性癌基因组直接测序,更准确,省时省力。
[0013]本发明的方法特别可以应用于病毒分子分型、检测病毒整合位点和热点及寻找疾病标志物,以下通过乙肝病毒(HBV)整合位点捕获测分析方法对本发明进行详细说明。当然,本发明中所采用的方法也可以运用于其它病毒的检测。利用本发明可以获得具有高精确度的病毒整合位点信息。
【专利附图】

【附图说明】
[0014]图1是乙肝病毒(HBV)整合位点捕获测序产品策略图;
[0015]图2是乙肝病毒(HBV)捕获技术流程图;
[0016]图3是乙肝病毒(HBV)整合位点捕获测序信息分析流程图;
[0017]图4是本发明所使用的软截短reads的示意图;
[0018]图5是软截短reads中比对上的部分和被截短的部分的示意图;
[0019]图6是合并后的截短序列示意图;
[0020]图7是过早截短的软截短reads的示意图;
[0021]图8是确定病毒整合位点的示意图;
[0022]图9是产生K-mer的示意图;
[0023]图10是截短序列重比对的示意图; [0024]图11是乙肝病毒正向整合的示意图;
[0025]图12是乙肝病毒反向整合的示意图;[0026]图13是寻找异常paired end reads的示意图;
[0027]图14是断点附近的微同源序列鉴别示意图;
[0028]图15是检测病毒整合断点处的小片段插入的示意图;
[0029]图16是整合的病毒片段的示意图。
【具体实施方式】
[0030]为了使本发明的描述更易于理解,以下先对【具体实施方式】部分用到的专业术语进
行解释说明。
[0031]
【权利要求】
1.一种病毒整合位点捕获测序分析方法,其特征在于,该方法包括: 参考序列构建步骤,将人的参考序列和病毒的参考序列合并在一起,构建一个混合参考序列; 数据过滤步骤,读取测序数据,过滤该测序数据中不合格的部分,得到过滤后的测序数据; 数据比对步骤,利用比对软件将处理后的测序数据比对到混合参考序列上,获取一个比对结果,然后对该比对结果进行处理,得到一个用于检测病毒整合的比对结果; 序列获取步骤,根据该用于检测病毒整合的比对结果,执行相应的操作,获取病毒整合的相关序列; 整合位点获取步骤,综合上述相关序列的比对信息,获取病毒整合位点在混合参考序列上的坐标;及 分析结果输出步骤,综合整合位点的坐标信息,得到并输出病毒整合结果。
2.如权利要求1所述的病毒整合位点捕获测序分析方法,其特征在于,在整合位点获取步骤之后、分析结果输出步骤之前,还包括: 整合位点进阶分析步骤,根据病毒整合位点的坐标,寻找比对结果中支持整合的异常双末端测序序列对的数目,并统计整合位点处的深度、整合位点上下游预设范围的平均深度;及 所述分析结果输出步骤还包括,综合整合位点的坐标信息、异常双末端测序序列对的数目和深度信息对整合位点进行过滤,得到并输出乙肝病毒整合结果。
3.如权利要求2所述的病毒整合位点捕获测序分析方法,其特征在于,所述异常双末端测序序列的寻找方法包括: 根据比对结果计算出平均插入片断长度和标偏差,则异常双末端测序序列满足以下条件一与条件二: 条件一,比对结果中记录的双末端测序序列的插入片断长度小于平均插入片断长度减去4倍标准差或者大于平均插入片断长度加上4倍标准差; 条件二,在上游染色体和下游染色体不同的条件下,整个片断的实际长度大于或等于平均插入片断长度减去4倍标准差并且小于或等于平均插入片断长度加上4倍标准差。
4.如权利要求1或2所述的病毒整合位点捕获测序分析方法,其特征在于,所述数据过滤步骤包括: 去除含接头的测序序列、不明确碱基型的碱基N的比例大于预设值的测序序列、及质量低于预设要求的测序序列,所述预设要求为:质量值5的碱基数占整个测序序列的50%以上; 所述序列获取步骤包括: 序列获取步骤一,从比对结果中挑出截短比对上的测序序列,根据比对位置将相似度大于预设值的序列合并,然后利用比对软件,将被截掉的部分重新比对到混合参考序列上;及 序列获取步骤二,从比对结果中挑出两端都比对不上的双末端测序序列,将测通的双末端测序序列连成一条长序列,然后利用比对软件,将连接好的长序列比对回混合参考序列上。
5.如权利要求4所述的病毒整合位点捕获测序分析方法,其特征在于,所述序列获取步骤一包括: 根据比对结果中的软截短reads比对上的部分的比对位置和reads被截短的方向,将软截短reads分成若干组,同一组内的软截短reads将截短的部分进行合并; 如果两条序列的一致率达到预设值,则判定该两条序列来自同一个断点,将这两条序列合并成一条最长序列,重复该步骤,将来自于同一断点的同一方向的截短序列合并成一条最长序列。
6.如权利要求5所述的病毒整合位点捕获测序分析方法,其特征在于,所述序列获取步骤还包括: 对比对不准确的软截短reads进行校正,然后再与已经合并好的截短序列进行合并,合并后的最长序列包括:左端截短的若干软截短reads合并成的左端截短一致性序列,右端截短的若干软截短reads合并成的右端截短一致性序列; 所述对比对不准确的软截短reads进行校正的步骤包括: 根据两个比对位置的差异,将过早截短reads的截短部分的序列补充指定部分到比对上的那部分序列中,再与合并后的比对上的序列进行比较,如果两者一致率达到预设值,则合并成一个序列,同时reads支持数加上I。
7.如权利要求6所述的病毒整合位点捕获测序分析方法,其特征在于,所述整合位点获取步骤包括: 根据左端截短一致性序列和右端截短一致性序列的匹配结果和比对上部分的比对位置,确定整合位点在混合参考序列上的坐标。
8.如权利要求7所述的病毒整合位点捕获测序分析方法,其特征在于,所述整合位点获取步骤包括: 如果采用右端截短一致性序列,针对一致性序列比对上的部分,首先第一次生成长度为K的一段碱基序列K-mer,如果一致率序列比对上的部分长度为L,则第一次生成的K-mer的数量为L-K+1 ; 遍历一端左端截短的一致性序列,将左端的截短部分第二次生成长度为K的K-mer,如果左端截短序列长度为M,则第二次生成的K-mer数量为M-K+1个; 将第二次生成的K-mer与第一次生成的K-mer进行匹配,如果有两个K-mer完全匹配,则将左边截短的软截短序列初步定位到右边截短的软截短序列上;及 根据两者的相对位置,进行全长一致性匹配,如果两者的一致率达到预设值,则判定该两条软截短一致性序列来自同一断点,两者比对上的位置,即是断点的两个断开位置。
9.如权利要求6所述的病毒整合位点捕获测序分析方法,其特征在于,所述整合位点获取步骤还包括: 如果一部分断点只有左截短软截短序列支持或者只有右截短软截短序列支持,则将软截短序列的截短部分比对回混合参考序列,如果截短序列唯一比对到混合参考序列上,则根据其比对位置和先前软截短序列比对上的部分的比对位置确定一个断点。
10.如权利要求6所述的病毒整合位点捕获测序分析方法,其特征在于,所述分析结果输出步骤包括: 如果软截短序列的比对上的部分和被截掉的部分都是正向比对回混合参考序列,则分析结果判定该病毒正向整合到人的基因组;及
若软截短序列的比对上的部分和被截掉的部分一个正向比对到混合参考序列,另外一个负向比对到混合参考序列,则分析结果判定该病毒反向整合到人的基因组。
【文档编号】C12Q1/68GK103993069SQ201410109470
【公开日】2014年8月20日 申请日期:2014年3月21日 优先权日:2014年3月21日
【发明者】丘坤龙, 何铭辉 申请人:深圳华大基因科技服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1