一种肿瘤突变位点筛选及互斥基因挖掘的方法

文档序号:10655803阅读:1033来源:国知局
一种肿瘤突变位点筛选及互斥基因挖掘的方法
【专利摘要】本发明提供了一种肿瘤突变位点筛选及互斥基因挖掘的方法,包括以下步骤:(1)过滤vcf文件以及ANNOVAR注释软件的输出文件;(2)进行不同实验组突变位点的描述性分析;(3)构建突变基因矩阵;(4)对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,确定互斥与共突变基因。本发明通过使用突变位点的注释信息以及测序read数、位点测序深度等基本参数对突变位点进行过滤,然后对于得到的突变位点进行不同实验组突变模式的描述性分析以及共突变、互斥突变基因集合的挖掘。
【专利说明】
-种肿瘤突变位点筛选及互斥基因挖掘的方法
技术领域
[0001] 本发明属于基因信息数据处理领域,特别是设及到一种肿瘤突变位点筛选及互斥 基因挖掘的方法。
【背景技术】
[0002] 肿瘤是由环境因素与遗传因素共同诱发的恶性疾病,其中遗传诱因设及到大量基 因的功能异常(突变、甲基化改变)。而基因突变认为是肿瘤发生发展的最主要驱动因素。最 近一些W二代测序为主要手段的研究项目成功地在多种肿瘤类型中掲示了大量的潜在肿 瘤驱动基因。因此,对二代测序数据的有效分析是进一步了解肿瘤病理生理学特性、实现对 肿瘤的早期诊断、祀向治疗的关键。
[0003] 对肿瘤病人基因突变进行全局性描述,主要的二代测序技术手段有全基因组测序 W及全外显子组测序两种方法。虽然对于每个碱基而言,二代测序的成本在快速下降,但是 对大量样本进行全基因组测序仍然是一个耗费巨大的工作。已有研究证实有约85%的肿瘤 相关突变坐落于蛋白质编码区。因此,外显子组测序是一种经济成本相对较低,同时基本可 W完整反应肿瘤突变模式的测序手段。
[0004] 在肿瘤突变基因中,存在互斥突变基因 W及共突变基因两种特殊情况。互斥突变 基因指的是两个基因在同一样本中倾向不同时突变,而共突变基因倾向于两个基因在一定 数量样本中同时突变。通常认为互斥突变基因更加倾向于肿瘤的驱动基因,运些互斥突变 基因往往负责同一生物学通路的功能行使。而共突变基因往往设及到肿瘤需要影响的多个 生物学过程。因此鉴别肿瘤个体样本中具有互斥W及共突变关系的基因集合对于理解肿瘤 的发病机制W及生物学表现具有重要作用。
[0005] 目前挖掘肿瘤突变位点的方法W及软件工具往往筛选条件不够直观。筛选过程对 于使用者呈现一种"黑箱子"状态。运样不利于使用者对于找到的突变位点进行进一步的生 物学解读。

【发明内容】

[0006] 有鉴于此,本发明提出一种肿瘤突变位点筛选及互斥基因挖掘的方法,通过使用 突变位点的注释信息W及测序read数、位点测序深度等基本参数对突变位点进行过滤,然 后对于得到的突变位点进行不同实验组突变模式的描述性分析W及共突变、互斥突变基因 集合的挖掘。
[0007] 为达到上述目的,本发明的技术方案是运样实现的:一种肿瘤突变位点筛选及互 斥基因挖掘的方法,包括W下步骤:
[0008] (1)过滤外显子组处理流程中的VCf文件W及ANNOVAR注释软件的输出文件,得到 感兴趣组织和对照组织的突变位点的突变read数、位点测序深度、突变频率;
[0009] (2)进行不同实验组突变位点的描述性分析,找到实验组间的交叠突变位点W及 特异性的突变位点,所述特异性的突变位点是指该突变位点在一个实验组出现而不在另外 一个实验组中出现.
[0010] (3)对每个样本的突变基因进行汇总,依据实验组突变基因列表构建突变基因矩 阵;
[0011] (4)对生成的突变基因矩阵进行依据Fisher精确检验的互斥W及共突变分析,确 定互斥与共突变基因。
[0012] 进一步的,步骤(1)所述VCf文件的过滤方法为:
[001引要求感兴趣组织的突变read数〉=3,位点测序深度〉=8,突变频率〉=0.1;
[0014] 对于对照组织要求突变read数<3,位点测序深度〉=8,突变频率<0.1。
[0015] 进一步的,步骤(1)所述ANNOVAR注释软件的输出文件的过滤方法为:
[0016] 要求突变位于外显子区域;要求突变位点不能位于染色体高度重复区域;esp数据 库中的群体变异频率低于5%;要求在千人基因组计划中的变异频率低于5%。
[0017] 进一步的,步骤(2)所述不同实验组突变位点的描述性分析的方法为:
[0018] 进行不同实验组之间突变基因的数量统计,找到实验组之间特异性的突变位点W 及实验组之间共同的突变位点,通过Venn图的方式进行展示。
[0019] 进一步的,步骤(3)所述突变基因矩阵,每一行对应一个实验组突变基因,每一列 对应一个样本。
[0020] 进一步的,步骤(4)所述对生成的突变基因矩阵进行依据Fisher精确检验的互斥 W及共突变分析,具体方法为:
[0021] 根据突变信息填写下表
?〇
[0025] 相对于现有技术,本发明所述的肿瘤突变位点筛选及互斥基因挖掘的方法具有W 下优势:
[0026] 本发明结合外显子组处理流程中的VCf文件W及MNOVAR注释软件的输出文件对 样本基因突变位点进行基于突变read数、位点测序深度、突变频率W及突变对蛋白质影响 等方面的过滤。同时可W对不同组病人突变位点进行描述性分析W及获得同一实验组中共 突变W及互斥突变的基因集合,筛选条件W及筛选过程对于使用者直观呈现。有利于使用 者对于找到的突变位点进行进一步的生物学解读。
【附图说明】
[0027] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0028] 图1为本发明的方法流程示意图。
[0029] 图2为本发明实施例中Gl样本生成的频率文件局部截图。
[0030] 图3为本发明实施例中样本群体随过滤频率变化的曲线。
[0031] 图4为本发明实施例中肿瘤组织与正常组织的突变位点韦恩图。
[0032] 图5为本发明实施例中案例样本群体中突变部分基因列表。
[0033] 图6为本发明实施例中突变基因矩阵示例。
[0034] 图7为本发明实施例中互斥与共突变基因关系展示。
【具体实施方式】
[0035] 需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可W相互 组合。
[0036] 下面将参考附图并结合实施例来详细说明本发明。
[0037] 本发明的方法原理如下:
[0038] 基因突变的发生是肿瘤发生的前提条件,通过外显子组测序数据对突变基因(基 因位点)进行鉴定是生物医学研究的重要手段之一。对细胞生理状态影响较大的是那些对 基因所翻译蛋白质具有一定影响的基因,故为了鉴别出肿瘤相关突变基因(基因位点),我 们首先对常用注释软件ANNOVAR生成的注释文件进行蛋白质功能过滤。
[0039] 接下来由于二代测序技术存在一定的测序错误可能性,因此需要对测序错误导致 的假阳性突变位点进行甄别。大量研究证实通过校正突变位点read改变个数、突变位点测 序深度、突变位点的突变频率W及对照组织的此位点的read改变个数、测序深度W及突变 频率可W较好的控制假阳性突变位点的数量,从而更有利于发现具有生物学意义的突变基 因。结合注释文件里面突变对蛋白质翻译的影响W及突变频率信息可W得到较为可信的疾 病相关突变基因。
[0040] Fisher精确检验是统计互斥突变W及共表达基因的常用手段,本软件通过此方法 计算得到的互斥与突变基因具有较高的可信度。
[0041] 本发明的具体步骤如图1所示,包括:
[0042] (1)过滤VCf文件;对ANNOVAR生成的注释结果进行过滤;
[0043] (2)进行不同实验组突变位点的描述性分析;
[0044] 生物学研究中往往检测了同一样本不同组织,进行对比分析。对于两个W及多个 实验组样本间的突变位点的描述性分析,最主要的分析操作就是找到实验组间的交叠突变 位点W及特异性(在一个实验组而不在另外一个实验组中出现)的突变位点。
[0045] 发现出现在两个实验组(Al, A2)同一病人a中的突变位点集合;
[0046] 发现在Al实验组中病人a中出现而不在A2实验组a病人样本中出现的突变位点。
[0047] 对经过交叠或特异性分析的病人突变位点文件进行个数统计。
[0048] 当我们要探讨群体间突变位点集合的时候,可W将每个病人通过一些列运算得到 的最终突变位点集合汇总成实验组群体样本的突变位点集合;还可W通过韦恩图对实验组 之间突变位点的可视化关系进行分析。
[0049] (3)互斥与共突变基因的确定
[0050] 为了确定互斥与共突变基因,首先需要对每个样本的突变基因进行汇总;接下来 依据实验组突变基因列表构建突变基因矩阵信息。输出结果每一行对应一个实验组突变基 因,每一列对应一个样本,0表示未突变,1表示突变。之后对生成的突变基因矩阵进行依据 Fisher精确检验的互斥W及共突变分析。
[0051] 本发明的具体应用举例:
[0052] 通过筛选胃癌外显子组测序数据的突变位点W及分析胃癌组织互斥W及共突变 基因作为实例进行程序运行结果的展示。
[0053] 实例中包含了 3例胃癌组织外显子组测序数据W及对应样本的癌旁正常组织的外 显子组测序数据。胃癌组织数据和正常组织数据均W配对血液样本作为参考得到VCf文件。 胃癌组织和正常组织的突变位点文件经过ANNOVAR注释软件进行注释。
[0化4] 1.1注释文件过滤
[0055] 3例胃癌组织W及对应的癌旁正常组织的注释文件进行过滤分别得到对应样本的 突变信息见表1。
[0化6] 表1 [0化7]
[0化引 1.2 Vcf文件过滤
[0059] 对VCf文件进行过滤。图2为Gl样本生成的频率截图。
[0060] 经过过滤后的VCf文件中突变位点数量见表2。突变频率为衡量突变可靠性的重要 指标,可W进行变化频率对突变位点个数的分析,如图3所示,根据输出图形可W选择合适 的频率阔值。
[0061] 表 2
[0062]
[(
[(
[(
[0066] 1.3进行不同实验组突变位点的描述性分析
[0067] 对肿瘤组织W及正常组织进行突变位点的汇总,对于肿瘤组织得到了 722个突变 位点,对于正常组织得到了 507个突变位点。对两种组织交叠突变位点进行韦恩图绘制得到 结果(参见图4)。
[006引1.4互斥与共突变分析
[0069] 首先得到实验组突变基因的总和,前10个基因结果如图5所示。
[0070] 接下来依照突变基因列表生成突变基因矩阵,如图6所示。
[0071] 接下来进行基因与基因之间互斥关系的判断。运一步由于每一个基因对子需要使 用fisher精确检验进行一次比较,故计算时间往往较长。本例中由于样本量较少,故计算出 的统计值(P值)较大。图7为部分结果展示。
[0072] W上所述仅为本发明的较佳实施例而已,并不用W限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于,包括以下步骤: (1) 过滤外显子组处理流程中的VCf文件以及ANNOVAR注释软件的输出文件,得到感兴 趣组织和对照组织的突变位点的突变read数、位点测序深度、突变频率; (2) 进行不同实验组突变位点的描述性分析,找到实验组间的交叠突变位点以及特异 性的突变位点,所述特异性的突变位点是指该突变位点在一个实验组出现而不在另外一个 实验组中出现; (3) 对每个样本的突变基因进行汇总,依据实验组突变基因列表构建突变基因矩阵; (4) 对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,确定互 斥与共突变基因。2. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于, 步骤(1)所述vcf文件的过滤方法为: 要求感兴趣组织的突变read数> =3,位点测序深度> =8,突变频率> =0.1; 对于对照组织要求突变read数〈3,位点测序深度> =8,突变频率〈0.1。3. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于, 步骤(1)所述ANN0VAR注释软件的输出文件的过滤方法为: 要求突变位于外显子区域;要求突变位点不能位于染色体高度重复区域;esp数据库中 的群体变异频率低于5% ;要求在千人基因组计划中的变异频率低于5%。4. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于, 步骤(2)所述不同实验组突变位点的描述性分析的方法为: 进行不同实验组之间突变基因的数量统计,找到实验组之间特异性的突变位点以及实 验组之间共同的突变位点,通过Venn图的方式进行展示。5. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于, 步骤(3)所述突变基因矩阵,每一行对应一个实验组突变基因,每一列对应一个样本。6. 根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于, 步骤(4)所述对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,具 体方法为: 根据突变信息填写下表
【文档编号】G06F19/20GK106021994SQ201610318266
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】薛成海, 马飞, 李连硕
【申请人】万康源(天津)基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1