一种全外显子组测序数据分析系统的制作方法

文档序号:10655793阅读:685来源:国知局
一种全外显子组测序数据分析系统的制作方法
【专利摘要】本发明提供了一种全外显子组测序数据分析系统,包括质控模块,用于通过对原始测序数据文件中单碱基质量,以及read质量的评估;基因组映射模块:用于利用BWA的aln算法完成read到基因组的映射过程;基因组变异模块:用于利用GATK包的UnifiedGenotyper方法找基因组上的变异位点;变异位点注释模块:用于对变异的候选位点或基因组区间做注释。本发明通过简单的参数提交完成大规模数据的分析,包括原始数据的质量检测、数据去噪、测序read的基因组映射上游承接下机的原始测序数据,通过参数自动化提交分析模块,完成测序数据的分析,输出候选的致病突变位点和相关基因,为后期的实验验证提供依据。
【专利说明】
-种全外显子组测序数据分析系统
技术领域
[0001] 本发明属于基因信息数据处理领域,特别是设及到一种全外显子组测序数据分析 系统。
【背景技术】
[0002] 随着人类基因组计划和国际人类单体型图谱构建的完成,快速推动了通过解析基 因组信息研究疾病易感位点的预测和功能研究。运类研究主要是基于生物忍片的基因分型 技术,利用全基因组关联分析研究(GWAS)方法来寻找与复杂疾病相关的遗传因素。随着生 物忍片中探针越来越密集,特别是叠瓦式探针的设计,对于疾病风险位点的挖掘也越来越 全面。然而,GWAS的局限在于:识别的多数关联位点位于基因组的基因间区、内含子、调控 区;其次,忍片的探针都是基于目前已知的(绝大多数是常见SNP)设计的,不能识别低频的 致病变异和新的致病突变。
[0003] 短短几年内,新一代技术的迅猛发展在数据通量和成本上都显示出巨大的优势。 特别是全外显子组捕获测序技术,通过特异性探针富集到具有编码功能的外显子区,针对 运些功能区域进行深度测序,不仅可W更全面的检测编码区域的变异,且能够识别低频的 和新的变异位点。全外显子测序包含目标区间的捕获、文库构建和上机测序,W及生物信息 学分析S个过程。目前最流行的S种外显子捕获试剂分别来自罗氏NimbleGen、
[0004] Illumina和安捷伦。技术的不断推广,涌现出海量的基因组测序数据,如何快速、 且系统性地挖掘运些大数据中的信息,W更全面的解析疾病,服务于生物医学,为数据分析 团队提出了更高的要求和新的挑战。

【发明内容】

[0005] 有鉴于此,本发明提出一种全外显子组测序数据分析系统,便于更快速、准确地挖 掘测序数据中的信息。
[0006] 为达到上述目的,本发明的技术方案是运样实现的:一种全外显子组测序数据分 析系统,包括:
[0007] 质控模块:用于通过对原始测序数据文件中单碱基质量,W及read质量的评估,判 断测序数据是否可用于后续分析,同时,筛选去除测序因素产生的数据噪音;
[000引基因组映射模块:用于利用BWA的aln算法完成read到基因组的映射过程,通过多 线程运算达到快速比对的结果;
[0009] 基因组变异模块:用于利用GATK包的化ifiedGenotyper方法找基因组上的变异位 点,包括SNV和小片段的IN呢L;
[0010] 变异位点注释模块:用于对变异的候选位点或基因组区间做注释,包含运些变异 在基因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害;
[0011] 所述质控模块、基因组映射模块、基因组变异模块、变异位点注释模块依次连接。
[0012] 进一步的,所述质控模块包括fastqc单元和化imming单元;所述fastqc单元用于 对原始测序文件进行质控,输出为数据质量的统计结果W及评估报告;所述trimming单元 用于在质控基础上,针对数据进行修剪,包括去除低质量的read片段、去除测序异常的 read、去除测序过程中添加的适配器,输出高质量的read用于后续信息挖掘。
[0013] 更进一步的,所述质控模块还包括BaseQualStat单元,用于对原始测序文件中每 个碱基的Ascn质量值做转换。
[0014] 进一步的,所述基因组映射模块包括映射单元和格式单元,所述映射单元用于利 用BWA的aln算法完成read到基因组的映射过程,通过多线程运算达到快速比对的结果;所 述格式单元用于整合pi card、samtool和GATK多种方法对比对结果进行数据格式转换、排 序、质量校正,输出准确比对到基因组上的read信息。
[0015] 进一步的,所述基因组变异模块包括gatk-snv单元、varscan-Somatic单元和CNV 单元,所述gatk-snv单元用于寻找每个样本中的基因组变异,所述var scan-Somat i C单元通 过对配对的组织找变异位点,然后二者之间比较W及相应的统计学检验,区分出该例样本 的生殖细胞突变和体细胞突变;所述CNV单元用于外显子组测序数据找基因组的拷贝数改 变。
[0016] 相对于现有技术,本发明所述的一种全外显子组测序数据分析系统具有W下优 势:
[0017] 本发明针对外显子组捕获测序数据进行分析,包括从下机的测序数据一〉数据的 质量控制一〉数据的基本处理一〉测序read的基因组映射一〉找基因组变异一〉计算基因组 拷贝数一〉注释变异位点的功能整个分析过程,本发明集成了全面的数据质量报告、结果统 计和展示,通过简单的参数提交完成大规模数据的分析,包括原始数据的质量检测、数据去 噪、测序read的基因组映射上游承接下机的原始测序数据,通过参数自动化提交分析模块, 完成测序数据的分析,输出候选的致病突变位点和相关基因,为后期的实验验证提供依据。
【附图说明】
[0018] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019] 图1为本发明的流程示意图。
【具体实施方式】
[0020] 需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可W相互 组合。
[0021 ]下面将参考附图并结合实施例来详细说明本发明。
[0022] 如图1所示,本发明的软件系统用于系统性分析全外显子组测序数据(适用于单样 本或者配对的组织样本),输入为原始的测序数据(fq.gz文件),输出为基因组变异位点和 相关突变基因,W及图形化结果展示。分析内容主要包含测序数据质控、测序read比对基因 组、寻找基因组变异、变异信息注释和图形展示。
[0023] 详细说明
[0024] 1、测序数据的质控
[0025] 相比先前的基因忍片数据,二代测序技术凸显其明显的优势是高通量,然而,运一 优势也给研究者们带来了新的挑战一检测数据质量。除了数据的规模,数据质量同样是影 响结果的重要因素之一。本发明系统中质控模块的化Stqc和trimming两个单元可W完成对 测序数据的严格质量检测和控制,通过对单碱基质量,W及read质量的评估,判断测序数据 是否可用于后续分析,同时,筛选去除测序因素产生的数据噪音。
[0026] 化Stqc单元的输入是原始的fq.gz文件(单/双末端测序数据都适用)。输出为数据 质量的统计结果W及网页式的评估报告,内容包括:碱基质量分布、GC含量统计、A/T/G/C碱 基分布、read长度统计、显著富集的段序列检测等。
[0027] Trimming单元的输入与化Stqc单元输入相同,区别在于化Stqc只针对数据的质量 进行统计,而trimming是在质控基础上,针对数据进行"去伪存真"的修剪,包括去除低质量 的read片段、去除测序异常的read(如高比例的N)、去除测序过程中添加的适配器等,输出 高质量的read用于后续信息挖掘。输出结果中会统计修剪掉的低质量read比例,W评估数 据的整体质量。
[00%]另外,还设有Base如alStat单元是对fq.gz文件中每个碱基的ASCII质量值做转换 (根据测序版本选择33或者64),将Ascn字符码转换成化red值,然后可便于统计Q20、Q30等 信息。
[0029] 2、测序数据的基因组映射
[0030] 二代测序数据分析中重要的一个内容是如何将短序列映射到基因上,然后解析基 因组的信息。本发明的系统中mapping模块(基因组映射模块)包括映射单元,利用BWA的aln 算法完成read到基因组的映射过程,通过多线程运算达到快速比对的结果(sam文件)。还包 括格式单元,整合了 picard、samtoo巧日GATK多种方法对比对结果进行数据格式转换、排序、 质量校正等过程,输出准确比对到基因组上的read信息(bam文件)。其中,a In的参数-n控制 read比对到基因组上的方式(完全匹配、允许错配的部分匹配)。每一步数据处理中,都可W 利用samtools工具对当前步骤中分析的read进行统计,如总的read数、比对率、重复read比 例,read对的分布等。
[0031] bam文件是sam的二进制格式,也是测序数据中推荐的数据存储格式,具体说明:
[0032] 每一行表示一条read的信息,每列分别代表
[0033] Uread 编号
[0034] 2、Flag信息:用于统计read信息的综合得分,如73表示该read和其配对的read (mate)都在bam文件中,但是mate是unmapp的read
[0035] 3、染色体名称
[0036] 4、碱基位置:l_based定义的基因组位置
[0037] 5、比对打分:P虹e d-s cale的质量分数
[003引 6、CIARG:该read的比对详细信息,如IOOM表示100个碱基完全比对到基因组
[0039] 7、Mate read:配对的read的比对情况
[0040] 8、Mate read的基因组位置:配对read起始碱基位置 [0041 ] 9、read 的长度
[0042] 10、read的序列信息
[0043] IUread 的质量
[0044] 12、read的各种tag描述,如醒是read和参考基因组的编辑距离(即差异),XT记录 read是唯一比对或者基因组多定位。
[0045] 3、测序数据找高置信的基因组变异
[0046] 本发明中基因组变异模块中的gatk-snv单元利用GATK包的Unif iedGenotyper方 法找基因组上的变异,包括SNV和小片段的IN呢UUnif iedGenotyper集成了多种基因组变 异检测方法,基于贝叶斯最大似然模型来估计基因分型和基因频率,同时对每个位点的变 异都会计算一个后验概率。Unif iedGenotyper是基于检测样本基因组和参考基因组的比 较,因此既适用于单个样本的变异位点检测,也可做群体的变异检测。gatk-snv的输入是比 对后的bam文件,输出是VCf文件,包含每个位点的基因型和该位点详细的比对、统计信息。 运里的变异位点结果中包含很多假阳性的结果(特别是IND化),为了得到高置信的变异位 点,需要对IN呢L区域重新设计比对、W及碱基质量的矫正(化riantFiltration)。在满足变 异数据量的条件下,推荐使用VQSR对变异位点进行过滤。VQSR过滤变异位点的原理:根据已 知的变异位点(包括真的变异化PMap和Omni 2.5M SNP忍片中的位点)训练高斯模型,此外, 算法会输出一组图形化结果可W形象地了解模型中注释信息对于变异位点分组的效能。然 后将该模型用于化if iedGenotyper找到的变异位点,并计算每个位点的变异概率,并得到 该位点是真的变异位点与假阳性位点的比值(VQSLOD),记录在INFO信息中,运个值越大说 明该位点是真的基因组变异的可能性越大。由于变异位点假阳性过滤依赖于高斯模型的构 建,SNV和IN呢L需要分开进行。
[0047] gatk-snv单元用于寻找每个样本中的基因组变异(包含遗传获得的生殖细胞变异 和后天产生的体细胞变异)。二代测序技术在生物医学中一个重要的应用是疾病发病机理 的研究,如癌症。目前报道的大多数复杂疾病和癌症都是由于体细胞突变导致功能失调,进 而诱发疾病产生。而运类研究的实验设计通常包含有配对的样本DNA,例如癌症患者的癌组 织和血样、或者癌组织和癌旁的正常组织。针对运一类问题,本发明的系统软件中, varscan-Somatic单元通过对配对的组织找变异位点,然后二者之间比较W及相应的统计 学检验,区分出该例样本的生殖细胞突变和体细胞突变,其中,体细胞突变可用于后续解析 无遗传背景的疾病的发生过程和分子机理。
[004引此外,CNV单元可用于外显子组测序数据找基因组的拷贝数改变。然而,由于外显 子组测序中通过特异性探针捕获了基因组的片段,因此,运种数据统计基因组的fragment 和断裂点时不如全基因组测序数据精准。
[0049] 4、变异位点的注释
[0050] annotation模块(变异位点注释模块)是对比变异位点的注释工具。为了进一步解 释变异位点的功能,需要将其定位到基因组、基因,分析碱基改变是否影响氨基酸编码、阅 读框结构;其次,通过公开的健康人群频率过滤常见的SNP;此外,利用化Iy化en、CADD、SIFT 等方法预测氨基酸改变对蛋白质功能的影响;结合现有的疾病数据库(COSMIC, ClinVar、 OMIM等)筛查目前已报到的疾病突变和新的突变位点,提供候选的致病突变和基因。
[0051] 本发明具体运行实例:
[00对 1、数据简介
[0化3] 数据类型:全外显子组测序
[0化4] 组织来源:DNA来自同一例患者的癌组织和外周血
[0055]实验设计:外显子捕获测序
[0化6] 测序平台:Illumina Hiseq 2000,双末端测序
[0化7] read平均长度:IOObp
[0058] 原始测序数据质量统计如表*。
[0059] 表4.1全外显子组测序数据质量统计
[0060]
[0061] 2、系统使用
[0062] 全外显子组测序数据分析流程包含:测序数据质量评估和控制、高质量read筛选、 read比对到参考基因组、寻找基因组变异、配对样本寻找体细胞突变、计算拷贝数变异、功 能注释等过程。下面,将利用软件集成的功能模块逐步实现每一个分析步骤。
[0063] (1)原始测序数据的质量控制。本示例包含两个全外显子组数据,利用fastQC分别 对两套测序进行质量评估。
[0064] (2)利用trimming,基于滑窗方法计算碱基质量,过滤低质量的read。方法原理是: 输入测序的fq文件(包含read标号、序列、碱基质量)。
[00 化]
[0066] (3)利用mapping,将高质量的read比对到人类参考基因组化gl9)上。比对方法采 用BWA,步骤包括read的基因组定位-〉bam生产-〉根据位置排序-〉标记由于PCR产生的重复 片段-Mndel周围的重新比对,W去除假阳性变异信息-〉碱基质量的矫正-〉提取唯一比对 到基因组上的raed做后续分析。
[0067] (4)利用gatk-snv,分别找癌组织和外周血DNA中的SNV和INDEL。通过癌组织基因 组和参考基因组比较识别了49707个SNV和5386个IND化。在外周血中发现了49655个SNP和 5263个
[0068] (5)利用var S can-Soma t i C比较配对的癌组织和外周血,识别癌细胞中的突变。基 于P值0.05,最少5个read覆盖,共获得237个体细胞突变和340个L0H。
[0069] (6)利用CNV模块分析癌组织中DNA拷贝数的改变。
[0070] (7)利用annotation对SNVJND化和CNV的候选位点或基因组区间做注释,包含运 些变异在基因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害等。
[0071] W上所述仅为本发明的较佳实施例而已,并不用W限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种全外显子组测序数据分析系统,其特征在于,包括: 质控模块:用于通过对原始测序数据文件中单碱基质量,以及read质量的评估,判断测 序数据是否可用于后续分析,同时,筛选去除测序因素产生的数据噪音; 基因组映射模块:用于利用BWA的aln算法完成read到基因组的映射过程,通过多线程 运算达到快速比对的结果; 基因组变异模块:用于利用GATK包的UnifiedGenotyper方法找基因组上的变异位点, 包括SNV和小片段的INDEL; 变异位点注释模块:用于对变异的候选位点或基因组区间做注释,包含这些变异在基 因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害; 所述质控模块、基因组映射模块、基因组变异模块、变异位点注释模块依次连接。2. 根据权利要求1所述的一种全外显子组测序数据分析系统,其特征在于,所述质控模 块包括fastqc单元和trimming单元;所述fastqc单元用于对原始测序文件进行质控,输出 为数据质量的统计结果以及评估报告;所述trimming单元用于在质控基础上,针对数据进 行修剪,包括去除低质量的read片段、去除测序异常的read、去除测序过程中添加的适配 器,输出高质量的read用于后续信息挖掘。3. 根据权利要求2所述的一种全外显子组测序数据分析系统,其特征在于,所述质控模 块还包括BaseQualStat单元,用于对原始测序文件中每个碱基的ASCII质量值做转换。4. 根据权利要求1所述的一种全外显子组测序数据分析系统,其特征在于,所述基因组 映射模块包括映射单元和格式单元,所述映射单元用于利用BWA的aln算法完成read到基因 组的映射过程,通过多线程运算达到快速比对的结果;所述格式单元用于整合Picard、 samtool和GATK多种方法对比对结果进行数据格式转换、排序、质量校正,输出准确比对到 基因组上的read信息。5. 根据权利要求1所述的一种全外显子组测序数据分析系统,其特征在于,所述基因组 变异模块包括gatk-snv单元、varscan-Somatic单元和CNV单元,所述gatk-snv单元用于寻 找每个样本中的基因组变异,所述varscan-Somatic单元通过对配对的组织找变异位点,然 后二者之间比较以及相应的统计学检验,区分出该例样本的生殖细胞突变和体细胞突变; 所述CNV单元用于外显子组测序数据找基因组的拷贝数改变。
【文档编号】G06F19/18GK106021984SQ201610319413
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】薛成海, 吕艳玲, 郑文辉
【申请人】万康源(天津)基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1