用于疾病关联的人类基因组变异分析和报告的系统及方法_2

文档序号:9476246阅读:来源:国知局
组变异可W是真正的基因组变异而非测序人工产物。
[0030] 在测序之后,可W获得原始数据140。取决于前面的步骤中所使用的具体测序方 法,可W根据全基因组测序方法和祀向测序方法二者来获得原始数据140。根据实施方式, 祀向测序方法包括用于部分基因组的祀向测序(例如全外显子组测序)、用于基因子集的 测序和/或基因组中感兴趣的特定区域的测序。然后原始数据140可W在管线中经历其他 步骤W用于进一步分析。在一些实施方式中,原始数据140可W经历解码处理。根据实施 方式,解码过程可W设及读取前面所生成的条形码,并且可与相应个人/胎儿相关联 的原始数据可W被识别的方式对原始数据140进行注释。
[0031] 在一些实施方式中,患者序列150在变为比对数据文件180之前可W经历序列处 理步骤。根据实施方式,处理步骤可W设及质量控制("QC")、过滤和比对。在处理之后, 可W获得比对序列数据170。在一些实施方式中,一个或更多个参考基因组可W用于比对目 的。在一些实施方式中,可W用于比对的参照基因组为人类基因组化gl9,GRCh37)。在一 些其他实施方式中,其他参考基因组也可W用于比对。在序列数据比对之后,经比对的序列 数据170可W经历比对后清理并且变为比对数据文件180。在一些实施方式中,比对数据文 件可W为BAM文件或SAM文件的格式。在一些其它实施方式中,比对数据文件180可W为 不同的格式。
[0032] 结合图2可W更好地理解处理步骤的细节。图2是示出在接收到基因组测序结果 之后的序列处理步骤的一个实施方式的流程图。图2的方法可W通过序列处理模块530来 执行。根据实施方式,图2的方法可W包括更少的块或附加的块,并且可与所示出的顺 序不同的顺序来执行块。
[0033] 方法200开始于块210处。方法200进行到块215,其中,序列处理模块530可W 对所接收的患者序列150执行质量控制("QC")。如上所述,患者序列150还可包括胎儿 序列。
[0034] 在一些实施方式中,在块215中执行的QC可W包括检查W查看:是否达到所需的 序列深度;是否存在潜在的样本混合物;W及总体测序质量是否良好等。在一些实施方式 中,总体测序质量可W基于化red质量得分(也被称为"Q20")来确定。Phred是用于DNA 序列追踪的碱基识别程序化ase-callingprogram)。P虹ed碱基特异性质量得分(P虹ed base-specificqualityscores)的范围可W为4至约60,其中较高值通常对应于较高质 量的测序读数。在一些实施方式中,可对数的方式将质量得分与错误概率联系起来。在 一些实施方式中,大于或等于10化的化red质量得分怕20)足W通过QC步骤的测序质量 要求。在其他实施方式中,可W定制和采用更高的阔值或更低的阔值。
[0035] 方法200进行到判定块220,其中,确定所接收的患者序列150是否成功地通过QC 检查。在一些实施方式中,如果判定块220的答案是否定的,则所接收的患者序列150中未 通过QC检查的部分可W不进行进一步处理。在运种情况下,另外的步骤可W包括重新测序 和/或调查低质量序列数据的根源。在一些其他实施方式中,对于未通过QC检查的测序数 据可W采取不同的方法。
[0036] 如果判定块220的答案是肯定的,则方法200进行到块225,其中,对经QC检查的 患者序列执行过滤。根据实施方式,过滤可W去除测序接头(adapter)、常见污染物例如染 料、低复杂度读数和/或测序平台特定人工产物。
[0037] 然后方法200进行到块230,其中,可W将经QC检查并且经过滤的患者序列与一 个或更多个参考基因组进行比对。如前面所讨论的,在一些实施方式中,可W使用hgl9, GRCh37参考人类基因组。在其他实施方式中,还可W使用一个或更多个其它参考基因组。 在一些实施方式中,序列处理模块530或者另外的模块可W被配置成自动地捜索对参考基 因组信息的更新并且更新用于基因组测序分析和比对的参考基因组。
[0038] 方法200进行到块235,其中,执行比对后清理。在一些实施方式中,比对后清理过 程可W设及去除PCR重复、调整碱基质量值。在一些实施方式中,可W通过GATK软件包来 执行比对后清理处理。然后方法200在块240处结束。
[0039] 变异分析和疾病可能性预测处理示例
[0040] 图3是示出数据库查询、变异分析、疾病可能性的统计预测、验证和定制报告的过 程的一个实施方式的系统图和流程图。在图3中,方法300设及构造一个或更多个疾病/ 变异数据结构310。疾病/变异数据结构310可W包括从多个数据库305提取的与疾病相 关基因组变异有关的信息。现有的疾病基因组变异关联数据库可能包含不相关数据和低质 量数据。因此,在一个或更多个疾病/变异数据结构310的构造中可W包括从自多个数据 库305所接收的信息中去除低质量的数据和不相关的信息。
[0041] 在一些实施方式中,信息可W从数据库例如0MIM(在线人类孟德尔遗传)数据库、 化SNPUOOOGenomes等中提取。在一些实施方式中,相关疾病基因组变异关联信息还可W 从研究文献中提取并且可W包括在一个或更多个疾病/变异数据结构310中。根据实施方 式,疾病/变异数据结构310可W被设置成当新发布可用于多个数据库305时自动地进行 更新。
[0042] 在一些实施方式中,疾病/变异数据结构310不仅可W包括基因组位置和关于基 因组变异的细节,还可W包括每个变异的类型。例如,变异的类型可W包括短插入/缺失 (IN呢L)、结构变异(SV)、拷贝数变异(CNV)、单核巧酸置换(SNV/SN巧等。在一些实施方式 中,单个基因组变异可W属于多于一种类型的变异。例如,大片段缺失也可W被定义为CNV。
[0043] 在一些实施方式中,疾病/变异数据结构310可W将所设及的疾病分类成两个或 更多个类别。在一些实施方式中,疾病可W归类为罕见疾病和常见疾病。根据实施方式,罕 见疾病可W包括疾病例如阿斯伯格综合征/病症、波文氏病、副肿瘤性天瘤疮等。罕见疾病 的清单可W从美国国立卫生研究院(NIH)的网站上获得。根据实施方式,常见疾病可W包 括瘦疮、过敏、流感、感冒、高原反应、关节炎、背痛等。 W44] 变异分析模块320可W接收比对数据文件180并且使用该比对数据文件180来执 行变异分析。例如,变异分析模块320可W使用将BAM/SAM文件转换成VCF文件和/或其 它文件的软件程序包。变异分析模块320还可W执行识别变异的基因组位置等的其它变异 识别功能。 W45] 在一些实施方式中,在变异分析320完成对比对数据文件的处理之后,可W将所 检测的变异存储在患者变异数据结构360中。在一些实施方式中,可W将所检测的变异连 同基于由变异分析模块320从疾病/变异数据结构302中所提取的信息的注释一起存储在 患者变异数据结构360中。
[0046] 在变异分析模块320检测到变异之后,所述变异还可W由用于罕见疾病的统计模 块325和用于常见疾病的统计模块330来使用,W确定常见疾病的可能性、罕见疾病的可能 性和/或测序人工产物的可能性。
[0047] 在一些实施方式中,用于常见疾病的统计模块330可W使用统计分析模型例如 Fisher精确检验来研究常见疾病的可能性。根据实施方式,还可W使用其它统计分析工具。 此外,在一些实施方式中,可W针对不同类型的常见疾病采用不同的统计分析工具。在一些 其他实施方式中,用于常见疾病的统计模块330还可W使用机器学习技术,例如决策树、朴 素贝叶斯算法、内核方法和/或支持向量机。
[0048] 在一些实施方式中,用于常见疾病的统计模块330可W生成可用于表示患者感染 常见疾病的可能性的数值。在一些实施方式中,可W确定截止值,并且将其用于感染常见疾 病的可能性使得可能性低于该截止值的常见疾病不会被进一步报告给报告模块345。在一 些实施方式中,可W确定多于一个的截止值并且将其应用于不同类型的常见疾病。在一些 实施方式中,截止值被严格地选择,使得仅那些极可能出现的常见疾病可W被报告给报告 模块345。
[0049] 在一些实施方式中,用于罕见疾病的统
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1