确定异质样本的基因组中的变异的制作方法

文档序号:6497141阅读:325来源:国知局
确定异质样本的基因组中的变异的制作方法
【专利摘要】在DNA片段被测序并被映射至参考之后,可以对变异区域中的序列的各个假设进行评分以发现哪个/些序列假设更有可能。假设可以包括对于包括该区域中的序列假设的多个等位基因的特定可变分数。可以使用说明相应序列假设中指定的等位基因的分数的概率确定每个假设的似然性。因此,可以通过在优化中明确包括等位基因的可变分数作为参数,探索除了标准纯合和相等杂合(即,细胞中具有A的一个染色体和具有B的一个染色体)之外的其它假设。而且,可以相对于参考为变异确定变异得分。变异得分可以用于确定指示变异识别正确的似然性的变异校准得分。
【专利说明】确定异质样本的基因组中的变异
[0001] 对相关申请的交叉引用
[0002] 本申请主张于2011年9月16日提交的、题目为"Techniques For Calling Small Variants In Polynucleotide Sequences" 的美国临时申请 No. 61/535, 926、以及于 2012 年3月2日提交的、题目为"Techniques For Small Variant Assembler"的临时申请 No. 61/606, 306的优先权,并且是它们的非临时申请,为了所有的目的通过引用将它们的全 部内容合并在此。
[0003] 此申请与Carnevali等人于2012年4月29日提交的、题目为"Method And System For Calling Variations In A Sample Polynucleotide Sequence With Respect To A Reference Polynucleotide Sequence" 的共同拥有的美国专利申请 No. 12/770, 089(代理 人案号为92171-002110US)相关,通过引用将其完整的公开内容合并。

【技术领域】
[0004] 本公开一般涉及使用测序技术确定基因组,并且更具体地涉及确定基因组中相对 于另一基因组的变异(variant)。

【背景技术】
[0005] 非肿瘤生物样本主要是二倍体(diploid),其中变异可能发生在染色体的一 个或两者中。传统地,在样本基因组中在特定基因的相对于参考基因组的变异被辨识 (identify)为杂合(heterozygous) (1个突变等位基因(allele)和1个正常等位基因)或 纯合(homozygous) (2个突变等位基因)。然而,在如癌症的肿瘤细胞内往往不是这样。在 细胞分裂期间,突变可能发生,并且作为结果,某些肿瘤细胞的基因组可能不同于其它肿瘤 细胞的基因组。由于对正常DNA的污染和/或肿瘤进化中的多个分支,样本经常展现出这 种异质性(heterogeneity)。样本中的这种异质性可能导致确定样本的基因组中的所有突 变上的困难。
[0006] 因此,期望提供能更准确地确定展现出异质性的样本的基因组组成、特别是辨识 样本中(例如肿瘤样本)相对于参考基因组或患者的正常基因组的变异的方法、系统和装 置。


【发明内容】

[0007] 本发明的实施方案提供了用于辨识基因组中的变异的技术。例如,在DNA片段已 经被测序并映射(map)至参考基因组以及辨识变异区域(很可能包含变异的区域)之后, 可以对针对变异区域中的序列的各种假设进行评分以发现哪些假设更有可能。针对区域的 序列假设可以包括针对包括该序列假设的多个等位基因的特定可变分数(fraction)。可 以使用说明(account for)相应序列假设中指定的等位基因的分数(例如,20% A:80%B) 的概率来确定针对变异区域的每个序列假设的似然性(likelihood)。因此,可以通过明确 地包括等位基因的可变分数作为优化中的参数来探索除了标准纯合和相等杂合(即,在细 胞中具有A的一个染色体和具有B的一个染色体)之外的其它假设。以此方式,可以更准 确地确定样本细胞的基因组之中展现出异质性的肿瘤样本的基因组组成。
[0008] 另外,可以为变异确定相对于参考的变异得分。此外,可以使用变异得分来确定 指示变异识别(call)正确的似然性的变异校准得分。可以通过从同一样本的两个测序 运行确定变异、辨识在一个基因组上看到变异、而在第二个基因组上未看到变异的不一致 (discordant)基因位点(loci),来确定这种变异校准得分。然后可以将变异得分分组,并 将似然性分配至变异得分的范围(例如,通过使用涉及对基因组的参考得分分组的迭代过 程)。可以通过比较肿瘤基因组与正常基因组以辨识不一致基因位点,来量化肿瘤中被辨识 为真正的体细胞突变的变异的体细胞得分。可以使用肿瘤基因组为假阳性和正常基因组为 假阴性的似然性来确定变异为真正的体细胞突变的似然性。
[0009] 根据一个实施方案,计算机实施的方法确定参考基因组与来自二倍体生物体的生 物样本的样本基因组之间的一个或多个变异。接收样本基因的读段(reads)以及所述读段 至参考基因组的映射。从来自生物样本的多个基因组片段的测序获得读段。辨识样本基因 组的第一区域,其具有包括相对于参考基因组中的对应区域的一个或多个变异的第一似然 性,其中第一似然性在第一阈值之上。确定第一区域中的样本基因组的起始假设。基于起始 假设生成第一区域中的样本基因组的一组假设。该组假设中的至少一个包括多个等位基因 以及对应于所述多个等位基因的每个的相应等位基因分数。对于该组假设中的每个假设, 使用概率函数为该假设计算概率得分。概率函数接收该假设的每个等位基因以及相应等位 基因分数的输入。该组假设中的第一假设包括具有在最小阈值分数与〇. 5之间的相应等位 基因分数的第一等位基因。基于概率得分选择顶级假设(top hypothesis)。基于顶级假设 为第一区域识别参考基因组与样本基因组之间的一个或多个变异。
[0010] 根据另一实施方案,计算机实施的方法确定样本的基因组中的变异识别的错误 率。接收第一变异识别和对应的第一变异得分。为已经在第一测序操作中从样本测序的第 一基因组识别第一变异识别。接收针对已经在不同于第一测序操作的第二测序操作中从同 一样本测序的第二基因组的第二变异识别。至少基于第一变异识别和第二变异识别确定第 一基因组与第二基因组之间存在不一致的不一致基因位点。基于第一变异得分将第一变异 分组为组的第一集合。为第一集合的每组确定指示变异为假阳性的似然性的变异校准得 分。为每组存储变异校准得分。
[0011] 根据另一实施方案,计算机实施的方法确定样本的基因组中的变异识别的错误 率。接收样本基因组的读段以及所述读段至参考基因组的映射。从来自生物样本的多个基 因组片段的测序获得读段。辨识样本基因组的第一区域,其具有包括相对于参考基因组中 的对应区域的一个或多个变异的第一似然性,其中第一似然性在第一阈值之上。基于第一 区域中的多个假设的概率得分确定顶级假设。基于顶级假设和至少一个其它假设计算第一 变异得分。使用第一变异得分以访问数据库表以获得指示顶级假设的错误率的校准得分。 校准得分对应于包括第一变异得分的变异得分的范围。
[0012] 根据另一实施方案,计算机实施的方法辨识第一样本中的体细胞突变。接收已经 基于第一样本的测序为第一基因组识别的具有第一变异得分的变异的第一集合。接收已经 基于第二样本的测序为第二基因组识别的具有第二变异得分的变异的第二集合。基于变异 的第一集合和变异的第二集合确定第一变异存在于第一基因组而参考识别存在于第二基 因组之处的一个或多个不一致基因位点。对于每个不一致基因位点,基于对应的第一变异 得分确定第一变异为假阳性的第一似然性。基于对应的参考得分确定参考识别为假阴性的 第二似然性。基于第一似然性和第二似然性确定表示第一基因组与第二基因组之间的不一 致为与错误相反的体细胞突变的似然性的体细胞得分。
[0013] 其它实施方案针对与与本文所述的方法关联的系统、便携式消费设备以及计算机 可读介质。
[0014] 可以参考以下详细描述和伴随附图获得对本发明的性质和优势的更好理解。

【专利附图】

【附图说明】
[0015] 图1是图示根据各个示例实施方案的、被配置为执行本文所述的技术的示例系统 的框图。
[0016] 图2是根据本发明的实施方案的、用于确定参考基因组与来自二倍体生物体的生 物样本的样本基因组之间的一个或多个变异的方法200的流程图。
[0017] 图3是图示根据一个实施方案的迭代假设评分的示例方法的框图。
[0018] 图4是图示具有不同基因组的不同细胞的不同混合物(mixture)的图400。
[0019] 图5示出三个不同样本501-503的基因组的图500。
[0020] 图6A示出图示根据本发明的实施方案的、有40DNB支持参考且10DNB支持替代 SNP的情形的图600。图6B示出图示根据本发明的实施方案的、有40DNB支持参考且OTNB 支持替代SNP的情形的图650。
[0021] 图7是根据本发明的实施方案的、使用可变等位基因分数以确定样本基因组中的 可能变异的方法700的流程图。
[0022] 图8是图示针对基于本文所述的技术确定的体细胞事件的R0C的示例的曲线图 800。
[0023] 图9是根据本发明的实施方案的、用于确定样本的基因组中的变异识别的错误率 的方法900的流程图。
[0024] 图10是图示根据本发明的实施方案的、用于确定校准得分的方法1000的流程图。
[0025] 图11A是示出根据本发明的实施方案的、针对单个覆盖面元(coverage bin)的情 况的预平滑收敛的图1100。
[0026] 图11B是示出方法1000的准确性的曲线图1150。
[0027] 图12A是示出根据本发明的实施方案的不同覆盖的校准得分的曲线图1200。
[0028] 图12B是图示根据本发明的实施方案的、针对覆盖40_50、20% AF校准如何与 50% AF校准比较的示例的图1250。
[0029] 图13是图示根据一个实施方案的、计算体细胞得分的示例方法1300的流程图。
[0030] 图14示出根据本发明的实施方案的、可用于系统和方法的示例计算机系统1400 的框图。
[0031] 定义
[0032] "基因组"是指表示存在在生物体的DNA中的整个、或基本上整个核苷酸碱基序列 的数据值的序列;基因组通常包括表示DNA和/或RNA (核糖核酸)的基因和非编码区域两 者的数据序列。
[0033] "参考多核苷酸序列"、或者简单地"参考"或"参考序列"是指表示参考生物体(例 如,人类生物体)中的核苷酸碱基的数据值的已知序列。参考可以是参考生物体的整个或 基本上整个基因组序列(也称为"参考基因组")、参考基因组的一部分、多个参考生物体的 共有序列、基于不同生物体的不同组成部分的汇编序列、从生物体的群体(population)提 取的基因组序列的集合、或者任何其它合适序列。参考还可以包括关于从已知要在生物体 的群体中发现的参考的变异的信息。
[0034] "样本多核苷酸序列"、或者简单地"样本序列"是指表示可涵盖基因、调节元件、基 因组DNA、cDNA、RNA (包括mRNA、rRNA、siRNA、miRNA等)和/或其片段的生物样本的核酸 序列的数据值的序列。样本核苷酸序列可以表示物理地存在在生物样本中的核酸、或者可 以表示次级核酸,诸如在库构建过程期间获得的扩增反应的产物(例如多联体)。样本序 列可以形成"样本基因组"。如果样本中的细胞具有不同基因组,那么所确定的样本基因组 可以被认为是样本中的细胞的基因组的"复合(composite)基因组"。因为两个不同测序运 行的读段可能不同,所以所得基因组(resultant genome)可能不同(即使仅仅相差一个碱 基),尽管使用同一样本,还有如果使用来自同一生物体的两个不同样本的情况下,也是如 此。
[0035] "基因位点"对应于基因组中辨识的位置,并且可以跨越单个碱基或多个碱基的顺 序系列。通常,通过使用关于参考基因组和/或其染色体的标识符值或标识符值的范围来 辨识基因位点;例如,"5100001"至"5800000"的标识符值的范围可以指在参考人类基因 组中的染色体1上的特定位置。"杂合基因位点"(也称为"het")是基因组中的染色体的 两个拷贝不具有相同序列的基因位点。在基因位点处的这些不同序列称为"等位基因"。 如果参考基因组位置具有通过单个碱基不同的两个等位基因,则het可以是单核苷酸多态 性(SNP)。"het"还可以是存在一个或多个核苷酸、或者一个或多个串联重复序列(tandem r印eats)的插入或删除(总称为"插入缺失(indel)")的参考基因组位置。"纯合基因位 点"是参考或基线基因组中染色体的两个拷贝具有相同等位基因的基因位点。染色体的"单 体型(Haplotype)"是指染色体在基因组中出现一次还是两次;对于癌症或其它肿瘤细胞 的基因组,染色体单体型可以是为非整数且/或大于2的值。基因组中的"区域"可以包括 一个或多个基因位点。
[0036] "片段"是指从例如人类的目标生物体中提取的生物样本中所包括、或从该生物样 本得到(例如,经由扩增)的核酸分子(例如,DNA)。片段可以具有不同长度(例如,短于 200bp ;200-500bp ;500-lKb,其中 1Kb = 1000bp ;lKb-10Kb,10Kb-50Kb,50Kb-100Kb,以及 长于100Kb)。"测序"(也称为"序列测定")确定辨识片段中的核苷酸的一个或多个序列 (读段)的信息。这种信息可以包括片段的局部以及全部序列信息的辨识或确定。可以以 不同的统计可靠性或置信的程度确定序列信息。
[0037] 如本文所使用的,"读段"是指表示一个或多个核苷酸碱基的一个或多个数据值 的集合。可以通过测序机器和/或已经执行对核酸片段的全部或部分的序列测定的关联 逻辑生成读段。"配对(mate pair)"(也称为"配对读段(mated read)"或"双端读段 (paired-end reads)")是指已经从同一片段的相对端确定的至少两个读段(也称为"臂 读段")。两个臂读段可以统称为配对,其中在关于该配对被测序的片段的两个臂读段之间 存在缺口(gap)。两个臂读段可以分别称为"左"臂读段和"右"臂读段;然而,应理解,任何 "左"(或"右")指定不限于严格地在左侧(或在右侧),因为可以关于各种参考点(诸如, 观察者的方向、DNA链的方向性(例如,5'端至3'端或相反)、或者为参考基因组选择的基 因组坐标系统)报告来自片段的臂读段的位置。读段可以存储有各种信息,例如,唯一读段 标识符、片段的标识符、和作为配对的部分的读段的配对标识符。"DNB"是指一个或多个读 段(例如,配对读段)已经被测序的核酸片段的序列。可以通过在臂读段之间具有缺口的 配对读段表示DNB。
[0038] "映射"是指将臂读段(或配对)与参考中的零个、一个或多个位置关联(例如,通 过将例示的臂读段或配对与对应于参考内的位置的索引内的一个或多个秘钥(key)匹配) 的数据。例如,映射可以将读段的标识符与参考基因位点的标识符关联。
[0039] "等位基因分数"是指对于基因组中的给定基因位点而从生物样本中所包括的核 酸片段测序的一个或多个等位基因的百分比。除了一些例外(例如,人类男性中的Y染色 体),诸如人类的二倍体生物体通常具有每个染色体的两个拷贝。因此,通常,基因组中的基 因位点可以是纯合(例如,在两个染色体拷贝上具有相同等位基因)或杂合(例如,在两个 染色体拷贝上具有不同等位基因)。因此,"相等的等位基因分数"值是指1. 〇 (例如,对于 在纯合基因位点处的等位基因的100%等位基因分数)或〇. 5(例如,对于在杂合基因位点 处的等位基因的50%等位基因分数)的数据值。
[0040] "可变等位基因分数"是指大于零但不同于0. 5和1的数据值。可变等位基因分数 值可用于针对如下情形:可以以不同于和100%的分数,在生物样本的核酸片段 中表示对于给定基因位点的等位基因。这样的情形可以包括、但不限于异质性、污染和非整 倍性(aneuploidy)。例如,肿瘤样本(例如,癌症样本)由于样本内的正常/间质组织污 染、或者由于同一肿瘤样本内的多个不同肿瘤群体而可以是异质的。在另一示例中,肿瘤样 本可以是非整倍性的,使得染色体(或其区域)具有不同于二的拷贝数目,由此导致在存在 三个拷贝时,等位基因分数从对于het的50%偏离至33%或66%。可变等位基因分数值 的示例包括、但不限于以下范围和/或其组合中的值:〇. 005至0. 10 ;0. 10至0. 20 ;0. 20至 0· 30 ;0· 30 至 0· 40 ;0· 40 至 0· 49 ;0· 51 至 0· 60 ;0· 60 至 0· 70 ;0· 70 至 0· 80 ;0· 80 至 0· 90 ; 0. 90至0. 99 ;以及更一般地,在0. 005至0. 49和0. 51至0. 99的范围中的任何值。
[0041] "假设"是指可包括一个或多个基因位点的基因组区域中可能出现的一个或多个 等位基因的集合。假设通常是二倍体且包括两个等位基因;然而,在一些实例中,假设可以 仅包括一个等位基因(例如,对于人类男性中的Y染色体中的区域)或多于两个等位基因 (例如,可用在一些实施方案中的三倍体或更高假设)。"参考假设"是指包括对于给定基因 组区域的来自参考基因组的等位基因的假设。"纯合假设"是指包括对于给定染色体的两个 拷贝中的相同的对应基因组区域的相同等位基因的假设。"杂合假设"是指包括对于给定染 色体的两个拷贝中的相同的对应基因组区域的两个不同等位基因的假设。"三倍体假设"是 指包括对于给定染色体中的相同的对应基因组区域的三个或更多个不同等位基因的假设。
[0042] "变异"是指在生物样本序列中的给定基因位点处的、与位于参考序列中的对应基 因位点处的等位基因通过一个或多个碱基不同的等位基因。"小变异"是指包括一个至几 十个核苷酸碱基的变异;例如,小变异可以在如下范围中:1_1〇碱基对(或bp),l_20bp, l-30bp,l-40bp,l-50bp,l-60bp,l-70bp,l-80bp,l-90bp,l-100bp,l-110bp,l-120bp, l-130bp,l-140bp,l-150bp,l-160bp,l-170bp,l-180bp,l-190bp,l-200bp,1-300 以及更一 般地,在l-300bp或更大的范围的任何子范围中。不同类型的变异的示例包括、但不限于 SNP、插入缺失、拷贝数目变异("CNV")、结构变异("SV")等。"参考识别"是从读段的集 合确定基因位点为纯合且等于该参考。
[0043] "得分"是指定量表征例如假设、等位基因、变异等的值。得分可以以分贝(dB)度 量并且可以基于用于表示概率、似然性和似然比的对数尺度。例如,以dB表示的两个概率 Pi与P2之间的似然比(例如,R = P1/P2)的值是10*l〇g1(lR。在使用分贝来编码错误概率 P(例如,如在碱基识别(basecall)质量得分或误映射概率中)的情况下,得分可以表示为 (_10)*log10P。
[0044] "逻辑"是指当由一个或多个计算设备的一个或多个处理器(例如CPU)执行时可 操作以执行一个或多个功能和/或返回以一个或多个结果的形式的数据或由其它逻辑元 件使用的数据的指令的集合。在各个实施方案和实施方式中,任何给定逻辑可以被实施为 可由一个或多个处理器(例如CPU)执行的一个或多个软件组件,被实施为诸如专用集成电 路(ASIC)和/或现场可编程门阵列(FPGA)的一个或多个硬件组件,或者被实施为一个或 多个软件组件和一个或多个硬件组件的任意组合。任何特定逻辑的软件组件可以在无限制 的情况下被实施为独立的或客户端-服务器软件应用,被实施为一个或多个软件模块,被 实施为一个或多个功能库,以及被实施为一个或多个静态的和/或动态链接的库。在执行 期间,任何特定逻辑的指令可以体现为一个或多个计算机进程、线程、光纤、以及可以在一 个或多个计算设备的硬件中实例化且可被配备诸如存储器、CPU时间、存储空间和网络带宽 的计算资源的任何其它合适的运行时实体。

【具体实施方式】
[0045] 癌症样本是复杂的。例如,肿瘤样本的不同细胞可能具有不同的基因组。由于对 正常DNA的污染和/或肿瘤进化中的多个分支,这些样本经常在基因组中展现出这种异质 性。当在同一测序实验内分析这些不同细胞时,所测量的在特定基因座处的等位基因的拷 贝数目可能变化。例如,具有特定等位基因的DNA的百分比(等位基因分数)可能具有在 0%与100%之间的任何值。因此,在研究癌症基因组的重大挑战是能够检测癌症样本中的 细胞的小分数中存在的变异。
[0046] 为了解决此挑战,用于确定特定区域中的样本的基因组的过程可以明确地允许等 位基因分数在值的范围之间变化(例如,在〇%与100%之间的任意值)。样本的此确定的 基因组可以有效地是正被测试的样本内的不同细胞的基因组的复合物。因此,可以使用实 施方案确定肿瘤样本的基因组组成的更完整画面。
[0047] 为了确定此复合基因组,对于区域的序列假设(S卩,对于该区域中的复合基因组 的假设)可以包括对于包括该序列假设的多个等位基因的特定可变分数。可以使用说明相 应序列假设中指定的等位基因的分数的概率函数,来确定对于变异区域的每个序列假设的 似然性。例如,特定基因座处的特定等位基因可能出现在样本的DNA材料的20%中,而不出 现在样本的DNA材料的其余80 %中。概率函数可以接收等位基因分数作为输入,因此具有 不同等位基因分数的假设将具有不同似然性。因此,本文所述的VAF(可变等位基因分数) 模型的实施方案可以分配反映具有不是纯合(染色体相同)或杂合(两个不同等位基因的 相等百分比)的等位基因的此可能性的得分。在一个实施方案中,可以要求等位基因分数 在阈值之上,例如用以避免对测序错误计数。
[0048] I.流水线(pipeline)
[0049] 当从生物体(例如,人类)获得生物样本时,可以对样本中的核酸测序以确定样本 的基因组。通常,构建样本基因组的部分涉及将序列映射至参考基因组(将序列与参考基 因组联配(align))、以及辨识序列与参考之间的变异。然而,确定序列的过程不是无错误 的。因此,确定测序数据实际上是否指示真正的变异可能是困难的。当样本实际上是不同 细胞(它们的基因组不同)的复合物时,此困难会更复杂。以下流水线提供可用于辨识样 本中的仅一些细胞的基因组中的变异并确定出现变异的细胞的分数的方法的各个实施方 案。流水线还可以用于确定肿瘤样本中相对于生物体的正常基因组的体细胞变异是否为真 正的变异的似然性。
[0050] A.系统
[0051] 图1是根据本发明的实施方案的、被配置为执行用于识别变异的技术的示例系 统100的框图。在一些实施例中,系统100或其特定子系统可以用在本文所述的方法和技 术的任何一个中。系统100可以包括多个子系统,例如,诸如测序机器110的一个或多个 测序机器、诸如计算机系统130的一个或多个计算机系统、以及诸如数据存储库160的一 个或多个数据存储库。各个子系统可以通过一个或多个网络120而通信地连接,所述一个 或多个网络120可以包括分组交换或其它类型的网络基础架构(infrastructure)设备 (例如,路由器、交换机等),其被配置为便利于远程系统之间的信息交换。美国专利申请 No. 12/770,089中描述了系统100的实施方式的特定方面,通过引用将其全部内容合并在 此,如同完全在这里阐述其一样。
[0052] 测序机器110被配置为且可操作以接收从生物样本中的分子得到的核酸片段 105,并对片段执行测序。可以使用可以执行测序的任何合适的机器。在一些实施方案中, 片段的测序可以导致不包括缺口的读段。在其它实施方案(诸如图1中图示的实施方案) 中,目标核酸的测序可以导致获得配对读段162,其被传送至数据存储库160以用于永久存 储。配对读段162包括来自片段的不同端的两个臂读段。
[0053] 可以在一个或多个可以以诸如网格、存储集群、存储区域网络(SAN)和/或网络附 加存储(NAS)的合适方式互联的存储设备(例如,硬盘驱动器、光盘、固态驱动器等)上实 施数据存储库160。在各个实施方案中,数据存储库160可以被实施在存储设备上,作为将 信息存储为文件的一个或多个文件系统、作为将信息存储在数据记录中的一个或多个数据 库、以及/或者作为任何其它合适存储组织。在所示的实施方案中,数据存储库160被配置 为存储参考基因组161、配对读段162、以及配对读段至参考基因组161的映射163的序列。 数据存储库160还被配置为存储各种其它数据164,其包括、但不限于计算机系统130中的 各个计算机逻辑生成的假设数据、变异评分数据、校准数据、以及各种其它中间数据和/或 最终结果(例如,变异文件)。
[0054] 计算机系统130可以包括一个或多个计算设备,其包括通用处理器(例如,中央处 理单元或CPU)、存储器、以及与配置数据或软件一起可以执行本文所述的技术的逻辑。在 一些实施方案中,计算机系统130可以是单个计算设备。在其它实施方案中,计算机系统可 以包括可以在网格或集群中通信地和/或操作地互联的多个计算设备;可以以诸如计算节 点、叶片(blade)或任何其它合适的硬件配置的不同外形因素配置这类多个计算设备。
[0055] 在所示的实施方案中,计算机系统130包括组装(assembly)逻辑131(也称为"组 装器"),其被配置为执行本文所述的用于识别变异的技术。映射逻辑132被配置为将配对 读段162映射至参考基因组161并且生成并存储映射163。区间发现逻辑133被配置为确 定(例如,至少基于配对读段162和映射163)可能似真地包含变异(包括小变异)的生物 样本的样本基因组中的变异区间(也称为变异区域)。优化逻辑134被配置为搜索假设的 空间以基于概率得分发现最优假设,例如用以确定每个变异区间的最大似然性假设。变异 识别逻辑135被配置为识别变异并基于最优假设分配指示变异假设的似然性的变异得分。
[0056] 假设重新评分逻辑136被配置为对变异的假设进行重新评分(潜在地改变变异得 分)。相关性过滤逻辑137被配置为确定分段重复并且不识别对应基因组区域中的变异。 注释逻辑137被配置为利用来自各个基因组数据库的信息注释所识别的变异,并将注释存 储在变异文件或其它合适的存储结构中。逻辑132、133、134、135、136、137和138的功能可 以实施在同一集成模块中(例如,在集成组装逻辑中),或者可以组合在可提供一些附加功 能的两个或更多个模块中。
[0057] B.方法
[0058] 图2是根据本发明的实施方案的、用于确定参考基因组与来自二倍体生物体的生 物样本的样本基因组之间的一个或多个变异的方法200的流程图。方法200可以由系统 1〇〇执行。至于其它方法,可以以与所呈现的不同的顺序执行各个步骤。
[0059] 在块210,接收样本基因组的读段以及读段至参考基因组的映射。可以从对来自生 物样本的多个基因组片段进行测序的测序机器110接收读段。读段(例如,配对读段162) 可以被发送至计算机系统130以用于分析。读段至参考基因组的映射可以是精确的、或具 有错配(例如,小于诸如2的阈值)。对于一些配对,配对的仅一个臂读段匹配。
[0060] 在一个实施方案中,对于配对的每个臂,映射逻辑132可以发现所有完美匹配和 所有卜不一致(k = 1)匹配,发现多至k = 5的一臂匹配的大(substantial)分数,以及 发现所有k = 2匹配。彼此几个碱基以内的映射可以被解重复。例如,克隆DNB可能不是 独立生成的,但是每个独立地贡献于得分。可以通过序列相似性移除重复DNB。在本地解重 复之后具有太多索引命中或太多匹配的臂读段可以被标记为"溢出",并且省略臂读段的映 射。可以过滤掉包括重复的基因组位置的读段。
[0061] 在块220,辨识样本基因组的第一区域,其中该第一区域具有在第一阈值之上的、 包括相对于参考基因组中的对应区域的一个或多个变异的第一似然性。例如,如果特定基 因座具有参考基因组中的等位基因 A,并且等位基因 G的显著分数(即,大于阈值)在被映 射至特定基因座的读段中出现,那么可以辨识包括该特定基因座的区域。作为另一示例,可 以使用概率函数来测试是否存在一个或多个其他等位基因为任意分数的足够充分似然性 (即,大于阈值的概率)。可以辨识多个这样的变异区域,并且可以将一些变异区域组合以 创建更大区域(例如,当两个区域彼此靠近时)。
[0062] 因此,区间发现逻辑133可以扫描由读段表示的样本基因组,寻找可能似真地包 含SNP或短插入缺失的基因组的区域。结果可以提供(1)在优化阶段中被更详细调查的变 异区间(也称为变异区域)的集合、以及(2)给出变异存在在任意给定碱基的似然性的指 示的参考得分。在一个实施方案中,区间发现逻辑133可以尝试每个一碱基( 〇ne-base)SNP 的假设。
[0063] 区间发现逻辑133还可以运行本地从头(de novo)组装逻辑以发现插入缺失。在 参考的本地从头逻辑指示插入缺失存在的甚至细微证据的每个位置,区间发现逻辑133可 以尝试所有一碱基插入缺失。区间发现逻辑133还可以尝试低复杂度区域(例如,均聚物 运行(run)、二核苷酸运行、以及多至10的重现周期的其它低复杂度序列)中的所有单拷贝 插入或缺失。区间发现逻辑133可以另外尝试所有已知插入缺失以及短块替换,其是从变 异的一个或多个数据库(例如,专有变异数据库和/或诸如dbSNP的公开可用数据库)取 得的。
[0064] 在块230,确定针对样本基因组的第一区域的序列假设的优化列表。在一个实施方 案中,优化逻辑134可以接收本地从头组装的结果、已知插入缺失和块替换的集合、以及参 考中的任意一个作为初始种子(起始假设)的输入用于优化。优化逻辑134可以使用起始 假设以在急切的寻找最大似然性假设的优化过程中生成新假设。
[0065] 每个序列假设具有概率得分,其用于确定优化列表。单个序列假设可以包括对应 于第一区域的一个或多个序列。例如,一个假设可以是第一区域对于同一 7nt为纯合,其有 效地辨识针对第一区域中的样本基因组的两个相同序列。此假设将具有一个概率得分(例 如,如使用贝叶斯框架和映射信息而确定的)。针对第一区域的另一假设可以是第一区域 中的第三位置对于两个等位基因(例如,A和G)为杂合。然后,假设将是在第三位置不同 的两个不同序列。又一假设可以是等位基因A存在80 %且等位基因G存在20 %,这将在 样本中的细胞的60%对于A为纯合且40%对于A/G为杂合的情况下发生。计算将如下: 0. 6+0. 4*0. 5 = 0. 8 (即80 % )以及0. 4*0. 5 = 0. 2 (即20 % )。下面将更详细讨论等位基 因分数的概念。
[0066] 有时,仅一个假设具有可评估的(appreciable)概率得分(例如,在阈值之上)。 其它时间,几个概率可能相对接近(即使大dB差异也可以被认为接近)。在这样的实例中, 可能需要进一步的分析。当变异多于一个碱基(例如,10或20个碱基)时,通常将发生使 得几个假设在概率得分上接近。在这样的复杂变异中,多个假设可能具有相似的概率。在 任一情况下,顶级假设或所有假设以及它们相应的概率得分可以被提供至变异识别器以用 于解析。
[0067] 在块240,基于序列假设的优化列表辨识第一区域中的一个或多个变异识别的初 始集合。如果仅一个假设作为可评估的概率,那么可以简单地选择该顶级假设。在此情 况下,如果顶级假设不同于参考,那么可以识别变异。然而,当多个假设相对接近(例如, 100dB)时,可以执行更复杂分析。
[0068] 变异识别逻辑135可以从优化阶段期间生成的评分的假设的优化列表中确定最 有可能的假设,以识别变异或不进行识别。例如,可以使用顶级假设的概率得分的相对值 (变异得分)以确定指示顶级假设比第二高假设更有可能正确的可靠性的变异得分。在一 个实施方案中,如果变异得分在阈值之上,那么进行变异识别。如果变异得分在阈值之下, 那么可以不进行识别;假设和它们的概率得分可以被传递至进一步的阶段,因为重新评分 可能改变识别,或者简单地被输出以用于分析。因此,在合适的永久或临时数据结构中,变 异识别器将识别的集合与它们对应的变异得分和次佳假设一起存储和/或输出。
[0069] 在块250,可以对一个或多个变异识别的初始集合的变异得分进行重新评分。例 如,可以限制一个读段对变异得分的贡献。以此方式,可以通过确保单独的读段无法提供对 假设的压倒性(overwhelming)支持来实现假阳性率的降低。
[0070] 在块260,可以基于样品基因组的区域(例如,第一区域)与其它区域的相关性过 滤特定变异。相关性过滤逻辑137可以辨识假设的概率得分很可能由于与基因组的其它区 域的序列相似性而不可靠的区域。相关性过滤逻辑137可以将变异识别改变为不识别,以 降低重复区域中的变异检测的假阳性率。例如,在前组装阶段内的逻辑孤立地考虑基因组 的每个区域,并假定基因组的其余等于参考。结果,在分段重复和读段无法被唯一地映射的 具有大规模相似性的其它区域内,变异识别器可以识别具有相似性的所有区域中的变异, 其本应仅对于一个区域被识别。因为读段无法辨别这些变异真正存在于基因组的哪个区 域,所以可以不识别这样的重复区域。
[0071] 在块270,使用复制校准确定校准得分。来自块250的置信得分对于确定变异是否 实际存在来说可能不准确。得分反映了在给定数据的情况下哪个假设更有可能,但是,由于 数据中的错误,假设可能实际上不正确。复制评分提供创建变异多有可能实际上存在的得 分的方式。还可以确定参考校准得分以测量参考识别为假阴性的似然性。可以通过比较从 同一样本确定的基因组、并分析一个基因组具有变异且第二基因组具有参考识别的不一致 基因座,确定这些校准得分。
[0072] 在块280,可以为变异发生在肿瘤样本中、而非正常样本中的基因座确定体细胞得 分。可以通过对肿瘤样本执行测序运行以确定肿瘤基因组中的第一变异、并对肿瘤样本执 行测序运行以确定正常基因组中的第二变异,来确定这种不一致基因座。然后,可以使用肿 瘤基因组的变异得分来确定假阳性的似然性,并且可以使用正常基因组的参考得分来确定 假阴性的似然性(例如,使用块270中的校准得分),它们可以被组合以确定体细胞突变是 否为真的似然性。
[0073] C.区间发现
[0074] 在各个实施方案中,区间发现过程可以包括针对以下中的一个或多个尝试假设: (1)针对任何等位基因分数的SNP的所有可能的一碱基变异;(2)所有可能的一碱基插入和 删除,其中本地从头组装指示插入缺失存在在纯合和杂合形式中的甚至细微证据;(3)在 纯合和杂合形式中的多至10个碱基的串联重复循环中的所有单拷贝插入或删除,其中本 地从头组装产生插入缺失的证据;(4)从已知变异的一个或多个数据库取得的已知插入缺 失和短块替换;以及/或者(5)由本地从头组装的快速版本发现的(几个核苷酸的)短插 入缺失。
[0075] 对于每个假设G,逻辑可以计算该假设为正确的似然性L(G)。在大多数位置,L(G) 被计算为负,指示参考比任何其它变异更有可能在该位置。在一碱基变异出现的情况下, L(G)被计算为大且正的。在含有(harbor)更长变异的区域中,一碱基变异的L(G)通常仍 然为负,但比在没有变异出现的区域中小得多的程度。在此事件下,L(G)可以用于指示附 近变异的存在,并且这样的变异区域可以被标记用于在后续阶段中的优化。在一个实施方 案中,逻辑可以在不试图优化的情况下不识别长于200个碱基的区间,因为优化可能变得 太计算密集。
[0076] 当扫描SNP的所有可能的一碱基变异时,可以为基因组中的每个位置计算概率得 分,以给出变异在任意给定碱基存在的似然性的指示。大于阈值(例如,10dB)的概率得分 可以标记用于优化阶段中的优化的区间。变异区域可以比仅一个碱基大,例如,以SNP为中 心的窗口,诸如7碱基窗口。
[0077] 对于稍大于一个或两个碱基的变异(例如,10个碱基),可以使用本地从头组装的 图版本。可以通过辨识图中的不同于参考的一些分支(例如,大于某个阈值)何时出现、然 后将那些区域简单地辨识为可能包含变异,来使用快速版本。用于确定变异区域的阈值还 可以是支持特定分支的配对的数目、或者基于该数目。在一些读段被部分地映射至该区域、 但是一旦读段进入该区域就开始不同时,这种使用可以发生。可以使用未映射的读段的重 叠来确定用于优化的变异区域中的起始假设。
[0078] 对于更大变异(例如,大于20个碱基),可能不存在任何映射至实际变异的区域的 读段。可以通过查看区域的覆盖改变(其可指示插入缺失或重排)来辨识这样的区域。一 旦辨识了区域,本地从头可以查看一臂读段在该区域附近(例如,在500个碱基内)映射的 配对。然后,可以分析另一臂读段以辨识这些另外臂读段之间的一致性。这些另外臂读段 可能不映射至参考基因组上的任何位置(至少不在所映射的臂读段的预期范围内)。这样 的配对可以称为不一致配对。可以使用如本文提及且在美国专利申请No. 12/770, 089中描 述的de Brujin图来确定未映射的臂读段之间的一致性。
[0079] D.优化
[0080] 在各个实施方案中,可以通过以下假设之中的最有可能的假设来接种(seed)优 化过程:参考假设;通过使用本地从头组装而被发现为似乎合理的假设的假设集合;在已 知变异(其可以从对亲本、同胞或其他家族的基因组测序而已知)的一个或多个数据库中 组装的插入缺失和块替换的集合中的假设集合;单个读段,当整个读段覆盖变异区域时; 以及用于肿瘤样本的种子的正常基因组。使用已知变异可以提高插入敏感度并减少假阴性 (例如,称为参考的插入缺失),尤其对于其它变异附近的插入缺失和SNP。
[0081] 此起始假设可以用作至优化过程(例如,急切的优化过程)中的输入,该优化过程 搜索等位基因的最有可能的组合一辨识最大似然性(或顶级)假设。在一个实施方案中, 在优化的每次迭代,逻辑评估通过从起始假设偏离对应于单个SNP、一碱基插入缺失、或者 添加或减去简单重复(诸如均聚物和二核苷酸运行)的单个拷贝的插入或删除的单等位基 因变异而生成的每个假设的似然性(概率得分)。也可以以其它方式生成用于迭代的假设 组。
[0082] 在每个后续迭代,计算机逻辑采取在前一迭代期间发现的最佳(顶级)假设作为 输入。在一个实施方式中,经由贝叶斯框架(下面描述)确定概率得分以计算假设的似然 性。当优化的迭代不能发现更有可能的假设时,计算机逻辑已经收敛在本地最小,并且优化 完成。此方法允许发现隔离的变异和区间内多个SNP和插入缺失的任意组合、以及相反的 单体型上的重叠的不同变异两者。对于每个区间,在合适的永久或临时数据结构中,优化逻 辑可以存储和/或输出被用作至基于这些值识别变异的下个(变异识别)阶段中的输入的 最有可能的假设的列表。
[0083] 作为示例,如果组(例如,在迭代期间生成的组)中的特定假设具有比起始假设更 好的得分,那么逻辑可以选择此特定假设作为用于下个迭代的新起始假设。逻辑可以使用 新起始假设以生成针对该区域的新假设组,并对新假设组中的每个假设进行评分。计算机 逻辑可以重复此过程一次或多次,直到当前起始假设具有比当前假设组中的任何假设更好 的得分为止。
[0084] 图3示出根据本发明的实施方案的、用于选择新起始假设的示例过程300。该过程 以假设"H0"作为起始(或种子)假设(其包括两个等位基因一 "ACG"和"ACG")而开始, 并且为此假设计算得分" 100"。基于假设"H0",计算机逻辑生成假设组并对该组中的每个 假设进行评分;然后,计算机逻辑确定该组中的一个特定假设,即假设"H1"(其包括两个等 位基因一 "TCG"和"ACG"),具有比假设"H0"更好的得分("120")。计算机逻辑然后将假 设"H1"设置为新起始假设,基于新起始假设生成新假设组,并对新组中的每个假设进行评 分。通过比较所计算的得分,计算机逻辑确定新组中的最佳评分假设,即假设"H2"(其包括 两个等位基因一 "TCT"和"ACG"),具有比新起始假设"H1"更低的得分;因此,计算机逻辑 选择假设"H1"作为变异区域的顶级假设,并结束评分过程。
[0085] E.变异识别
[0086] 现在描述变异识别的各个实施方案。变异识别器逻辑可以被配置为将来自优化阶 段的经评分的假设转变成经评分的变异识别和不识别。因此,变异识别器可以确定在哪里 进行识别、在哪里不进行识别、如何将识别与样品基因组联配、赋予每个变异识别什么变异 得分、以及如何将单体型标识符分配至变异识别。单体型ID辨识染色体拷贝,使得如果两 个等位基因具有相同单体型ID (例如,"0"或" 1"),则其将意味着所述两个等位基因出现 在给定染色体的同一拷贝中。在一个实施方案中,变异识别器逻辑使用贝叶斯模型来计算 来自优化阶段的任意两个假设的概率比,并且,然后根据此贝叶斯概率模型,基于最有可能 的假设进行变异识别。
[0087] 变异识别器可以通过使用具有仿射缺口(affine gap)成本的简单序列对准器将顶 级假设与基因组联配而开始。联配中的缺口表示插入缺失。不在其它变异附近的缺口(插 入缺失)可以被强制为左侧、为规范形式。另一变异的两个碱基内的插入缺失留在另一变 异附近(are left near the other variant),因为这些被转变成块替换识别。一方面,最 终进行的所有识别将与顶级假设的此联配一致。
[0088] 基于顶级假设的联配,变异识别器逻辑可以确定识别的初始集合以及识别边界。 例如,如果存在同一等位基因上的SNP、参考碱基和SNP,则可以视为三碱基替换的单个识 另IJ。但是,如果假设具有SNP、两个参考碱基和SNP,那么可以视为两个分别的SNP识别、以 及它们之间的一个参考识别。因此,在一个实施方案中,任何两个连续的参考碱基识别将识 别分裂为两个分开的变异识别和一个参考识别。一旦逻辑已经确定每个等位基因的识别边 界,然后逻辑就可以确定基因座边界。为了确定基因座边界,逻辑可以将变异区间分裂为由 以下规则定义的初始变异基因座:将重叠了至少一个参考碱基的识别合并为单个基因座; 并且将具有0个参考碱基的识别(例如,插入)与任何相邻基因座合并。
[0089] 一旦变异区间被分裂为变异基因座,变异识别器逻辑就迫使基因座转变为适当的 倍性(ploidy)。对于三倍体假设(下面更详细讨论的),每个基因座被分别迫使转变为二 倍体假设。大多数三倍体假设可以被迫使转变为二倍体变异基因座,因为在每个基因座处 通常仅有两个不同等位基因。然而,应注意,当迫使三倍体假设转变为二倍体基因座时,某 些相位信息可能丢失。而且,可能不识别具有三个等位基因的变异基因座。对于具有三个 等位基因的变异基因座,必须不进行识别。实际上,大多数三倍体假设可以被迫使转变为二 倍体变异基因座,因为在每个基因座处,仅有两个不同等位基因。当三倍体假设被迫使转变 为二倍体基因座时,某些单体型ID信息丢失。
[0090] 对于顶级假设的lOdB内的每个附加假设,变异识别器逻辑使用与用于顶级假设 相同的规则(除了可以优选地将缺口布置在与顶级假设中的变异相同的位置之外),将假 设与参考联配。对于每个这样的假设联配,变异识别器逻辑将联配的碱基与顶级假设比较。 在任何偏差(discrepancy)位置,变异识别器逻辑可能需要不进行识别。
[0091] 变异识别器逻辑计算每个识别的初始变异得分作为最有可能的假设与不包含给 定候选变异的次佳纯合假设(即,相互矛盾的假设)相比较的概率比的对数(分贝分离 (decibel separation), dB)。如果给定变异的变异得分超过阈值(例如,对于纯合和杂合 变异分别为10dB和20dB),则变异识别器逻辑识别变异以及其变异得分。如果变异得分在 阈值之下,则变异识别器逻辑针对参考的对应部分而报告"不识别"。
[0092] 对于杂合识别,变异得分是顶级假设得分与在识别的位置处为纯合、但与识别不 一致的第一假设的得分之间的差异。因此,该得分比识别的正确性更加指示识别的存在。此 定义可以通过以下示例说明:
[0093] 顶级假设(得分 100) :ACAG-AAAAAAAATGC
[0094] ACAGAAAAAAAAATGC
[0095] 下个假设(得分 30) :ACAG-AAAAAAATGC
[0096] ACAGAAAAAAAAATGC
[0097] 参考假设(得分 0) :ACAGAAAAAAAAATGC
[0098] ACAGAAAAAAAAATGC
[0099] 在此示例中,变异识别器将识别具有得分100、而非70的杂合一碱基缺失(在第 五个位置中被标记为"一")。原因是,虽然关于两碱基缺失,存在70dB的对一碱基缺失 的支持,但是存在100dB的对非参考变异的支持。此定义得分的方式产生用于生殖细胞 (germline)序列为参考的体细胞事件的改进的R0C (接收器操作特性)曲线,但是用于错配 事件的R0C曲线更差。可以通过对次佳假设设置得分上的阈值(例如,20dB)来缓和用于 错配事件的更差的R0C曲线。基于校准结果,在20dB识别的变异可能与为真相比,有10倍 (10X)可能性为假。
[0100] 对于纯合识别,变异得分是顶级假设得分和与识别不一致的第一假设之间的差 异,并且使用与用于杂合识别相同的规则确定另一识别的变异得分。这样,具有较低得分的 识别指不在此基因座没有其他等位基因,而具有较商得分的识别指不此等位基因存在在此 基因座。当变异识别器逻辑将变异得分应用至识别时,变异识别器逻辑记录被用于确定变 异得分的次佳假设,因为可以在假设重新评分阶段中对此假设进行重新评分。
[0101] 类似地,参考得分是参考的似然性除以最佳非参考假设的似然性,例如,如以分贝 表示的。因此,参考得分10意味着参考的可能性为任何其它假设的10X,得分20意味着 参考的可能性为任何其它假设的ΙΟΟχ,而得分30意味着参考的可能性为任何其它假设的 ΙΟΟΟχ。参考得分-10意味着一些其它假设的可能性为参考的10x。
[0102] F.相关性过滤
[0103] 如上所述,相关性过滤逻辑可以在类似于其它区域的区域中将变异识别改变为不 识别,由此大幅减少重复区域中的假阳性识别。例如,在某些情况下,由于具有至两个区域 的良好映射的配对,一次需要考虑两个区域。
[0104] 基于所存储的信息,变异识别器可以计算序列假设G的似然性为对数似然比 L (G),其中L (G) = log (Pv/PKrf)。Pv是1碱基初始假设的概率,而PMf是参考&中的碱基值 的概率。可以在于每个碱基位置计算概率比期间使用每个碱基位置附近的映射的配对读段 的集合。
[0105] 上述公式化用于计算对于仅在单个小面积(称为活性(active)区间)中不同于 h的基因组G的L (G)。在该情况下,在G和&在活性区间外部相同的假定下,计算L (G)给 出关于活性区间中给定变异的似然性的信息。然而,同时考虑变异在基因组A和B的两个 分开区域(潜在地彼此远离)中的可能存在也是有用的。尤其,如果两个区域被充分大的 距离分开,则特定多核苷酸序列(诸如通过特定经验操作生成的那些多核苷酸序列)不可 能具有覆盖(甚至部分地覆盖)两个区域的映射。在以下基因组中,考虑两个区域1和2:
[0106] 基因组匕,其在区域1中不同于参考,但在区域2中与参考相同。
[0107] 基因组G2,其在区域2中不同于参考,但在区域1中与参考相同。
[0108] 基因组G12,其在两个区域中不同于参考,并且其在区域1中与匕相同且在区域2 中与G 2相同。
[0109] 在大多数情况下,等式L(G12) =L(Gi)+L(G2)将成立(S卩,两个区间不相关),因为 支持h的臂读段的集合与支持G2的臂读段的集合不相交。然而,存在两个支持臂读段的集 合相交的情形,例如:
[0110] 两个活性区域少于?40个碱基,使得单个DNB臂可能重叠两者。两个活性区域的 距离近似等于配对缺口长度,使得单个DNB可能重叠两者。
[0111] 两个活性区域在基因组中彼此距离任意距离,但在序列中是相似的(精确地或近 似地),并且DNB可能具有至两个区域的良好映射。
[0112] 在这些情形中,相关项出现,并且L(G12)不再等于L(Gi)和L(G 2)的和,而是L(G12) =L(GJ+L(G2)+G12,其中C 12是相关项。可以使用在优化阶段存储的信息计算C12,因此可以 为每对识别的变异计算L(G 12)。然后可以将L(G12)与UGJ和L(G2)两者相比较。
[0113] 相关项的值可以揭示与通过孤立地考虑L(Gi)和L(G2)而将达到的结论相矛盾的 信息。例如,在具有高序列相似性的区域对中,可以具有大的近似相等的值UGJ =L(G2) =L(G12)。在此示例中,所有三个以下假设具有等同的可能性:变异存在在区域1中,且不 存在在区域2中;变异存在在区域2中,且不存在在区域1中;以及变异存在在两个区域中。 因此,对于两个可能变异的每个,存在具有相等似然性的互相矛盾的假设,一个假设指示变 异存在,而另一个假设指示变异不存在。为此,计算机逻辑在相关性过滤阶段可以检测这样 的重复区域并且不识别可能已经在这样的区域中被识别(在在前阶段)的变异。
[0114] 在一个实施方案中,如果这三个量L(G12) KGJ和L(G2)中之一超过了另两个多于 预定阈值(例如,30dB),那么识别对应的假设。这将意味着两个变异之一很有可能实际上 不存在,因此将对应的区域识别为等于参考。在某些情况下,三个量中的两个太接近以至于 不能确信地做出选择。这可能导致某些不识别的区域被添加至变异文件。例如,如果L(G 12) =200(^,1^?) = 200dB,L(G2) = 100dB,则两个最有可能的假设两者在区域1中均包含变 异,其因此仍然被识别。然而,区域1中的变异需要不被识别,因为G 12和匕具有同等的可 能性。
[0115] II.EAF 方法
[0116] 在相等等位基因分数(EAF)方法中,对于在基因座的假设存在三个选项:对于第 一等位基因 A的纯合(100% A: Ο % B),对于第二等位基因的纯合(0% A: 100 % B),或者杂 合(50% A:50%B)。这些选项是在确定基因组时考虑的标准选项。采取最高的选项作为在 该基因座的假设。可以使用贝叶斯概率模型计算概率。
[0117] 在这些实施方案中,计算机逻辑从贝叶斯概率模型计算序列假设的得分,贝叶斯 概率模型例如可以考虑:证据的数量(读段深度);证据的质量(碱基识别质量得分);映 射/联配概率(证据的选择);以及关于缺口大小和不一致率的经验先验。因此,概率可以 基于对于读段的测量的错误(质量)(例如,图像处理错误)、读段对于给定假设的一致性、 以及缺口概率(假定的缺口是否在预期范围内)。
[0118] 在一个示例中,贝叶斯概率模型指示在给定原始数据中存在的对应于DNB (可以 从其获得配对的分子的示例)的读段的集合的情况下的假设的似然性:
[0119]

【权利要求】
1. 一种确定参考基因组与来自二倍体生物体的生物样本的样本基因组之间的一个或 多个变异(variant)的方法,所述方法包括: 接收所述样本基因组的读段(read)以及所述读段至所述参考基因组的映射 (mapping),其中从来自所述生物样本的多个基因组片段的测序获得所述读段; 辨识所述样本基因组的第一区域,所述第一区域具有包括相对于所述参考基因组中的 对应区域的一个或多个变异的第一似然性,所述第一似然性在第一阈值之上; 确定所述第一区域中的样本基因组的起始假设; 基于所述起始假设,生成所述第一区域中的样本基因组的每个的一组假设,其中该组 假设中的至少一个包括多个等位基因以及对应于所述多个等位基因的每个的相应等位基 因分数; 对于该组假设中的每个假设: 使用概率函数为该假设计算概率得分,所述概率函数接收该假设的每个等位基因以及 相应等位基因分数的输入, 其中,该组假设中的第一假设包括具有在最小阈值分数与〇. 5之间的相应等位基因分 数的第一等位基因; 基于所述概率得分选择顶级假设(top hypothesis); 基于所述顶级假设,为所述第一区域识别(call)所述参考基因组与所述样本基因组 之间的一个或多个变异, 其中,所述方法由一个或多个计算设备执行。
2. 如权利要求1所述的方法,其中,生成所述第一假设包括: 确定具有在所述第一区域的第一等位基因的读段的百分比;以及 使用所述百分比作为所述第一假设的相应等位基因分数。
3. 如权利要求1所述的方法,其中,生成所述第一假设包括: 为所述第一等位基因的多个等位基因分数的每个计算概率得分;以及 选择提供最高概率得分的等位基因分数作为所述第一等位基因的相应等位基因分数。
4. 如权利要求1所述的方法,其中,计算该组假设中的至少一个的假设的概率得分包 括: 评估该假设的一个或多个条件; 当满足所述一个或多个条件时,通过使用所述多个等位基因的可变等位基因分数值计 算该假设的得分; 当不满足所述一个或多个条件时,通过使用所述多个等位基因的相等等位基因分数值 计算该假设的得分。
5. 如权利要求1所述的方法,其中,所述最小阈值分数是0或0. 2。
6. 如权利要求1所述的方法,还包括: 确定所述第一假设的第一等位基因的相应等位基因分数作为所述概率函数的最优输 入值。
7. 如权利要求1所述的方法,其中,所述生物样本包括具有不同基因组的细胞,并且其 中,所述样本基因组是不同基因组的复合基因组。
8. 如权利要求1所述的方法,其中,所述一个或多个变异包括SNP或少于100个碱基的 插入缺失(indel)。
9. 如权利要求1所述的方法,其中,评估所述一个或多个条件包括确定所述一个或多 个等位基因的可变等位基因分数值是否超过阈值。
10. 如权利要求1所述的方法,其中,评估所述一个或多个条件包括确定该假设的最大 似然性概率是否超出该区域的纯合假设的概率达阈值。
11. 如权利要求1所述的方法,其中,评估所述一个或多个条件包括: 确定所述一个或多个等位基因的可变等位基因分数值是否超过第一阈值;以及 确定该假设的最大似然性概率是否超出该区域的纯合假设的概率达第二阈值。
12. 如权利要求1所述的方法,还包括: 基于具有最高的两个得分的两个二倍体假设的等位基因,生成该区域的三倍体假设; 通过计算三倍体假设得分评估所述三倍体假设;以及 当所述三倍体假设得分超出所述两个二倍体假设的得分中的较高者达阈值时,选择所 述三倍体假设作为所述顶级假设。
13. 如权利要求1所述的方法,其中,确定该区域的起始假设包括: 基于以下中的一个或多个生成多个假设:该区域的参考假设;通过使用该区域的本地 从头组装而被发现为似乎合理的假设的子集;以及从该区域的已知变异的数据库得到的假 设的子集;以及 从所述多个假设选择所述起始假设。
14. 如权利要求1所述的方法,其中,生成该组假设包括: 在该组假设中,包括具有与所述起始假设的一碱基不同的至少一些假设。
15. 如权利要求1所述的方法,还包括: 在所述生物样本的基因组中,辨识很有可能包括关于所述参考基因组中的对应区域的 变异的多个区域;以及 对于所述多个区域的每个,重复确定、生成、评分、选择和识别的步骤。
16. 如权利要求1所述的方法,其中,选择所述顶级假设包括执行一个或多个迭代,其 包括: 如果该组假设中的特定假设具有比为所述起始假设计算的得分更佳的得分,那么设置 所述特定假设作为新起始假设,并为所述新起始假设重复生成和评分的步骤。
17. 如权利要求1所述的方法,还包括: 基于指示所述第一区域中的任何给定变异不存在在目标核酸片段中、但是在测序之前 通过库准备过程而被生成的似然性的参数,对该组假设进行重新评分,其中从该组假设,为 所述第一区域确定特定变异,其中: 当该组假设中的特定假设中的两个等位基因通过一碱基插入缺失而不同时,使用所述 参数的第一值;及 当所述两个等位基因之间的不同不是一碱基插入缺失时,使用所述参数的第二值。
18. 如权利要求1所述的方法,还包括: 为其它区域,基于已经被辨识为具有在第一阈值之上的包括变异的似然性的其它区域 的顶级假设,识别所述参考基因组与所述样本基因组之间的一个或多个变异。
19. 一种确定样本的基因组中的变异识别的错误率的方法,所述方法包括: 接收第一变异识别和对应的第一变异得分,其中已经为已经在第一测序操作中从样本 测序的第一基因组识别了所述第一变异识别; 接收第二变异识别,其中已经为已经在不同于所述第一测序操作的第二测序操作中从 同一样本测序的第二基因组识别了所述第二变异识别; 至少基于所述第一变异识别和所述第二变异识别,确定所述第一基因组与所述第二基 因组之间存在不一致的不一致基因座; 基于所述第一变异得分将所述第一变异分组为组的第一集合; 为所述第一集合的每组确定指示变异为假阳性的似然性的变异校准得分;以及 为每组存储所述变异校准得分,其中所述方法由一个或多个计算设备执行。
20. 如权利要求19所述的方法,还包括: 还基于组中的基因座的读段覆盖对所述第一变异进行分组,其中所述第一集合中的每 组对应于变异得分的范围和读段覆盖的范围的不同组合。
21. 如权利要求19所述的方法,其中为所述第一集合的每组确定变异为假阳性的似然 性包括: 将初始变异校准得分分配至所述第一集合的每组; 对于每个不一致基因座: 使用该组的对应于相应不一致基因座的变异校准得分确定变异识别正确的概率 P(H); 对于所述第一集合中的每组: 通过基于相应组中的每个不一致基因座的P (H)计算值,为每组确定新变异校准得分。
22. 如权利要求21所述的方法,还包括: 在确定所述新变异校准得分之前,为所述第一基因组的变异识别改变第一集合的组。
23. 如权利要求22所述的方法,其中每个改变的组具有相应组的不一致基因座之中的 至少10个假和10个真变异识别的预期值。
24. 如权利要求21所述的方法,还包括: 重复确定每个不一致基因座的概率P(H)和确定新变异校准得分,直到所述变异校准 得分覆盖或达到限制为止。
25. 如权利要求21所述的方法,还包括: 将初始参考校准得分分配至所述第二集合的每组; 接收所述第二基因组的参考识别和对应的参考得分; 基于所述参考得分将参考识别分组为组的第二集合,其中确定不一致基因座的概率 P⑶包括: 比较所述第一集合的对应组的变异校准得分与所述第二集合的参考校准得分; 对于所述第二集合中的每组: 通过基于相应组中的每个不一致基因座的P (H)计算值,为每组确定新参考校准得分。
26. 如权利要求25所述的方法,其中将所述第二集合的每组的参考校准得分存储在表 中,所述方法还包括: 接收从不同样本的测序操作确定的第一参考识别的第一参考得分;以及 使用所述第一参考得分访问该表以获得对应于所述第一参考得分的参考校准得分,所 述参考校准得分指示所述第一参考识别正确的似然性。
27. 如权利要求19所述的方法,其中将每组的参考校准得分存储在表中,所述方法还 包括: 接收从不同样本的测序操作确定的第三变异识别的第三变异得分;以及 使用所述第三变异得分访问该表以获得对应于所述第三变异得分的变异校准得分,所 述变异校准得分指示所述第三变异识别正确的似然性。
28. 如权利要求19所述的方法,其中所述第一变异识别和所述第二变异识别辨识同一 类型的变异。
29. -种确定样本的基因组中的变异识别的错误率的方法,所述方法包括: 接收样本基因组的读段以及所述读段至参考基因组的映射,其中从来自生物样本的多 个基因组片段的测序获得所述读段; 辨识所述样本基因组的第一区域,所述第一区域具有包括相对于所述参考基因组中的 对应区域的一个或多个变异的第一似然性,所述第一似然性在第一阈值之上; 基于所述第一区域中的多个假设的概率得分确定顶级假设; 基于所述顶级假设和至少一个其它假设计算第一变异得分;以及 使用所述第一变异得分访问数据库表以获得指示所述顶级假设的错误率的校准得分, 所述校准得分对应于包括所述第一变异得分的变异得分的范围,其中所述方法由一个或多 个计算设备执行。
30. -种辨识第一样本中的体细胞突变的方法,所述方法包括: 接收已经基于第一样本的测序为第一基因组识别的具有第一变异得分的变异的第一 集合; 接收已经基于第二样本的测序为第二基因组识别的具有第二变异得分的变异的第二 集合; 基于变异的第一集合和变异的第二集合,确定第一变异存在于所述第一基因组而参考 识别存在于所述第二基因组之处的一个或多个不一致基因座;以及 对于每个不一致基因座: 基于对应的第一变异得分确定所述第一变异为假阳性的第一似然性; 基于对应的参考得分确定所述参考识别为假阴性的第二似然性; 基于所述第一似然性和所述第二似然性,计算表示所述第一基因组与所述第二基因组 之间的不一致为与错误相反的体细胞突变的似然性的体细胞得分, 其中,所述方法由一个或多个计算设备执行。
31. 如权利要求30所述的方法,其中所述错误包括测序或库准备错误。
32. 如权利要求30所述的方法,其中: 已经从自生物体的肿瘤细胞提取的第一片段测序了所述第一基因组;以及 已经从自所述生物体的正常细胞提取的第二片段测序了所述第二基因组。
33. 如权利要求32所述的方法,其中所述生物体是人类。
34. 如权利要求30所述的方法,其中所述变异的第一集合和变异的第二集合为同一类 型。
35. -种存储指令的计算机可读非瞬时存储介质,当由一个或多个处理器执行时,所述 指令使得所述一个或多个处理器执行权利要求1-34中任一项中的方法。
36. -种包括一个或多个设备的系统,所述一个或多个设备被配置为执行使得所述一 个或多个设备执行权利要求1-34中任一项中的方法的指令。
37. -种包括一个或多个处理器和逻辑的计算设备,当由一个或多个处理器执行时,所 述逻辑使得所述一个或多个处理器执行权利要求1-34中任一项中的方法。
【文档编号】G06F17/18GK104160391SQ201280056506
【公开日】2014年11月19日 申请日期:2012年9月17日 优先权日:2011年9月16日
【发明者】J.巴卡什, A.哈尔彭, C.田, K.潘特, P.卡尼瓦利 申请人:考利达基因组股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1