用于估算全基因组拷贝数变异的方法

文档序号:6362019阅读:973来源:国知局
专利名称:用于估算全基因组拷贝数变异的方法
用于估算全基因组拷贝数变异的方法
背景技术
基因组异常通常与各种遗传疾病、退行性疾病以及癌症关联。例如,癌症中基因拷贝的缺失或增加与基因片段或特定区域的缺失或扩增屡见不鲜。例如,原癌基因与肿瘤抑制基因各自的改变经常是肿瘤发生特有的。因此在肿瘤发生的研究与研发更好的诊断与预后方法中都对关联癌症和各种遗传疾病的特定基因区域的鉴定与克隆感兴趣。对应相对于同一组织类型的正常细胞,癌性细胞、原癌细胞或低转移潜能细胞中拷贝数的改变的多核苷酸的鉴定,为诊断工具提供了基础,通过为候选剂提供靶标促进药物发现,并且还用来鉴定更适合待被治疗的癌症类型的癌症治疗的治疗靶标。在诊断性基因组测序中,临床诊断的精确度要求进一步地加剧了涉及人类基因组中三十亿碱基对的序列分析的计算复杂性,从而使得必须分析600亿或更多的序列数据点以提供一个精确的基因组序列。早期的测序方法中通过从数以千计的孤立的、非常长的DNA片段中产生序列数据,从而保留序列信息的语境完整性并且减少精确数据所需的冗余测试来处理这一复杂性。然而,这种方法,用于产生第一个完整的人类基因组,在每一基因组上耗费了数亿美元,这是由于制备基因组片段的前期复杂性以及许多单独的生化试验的相对较高的成本。另外,每一人类细胞中基因组的两个不同的拷贝的存在进一步地加剧了基因组中的语境信息,从而使得精确的临床分析与诊断需要根据基因组拷贝辨别DNA序列的能力。因此,主要的挑战为辨别散布着数百万遗传的单核苷酸多态性(SNPs)、成千上万的短的插入与缺失以及数以百计的自发突变的三十亿DNA碱基的两个独特的拷贝间序列差异的能力。已研发了一些帮助鉴定完整的DNA序列中拷贝数变体(“CNV”)以及有助于基于序列与参照序列或与序列的多种不同的拷贝比较的鉴定可信性的方法。在这些方法中,拷贝数的鉴定与其确认都基于样品的不同系列,并且此类方法中所用的数据相对地易于出错,众所周知地含有某些人为偏差。发明概述本发明提供了用于确定位于样品中靶多核苷酸序列的检测位置处的基因组区域的拷贝数的方法。所述方法包括:获得所述样品序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中序列覆盖偏差校正包括进行关注倍性的基线校正;以及估算多个基因组区域的总拷贝数值与区域特异的拷贝数值。在一实施方案中,方法包括进行隐马尔可夫模型(HMM)分段、评分以及输出。在另一实施方案中,方法包括进行基于群体的无读取(no-calling)与低置信区域的鉴定。在一方面,方法还包括通过与基线样品比较来标准化序列覆盖范围。在一方面,方法还包括通过测量样品基因组的每一位置处的序列覆盖深度来确定序列覆盖范围。在一方面,方法还包括通过计算窗口-求平均值的覆盖范围校正序列偏差。在一方面,方法还包括在文库构建与测序过程中进行解释GC偏差的调整。
在另一实施方案中,方法还包括基于与个体图谱关联的其它权重因子进行调整以弥补偏差。在一方面,方法还包括通过测序仪所进行的步骤,所述步骤包括:a)提供多个扩增子,其中:i)每一扩增子包含靶核酸的片段的多个拷贝,ii)每一扩增子在片段的确定的位点处包含多个散布的接头,每一接头包含至少一个锚定探针杂交位点,以及iii)所述多个扩增子包含基本上覆盖靶核酸的片段山)提供以这样的密度固定于表面上的所述扩增子的随机阵列,所述密度使得所述扩增子的至少大多数为光学可分辨的;c)将一种或多种锚定探针与所述随机阵列杂交;d)将一种或多种测序探针与所述随机阵列杂交,从而在所述一种或多种测序探针与靶核酸片段间形成极度匹配的双螺旋;e)将锚定探针连接至测序探针;以及f)鉴定邻近至少一个散布的接头的至少一个核苷酸;以及g)重复步骤(c)-(f)直到鉴定出所述靶核酸的核苷酸序列。在一方面,方法还包括通过进行以下的步骤测定测量数据,所述步骤包括:a)测定代表样品中基因组的多个大约随机的片段的序列的读数,其中所述多个提供了样品基因组的抽样,借此基因组平均一个碱基位置被抽样一次或多次山)通过将所述读数映射至参照基因组,或通过将所述读数映射至组合序列(例如诸如样品自身的组合序列或有关的基线样品的组合序列)获得所述读数的图谱数据;以及c)通过沿着参照基因组或沿着组合序列测量所述读数的强度获得覆盖数据,其中测量数据包括图谱数据与覆盖数据。在另一实施方案中,方法还包括初始模型的生成,所述初始模型基于整体覆盖分布估算状态数与它们的平均数。在另一实施方案中,方法还包括通过向模型顺序添加状态然后从模型顺序移除状态或其组合,优化初始模型。在另一实施方案中,标准化还包括标准化的校正的覆盖范围的测定。在另一实施方案中,方法还包括通过片段复制测定序列覆盖范围和获得将图谱极少地归因于每一检测位置的置信测量值。在一方面,方法包括进行HMM计算以确定每一检测位置处倍数。在另一实施方案中,方法还包括产生对应于各自拷贝数的多个隐马尔可夫模型(HMM)状态,其中如果样品为正常样品,则进行HMM分段、评分以及输出,其包括:对于拷贝数N大于O至N/2乘以预期为二倍体的样品部分中覆盖范围的中位数的每一状态,初始化HMM的发射分布的平均值;以及对于拷贝数为O-正值(小于具有拷贝数I的状态所用的)的状态,初始化发射分布的平均值。在另一实施方案中,方法还包括产生对应各自拷贝数的多个HMM状态,其中如果样品为肿瘤样品,则进行HMM分段、评分以及输出,其包括估算状态数与基于覆盖分布的每一状态的平均值以产生HMM初始模型;通过修改模型中的状态数以及优化每一状态的参数来优化初始模型;以及通过向模型顺序添加状态然后顺序移除状态或其组合,修改模型中的状态数。在另一实施方案中,方法还包括,调整初始模型,其包括:a)如果添加新的状态将与HMM关联的似然提高至超过第一预定的阈值,则在一对状态间添加所述新的状态;b)在每一对状态间循环地重复步骤(a)直到不可能有更多的添加;c)如果状态的移除没有将似然减少超过第二预定的阈值,则从HMM移除所述状态;以及d)对所有的状态反复地重复步骤(C)。另一实施方案包括在其上面具有存储指令的计算机可读的永久性存储介质,其用于测定在样品中靶多核苷酸序列的检测位置处基因组区域的拷贝数,当由计算机处理器执行时,所述指令引起处理器进行以下操作:使用从配对图谱所产生的数据获得所述样品序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;以及至少基于校正的测量数据,估算多个基因组区域的每一个区域的总拷贝数值与区域特异的拷贝数值。另一个实施方案包括具有明确呈现在其上的指令的计算机可读的永久性存储介质,当由计算机处理器执行时,所述指令引起处理器进行以下操作:获得包含靶序列的生物样品的序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;基于校正的测量数据,进行隐马尔可夫模型(HMM)分段、评分以及输出;基于HMM得分与输出,进行基于群体的无读取与低置信区域的鉴定;以及估算多个区域的总拷贝数值与区域特异的拷贝数值。另一实施方案包括用于确定靶序列的检测位置处基因组区域的拷贝数变异的系统,其包含:a.计算机处理器;以及b.与所述处理器连接的计算机可读的存储介质,所述存储介质具有明确呈现其上的指令,当由计算机处理器执行时,所述指令引起处理器进行以下操作:使用从配对图谱所产生的数据获得所述样品的序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;以及至少基于校正的测量数据,估算多个基因组区域的每一个区域的总拷贝数值与区域特异的拷贝数值。提供该概述用于以简化形式引入选择的概念,还在以下的详述中进一步地描述。该概述并非意图鉴定要求保护的主题的关键的或基本的特征,而且也并非意图用于限制要求保护的主题的范围。要求保护的主题的其他的特征、细节、效用以及优势在下列包括附图中例证的与所附的权利要求中限定的那些方面的书面详细描述中将变得显而易见。附图简要说明以下附图代表了呈现本发明的实施方案所提供的数据的一种格式。这些附图并非意图以任何方式限制如本文所述的本发明方面的实施,而在于帮助阐明本发明的基本概念。

图1描述了概括性的框图,其示例了根据本公开内容的实施方案用于读取含有靶序列的样品中的变异的系统。图2描述了概括性的流程图,其示例了根据本公开内容的实施方案的CNV读取方法。图3描述了根据本公开内容的某些方面合并和操作的计算机系统。发明的详细描述如本文与附加的权利要求中所用的,单数形式“a”、“an”以及“the”包括复数指示物,除非上下文另有明确规定。因此,例如,“聚合酶(a polymerase) ”指的是此类试剂的单一试剂或混合物,并且“方法(the method)”包括本领域中技术人员已知的等效步骤与方法
坐寸ο除非另有定义,本文所用的所有技术和科学术语具有与本发明所属领域技术人员通常理解相同的含义。本文提到的所有出版物通过引用并入本文,用于描述和公开所述出版物中所描述的以及可能结合本发明而使用的装置、组合物、制剂和方法的目的。当提供数值范围时,应当理解为介于所述范围的上限与下限之间的每一居中值(除非上下文另有明确规定,否则精确到下限单位的十分之一)和所述范围内的任意其他指出的值或居中值都涵盖于本发明中。这些较小范围的上限和下限可独立地包括在所述较小范围中,这也涵盖于本发明中,其服从所述范围中任意具体排除的界限。当所述范围包括一个或两个界限时,排除那些所包括的界限中的任一个或两个的范围也包括在本发明中。在以下的描述中,众多具体细节被加以陈述以提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可在没有这些具体细节中的一个或多个下实施。在其它实例中,为避免掩盖本发明,没有描述本领域技术人员所公知的特征和程序。尽管主要参照具体的实施方案描述本发明,也可以预期的是本领域中技术人员阅读本公开内容后,其他的实施方案对他们来说是显而易见的,并且意图是此类实施方案包含在本发明的方法中。实例测序方法用于测序靶核酸的实例方法包括样品制备,其涉及从DNA样品中提取并且分段靶核酸以产生通常包括一个或多个接头的片段化的靶核酸模板。靶核酸模板任选地经过扩增方法以形成核酸纳米球,出于分析的目的,其通常配置在表面或基质上。出版的专利申请号 W02007120208, W02006073504, W02007133831,以及 US2007099208,美国专利申请系列号 11/679,124;11/981, 761;11/981, 661;11/981, 605;11/981, 793;11/981, 804;11/451,691;11/981,607;11/981,767;11/982,467;11/451,692;12/335,168;11/541,225;11/927,356;11/927,388;11/938,096;11/938, 106;10/547, 214;11/981, 730;11/981, 685;11/981,797;12/252,280;11/934,695;11/934, 697;11/934, 703;12/265, 593;12/266, 385;11/938,213; 11/938, 221; 12/325, 922; 12/329, 365;以及 12/335,188 中描述了用于形成核酸纳米球的方法,所有这些通过引用全文并入本文,用于所有的目的,尤其是用于所有与形成核酸纳米球有关的教导。出版的专利申请号W02007120208, W02006073504, W02007133831,和 US2007099208,以及美国专利申请系列号 11/679,124; 11/981, 761; 11/981, 661; 11/981,605;11/981, 793;11/981, 804;11/451, 691;11/981, 607;11/981, 767;11/982, 467;11/451,692;12/335, 168;11/541, 225;11/927, 356;11/927, 388;11/938, 096;11/938, 106;10/547,214;11/981, 730;11/981, 685;11/981, 797;12/252, 280;11/934, 695;11/934,697;11/934,703;12/265, 593;12/266, 385;11/938, 213;11/938, 221;12/325, 922;12/329, 365;和12/335,188中描述了用于形成核酸纳米球的阵列的方法,所有这些通过引用全部并入本文,用于所有的目的,尤其是用于与形成核酸纳米球的阵列有关的所有教导。美国专利申请系列号 11/679,124; 11/981, 761; 11/981, 661; 11/981, 605; 11/981, 793; 11/981, 804; 11/45I, 691;11/981,607;11/981, 767;11/982, 467;11/451,692;12/335,168;11/541, 225;11/927,356;11/927,388;11/938, 096;11/938, 106;10/547, 214;11/981, 730;11/981, 685;11/98I,797;12/252, 280;11/934, 695;11/934, 697;11/934, 703;12/265, 593;12/266, 385;11/93
8,213; 11/938, 221; 12/325, 922; 12/329, 365;以及 12/335,188 中也描述了测序反应与特定靶序列的检测中使用核酸纳米球的方法,通过引用将其每一个全部并入本文,用于所有的目的,尤其是用于与核酸纳米球上进行测序反应有关的所有教导。应理解的是,任一本文所述的与本领域中已知的测序方法可以应用于溶液中的核酸模板和/或核酸纳米球,或配置在表面上和/或阵列中的核酸模板和/或核酸纳米球。在核酸纳米球上进行核苷酸测序过程,通常通过测序-连接技术,包括组合的探针锚定连接(“cPAL”)方法,例如如在 Drmanac et al., “Human Genome SequencingUsing Unchained Base Reads on Self-Assembling DNA Nanaoarrays,,’Science327:78-81,2009(2010 年 I 月 I 日),以及出版的 PCT 专利申请 W007/133831, W006/138257, W006/138284,W007/044245, W008/070352, W008/058282, W008/070375;以及出版的美国专利申请2007-0037152与2008-0221832中所描述的。在此类方法中,根据充分理解了的规则,将已知的标记物,诸如含有可分辨的荧光团的单一分子的特定片段作为标记物连接于靶核酸模板,然后在相同类型的DNA链上索引的重新排序以提供重叠数据的基础。本文提及的测序过程仅仅是代表性的。在另一实施方案中,使用标签。可以使用本领域中已知的或研发的其他处理技术。然后用辐射照射基质上的核酸纳米球系列以激发足以引起与每一特异的标记物C,G,A或T有关的荧光团在它们独特的波长处发射荧光的荧光团,从此处可以通过照相机在(标准的或延时集成TDI)CCD阵列上或代替CCD阵列的扫描仪,或其他的可应用于测序仪中的电子流/电压感应技术产生空间图像。也可使用其他的感应机制,诸如阻抗变化感应器。照射可为光谱特异的,一次只激发一种选择的荧光团,然后可以通过照相机记录,或可过滤照相机输入以感应并且只记录接收到的光谱特异的荧光辐射,或可以在彩色的LCD阵列上同时感应并且记录所有的荧光辐射,再然后在其中有核酸构建体的每一询问位点上分析光谱含量。图像采集产生了许多询问位点的一系列图像,其可以基于光谱特异的荧光强度,通过本文称为碱基读取的过程中强度水平的计算机处理进行分析,所述过程将在下文中有更为详尽的解释。cPAL与其他的测序方法也可以用于检测特异的序列,诸如包括核酸构建体中的单核苷酸多态性(“SNP”),(所述的核酸构建体包括核酸纳米球以及直链的和环状的核酸模板)。读取或碱基读取的序列鉴定,例如碱基读取,由于测序程序的性质这样明显的原因,可包含误差。使用基于计算机处理的里德-索罗门(Reed-Solomon)误差校正,不论以进行里德-索罗门算法的计算机处理器的形式还是以使用预先计算的预期的碱基读取序列的比较机制的形式,诸如在检查表中,可以鉴定误差。可以标记“未读取的”序列并且可以进行校正以产生校正的碱基读取序列。应理解的是,本文所述的位点与结构的大小只是基质上所分析的位点与结构的大小的极小的部分,因为它们不容易进行例证。例如,基质可为光刻的,表面修饰的(S0M)25mm x75mm的娃基质,具有用于核酸纳米球结合的大约300nm斑点的栅格模式的阵列,以增加DNA含量/阵列并且相对于随机的基因组DNA阵列提高了图像信息密度。可用各种各样的标记物可检测地标记测序探针。尽管上文主要针对其中用荧光团标记测序探针的实施方案,应理解的是,利用包含其他类型的标记物的测序探针的相似的实施方案包含在本发明中。而且,本发明的方法可以使用未标记的结构。在一些实施方案中,多个cPAL循环(无论是单一的,二倍的,三倍的等)将鉴定邻近接头的靶核酸区域中的多个碱基。(在替代设计中,可能的是使用单个cPAL循环来产生多个碱基)简言之,通过利用测序探针池的循环的锚定探针杂交与酶促连接反应,对靶核酸中多个碱基的询问反复地实施cPAL方法,所述测序探针池旨在检测不同位置处从接头与靶核酸间接口移除的核苷酸。在任一给定的循环中,设计所用的测序探针从而使得位于一个或多个位置处的一个或多个碱基的身份与连接至该测序探针的标记物的身份相关联。一旦检测到连接的测序探针,以及因而的询问位置处的碱基,脱去核酸纳米球的连接复合物并且进行接头与测序探针杂交及连接的新循环。根据这个原理,可获得重复取样的数据。选择的定义“接头”指的是包含“接头元件”的基因改造的构建体,其中一个或多个接头可散布在文库构建体的靶核酸内。根据接头的用途,包括在任何接头中的接头元件或特征广泛多样,但是通常包括限制性核酸内切酶识别和/或剪切位点,引物结合(用于扩增文库构建体)或锚定引物结合(用于测序文库构建体中的靶核酸)位点,切口酶位点等。在一些方面,接头被基因改造以便包含下列的一个或多个:1)大约20个-大约250个核苷酸,或大约40个-大约100个寡核苷酸,或小于大约60个核苷酸,或小于大约50个核苷酸的长度;
2)为了连接至靶核酸作为至少一个,通常两个“臂”的特征;3)位于接头的5’末端和/或3’末端的不同的与独特的锚定结合位点以用于邻近的靶核酸测序;以及4)任选地一个或多个限制性位点。在一方面,接头可以为散布的接头。本文所谓的“散布的接头”意指插入靶核酸的内部区域内间隔的位置处的寡核苷酸。在一方面,靶核酸的“内部”意指在诸如环化与切割的处理之前靶核酸内部的位点,所述的处理可引入序列反转,或相似的转变,其破坏了靶核酸内核苷酸的排序。散布的接头的使用促进序列重建与校准,因为每次从单一的接头的10个碱基的序列运行可以允许自身在没有校准的情况下读取20个、30个、40个等喊基。“扩增子”指多核苷酸扩增反应的产物。也就是说,其是从一条或多条起始序列复制得到的多核苷酸群。扩增子可以通过多种扩增反应来生成,包括但不限于聚合酶链式反应(PCRs),线性聚合酶反应,基于核酸序列的扩增,滚环扩增及相似的反应(参阅如美国专利号 4,683,195,4, 965,188,4, 683,202,4, 800159,5,210,015,6,174,670,5,399,491、6,287,824 和 5,854,033 ;以及美国公开号 2006/0024711)。当在鉴定背景下使用时,术语“碱基”指与靶核酸内指定位置处的核苷酸有关的嘌呤或嘧啶基(或其类似物或变体)。因此,为读取碱基或为鉴定核苷酸,这两者指测定数据值以鉴定靶核酸内特定位置处的嘌呤或嘧啶基(或其类似物或变体)。嘌呤与嘧啶基包括四种主要的核苷酸碱基C,G, A以及T。本文使用的“多核苷酸”、“核酸”、“寡核苷酸”、“寡聚物”或语法等同项通常指至少两个核苷酸以线性的方式共价连接在一起。核酸通常包含磷酸二酯键,尽管在一些情况下,核酸类似物可包括在内,其具有可选择的主链,诸如亚磷酰胺、二硫代磷酸酯、或甲基亚磷酰胺键;或肽核酸主链与键。其他的核酸类似物包括具有双环结构的那些,包括锁核酸,正性主链,非离子型主链以及非核糖主链。术语“参照多核苷酸序列”或简单的“参照”指参照有机体的已知的核苷酸序列。参照可为参照有机体的整个基因组序列(例如参照基因组),参照基因组的一部分,许多参照有机体的共有序列,基于不同有机体的不同组分的编制序列,从有机体群中得到的一批基因组序列,或任何其他适当的序列。参照也可以包括关于有机体群中发现的已知的参照变体的信息。参照有机体也可以是待测序的样品专用的,所述样品可能单独从相关的个体或相同的个体得到(可能对互补癌症序列而言是正常的)。
“样品多核苷酸序列”指来源于基因,调控元件,基因组DNA,cDNA、RNA (包括mRNAs、rRNAs、siRNAs、miRNAs等),和/或来自于其片段的样品或祀有机体的核酸序列。样品多核苷酸序列可为来自样品的核酸,或二级核酸,诸如扩增反应的产物。对于样品多核苷酸序列或“来源于”样品多核苷酸(或任何多核苷酸)的多核苷酸片段而言,可以意指,样品序列/多核苷酸片段通过物理、化学、和/或酶促方法使样品多核苷酸(或任何其他的多核苷酸)片段化而形成。“来源于”多核苷酸也可意指片段为来源多核苷酸的核苷酸序列的特定子集复制或扩增的结果。“读数”指代表一个或多个核苷酸碱基的一个或多个数据值的集合。“匹配的读数”(也被称为“配对”)通常指产生于位于DNA片段相反的末端,隔着几百个或几千个碱基,两个分开的基因组序列(臂)的区域的一组个体的核苷酸读数。可以在测序过程中,从待被读取和/或重新组装变异的样品有机体获得的较大的连续的多核苷酸(例如DNA)的片段产生配对的读数。“图谱”指将读数(例如,诸如配对的读数)与O关联起来的一个或多个数据值,读数与之相似的参照中的一个或多个位置,例如通过将示例的读数与对应于参照中位置的索引内一个或多个关键位置匹配。“杂交”指两条单链多核苷酸非共价结合以形成稳定的双链多核苷酸的过程。(通常)所得的双链多核苷酸是“杂合物(hybrid)”或“双链体(duplex)”。“杂交条件”通常会包括低于大约1M、更通常的是低于大约500mM和可以低于大约200mM的盐浓度。杂交温度可以低至5° C,但通常高于22° C,更通常的是高于约30° C,并且通常超过37° C。“连接”意指在模板驱动的反应中,在两条或更多条核酸(例如寡聚核苷酸和/或多核苷酸)的末端之间形成共价键或联接(linkage)。所述键或联接的本质可以有很大不同,而且连接可以是酶促或化学进行的。如本文所用的,连接一般通过酶促进行,以在一条寡聚核苷酸的5’碳末端核苷酸与另一核苷酸的3’碳之间形成磷酸二酯联接。模板驱动的连接反应描述于下列参考文献:美国专利号4,883,750; 5, 476,930; 5, 593,826;以及5,871,921。“逻辑”指指令组,当由一个或多个计算机系统的一个或多个处理器(例如CPU)执行时,其可操作地执行一种或多种功能和/或以,其它逻辑元件要求的一种或多种结果和/或数据的形式返回数据。在多个实施方案与实施中,可以以下执行任何给定的逻辑:,作为由一个或多个处理器(例如CPU)执行的一个或多个软件构件,作为一个或多个硬件构件,诸如专用集成电路(ASic)和/或现场可编程门阵列(FPGA),或作为一个或多个软件构件与一个与多个硬件构件的任何组合。可以没有限制地实施任何特定逻辑的软件构件,作为单独的或客户端-服务器软件应用,作为一个或多个软件模块,作为一个或多个功能库,以及作为一个或多个静态和/或动态连接的库。执行期间,任何特定逻辑的指令可体现为一个或多个计算机进程、线程、光纤以及任何其它合适的运行时间实体,其可以在一个或多个计算装置的硬件中具体化并且可以分配计算资源,诸如存储器、CPU时间、存储空间以及网络带宽。“引物”意指在与多核苷酸模板形成双链体时,能够充当核酸合成的起始点,并自其3’末端沿模板延伸,从而形成延伸的双链体的寡聚核苷酸,其或是天然的或是合成的。延伸过程中添加的核苷酸序列是由模板多核苷酸的序列决定的。引物通常由DNA聚合酶延伸。“探针”通常指在研究中与寡聚核苷酸或靶核酸互补的寡聚核苷酸。以允许检测的方式,例如用荧光或其他任选地可辨别的标签标记要求保护的本发明的某些方面中所用的探针。靶核酸“序列测定”(也称为“测序”)意指与靶核酸中核苷酸碱基的序列有关的信息的测定。此类信息可包括靶核酸的部分的以及完整的序列信息的鉴定或测定。可以用不同程度的统计可靠性或置信性测定序列信息。在一方面,测序包括同一性的测定和许多起始于靶核酸中不同的核苷酸的靶核酸中连续的核苷酸的排序的测定。通过包含反应子系统与成像子系统的测序仪进行测序及其各个步骤。反应子系统包括流动设备(在其上多种试剂、缓冲液等、以及生化样品或由此衍生的片段之间发生生化反应)与多种其他的组件(例如管子、阀门、注射器、制动器、发动机等),所述组件经配置以将试剂、缓冲液、样品片段等安置在流动设备之上或之内。成像子系统包含照相机、显微镜(和/或适当的镜头与管子)、测序期间支持流动仪器的平台以及用于放置及调整平台上的流动设备以及调整照相机与显微镜的相对位置的多种其他的组件(例如,诸如发动机、制动器、机械臂等)。“靶核酸”意指来源于基因、调控元件、基因组DNA、cDNA、RNA(包括mRNA、rRNA、siRNA、miRNA等)以及其片段的(通常)未知序列的核酸。靶核酸可为来源于样品的核酸,或二级核酸,诸如扩增反应的产物。可以从几乎任何的来源获得靶核酸并且可以使用本领域中已知的方法制备。例如,靶核酸可以没有扩增地直接分离,通过使用本领域中已知的方法扩增分离,其包括但不限于聚合酶链式反应(PCR),链置换扩增(SDA),多重置换扩增(MDA),滚环扩增(RCA),滚环扩增(RCR)以及其他的扩增(包括全基因组扩增)方法。也可通过克隆来获得靶核酸,所述克隆包括但不限于克隆至媒介诸如质粒、酵母以及细菌人工染色体。在一些方面,靶核酸包括mRNA或cDNA。在某些实施方案中,使用来自生物样品的分离转录物产生靶DNA。可以使用本领域中已知的方法从样品中获取靶核酸。如应理解的是,样品可包含任何数量的物质,其包括但不限于几乎任何有机体的体液,诸如,例如血液、尿液、血清、淋巴、唾液、肛门与阴道分泌液、汗液以及精液,优选哺乳动物样品,特别优选人的样品。从各种有机体获取靶核酸的方法为本领域中所熟知。发现包含人基因组DNA的样品可在许多实施方案中使用。在诸如全基因组测序的一些方面,优选地获得大约20-大约1,000, 0000或更多的基因组-DNA的等同物以确保靶DNA片段群足以覆盖整个基因组。基因组测序与CNV估算的实例方法。本发明涉及用于估算样品靶序列中检测位置处感兴趣的基因组区域的拷贝数变异,发现其可用于如本文所述的多种应用中。本公开内容的方法也可包括从样品提取靶核酸并使其片段化和/或对进行CNV估算的靶核酸进行测序。这些片段化的核酸可用于产生通常包括一个或多个接头的靶核酸模板。靶核酸模板经过扩增方法以形成核酸串联体,诸如,例如核酸纳米球。在一方面,核酸模板可以包含靶核酸与多个散布的接头,在本文中也称为“文库构建体”,“循环的模板”,“循环的构建体”,“靶核酸模板”以及其他语法等同物。通过在贯穿每一靶核酸的多个位点处插入接头分子来装配核酸模板构建体。散布的接头允许从靶核酸中的多个位点连续地或同时地获取序列信息。在另一实施方案中,从多个基因组片段所形成的核酸模板可以用于产生核酸模板的文库。在一些实施方案中,此类核酸模板的文库将包含靶核酸,所述靶核酸共同包含整个基因组的全部或部分。即通过使用足够数量的起始基因组(例如细胞的基因组),结合随机的片段化,所得到的用于产生循环的模板的特定大小的靶核酸充分地“覆盖”基因组,尽管如应理解的是,偶尔会无意地引入偏差以防止代表整个基因组。构建核酸模板的方法的其它实施方案与实例描述于美国专利系列号11/679,124;11/981,761;11/981, 661;11/981, 605;11/981,793;11/981,804;11/451, 691;11/981,607;11/981,767;11/982, 467;11/451, 692;12/335, 168;11/541, 225;11/927, 356;11/927, 388;11/938,096;11/938, 106;10/547, 214;11/981, 730;11/981, 685;11/981, 797;12/252, 280;11/934,695;11/934,697;11/934, 703;12/265, 593;12/266, 385;11/938, 213;11/938, 221;12/325,922; 12/329,365;以及12/335,188中,通过引用将其每一篇全文并入本文,用于所有的目的,尤其是用于所有与构建本文所述的技术的核酸模板有关的教导。本文所述的技术的核酸模板可为双链的或单链的,并且它们可为直链的或环状的。在一些实施方案中,产生核酸模板的文库,并且在其它实施方案中,此类文库中不同模板间所含的靶序列共同覆盖整个基因组的全部或部分。如应理解的是,这些核酸模板的文库可包含二倍体基因组或可使用本领域中已知的方法处理它们以从一组亲代的染色体至另一组来分离序列。如本领域技术人员所理解的是,文库中的单链环状模板可共同包含染色体或染色体区域的两条链(即“沃特森”与“克里克”链),或含有来自于一条链的序列的环,或另一个可以使用本领域中已知的方法分离至它们自己的文库。对本领域中已知的以及本文所述的使用核酸模板的任何测序方法而言,本文所述的技术提供了用于测定靶核酸中至少大约10个-大约200个碱基的方法。在另一实施方案中,本文所述的技术提供了用于测定靶核酸中至少大约20个-大约180个,大约30个-大约160个,大约40个-大约140个,大约50个-大约120个,大约60个-大约100个,以及大约70个-大约80个碱基的方法。仍然在其它实施方案中,测序方法用于鉴定邻近核酸模板中每一接头的一端或两端的5个,10个,15个,20个,25个,30个或更多的碱基。CNV读取的技术概述正常样品与肿瘤样品的CNV读取共有一些特征但是也有差异。在一些实施方案中,两种类型的样品经过下列的三个步骤。I)序列覆盖的计算。2)覆盖中偏差的估算与校正:a.建立覆盖偏差的模型;b.建模偏差的校正;c.覆盖校平(Coverage smoothing)。3)通过与基线样品或样品集比较来标准化覆盖。据此,使用隐马尔可夫模型(HMM)分段正常样品与肿瘤样品,但是对两种样品类型而言使用不同的模型,按照下列的步骤:4A)用于正常样品的HMM分段,评分以及输出;4B)用于肿瘤样品的HMM分段,评分以及输出的修改;最终,正常的样品经过“无读取”过程,所述过程在下列的步骤中鉴定可疑的CNV读取:
5)基于群体的无读取/低置信区域的鉴定。在多个实施方案中,可通过在一个或多个系统上执行的不同类型的逻辑进行CNV读取的以上步骤。此类逻辑元件的实例在下文结合图1进行描述。CNV读取技术的实例实施方案1.序列覆盖的计算如下文所用的,“DNB”指核酸纳米球的序列,从其已对一个或多个读数(例如配对的读数)进行测序。应注意的是,在从生物样品或其片段测序的读数中,DNB表示为可覆盖或可不覆盖组成DNB的全部序列的一个或多个读数。例如,在一实施方案中,DNB表示为包含来源于DNB相反的末端的两个或更多个臂读数的匹配的读数,其由几百个碱基的未知序列所分离。在一方面,所有配对约束的令人满意的成对的末端(例如完整的DNB)图谱用于计算序列覆盖。在某一实施方案中,独特的成对的末端图谱有助于与DNB对齐的参照的每一碱基的单一计数。基于图谱为DNB在参照中的正确位置的估算的概率,使与非独特的成对的末端图谱对齐的参照碱基加权(例如给予分数计数)。因此,与每一图谱中置信度成比例的DNB的分数归属提供了图谱为非独特的区域中给予合理的覆盖估算的能力。在一方面,参照基因组R的每一位置i接收下列的覆盖值Ci:
权利要求
1.用于确定样品中靶多核苷酸序列的检测位置处的基因组区域的拷贝数的方法。所述方法包括: 使用从配对图谱所产生的数据获得所述样品序列覆盖范围的测量数据; 校正所述测量数据的序列覆盖偏差,其中校正所述测量数据包括进行关注倍性的基线校正;以及 至少基于校正的测量数据,估算多个基因组区域中每一个的总拷贝数值与区域特异的拷贝数值; 其中通过一个或多个计算机系统进行所述方法。
2.如权利要求1所述的方法,其中所述方法还包括基于校正的测量数据进行隐马尔可夫模型(HMM)分段、评分以及输出。
3.如权利要求1所述的方法,其中所述方法还包括进行基于群体的无读取与低置信区间的鉴定。
4.如权利要求1所述的方法,其中所述方法还包括通过与从基线样品获得的序列数据进行比较来标准化序列覆盖范围的测量数据。
5.如权利要求1所述的方法,其中获得所述序列覆盖范围的测量数据包括测量基因组每个位置处的序列覆盖深度。
6.如权利要求1所述的方法,其中校正所述测量数据的序列覆盖偏差包括计算窗口-求平均值的覆盖范围。
7.如权利要求1所述的方法,其中校正所述测量数据的序列覆盖偏差包括进行调整以解释文库构建与测序过程中的GC偏差。
8.如权利要求1所述的方法,其中校正所述测量数据的序列覆盖偏差包括基于与个体图谱有关的其它加权因子进行调整以弥补偏差。
9.如权利要求1所述的方法,其中所述序列覆盖范围Ci通过以下确定 C1= Y Pd)N/(OC+ Y P(DNBm\R,n)) LaLu 赃 M1 C,
10.如权利要求1所述的方法,其中获得序列覆盖的测量数据包括: a)测定代表样品中基因组的多个大约随机的片段的序列的读数,其中所述多个提供了样品基因组的抽样,借此基因组平均一个碱基位置被抽样一次或多次; b)通过将所述读数映射至参照基因组,或通过将所述读数映射至组合序列来获得图谱数据;以及 c)通过沿着所述参照基因组或沿着所述组合序列测量所抽样的序列的强度来获得覆盖数据, 其中所述测量数据包括所述图谱数据与所述覆盖数据。
11.如权利要求10所述的方法,其中测定所述读数还包括以下步骤: a)提供多个扩增子,其中: i)每一扩增子包含靶核酸的片段的多个拷贝, )每一扩增子在所述片段的确定的位点处包含多个散布的接头,每一接头包含至少一个锚定探针杂交位点,iii)所述多个扩增子包含基本上覆盖靶核酸的片段; b)提供以这样的密度固定于表面上的所述扩增子的随机阵列,所述密度使得所述扩增子的至少大多数为光学可分辨的; C)将一种或多种锚定探针与所述随机阵列杂交; d)将一种或多种测序探针与所述随机阵列杂交,从而在所述一种或多种测序探针与靶核酸片段间形成极度匹配的双螺旋; e)将所述锚定探针连接至所述测序探针; f)鉴定邻近至少一个散布的接头的至少一个核苷酸;以及 g)重复步骤(c)-(f)直到鉴定出所述靶核酸的核苷酸序列。
其中,步骤(a)至(g)通过测序仪进行。
12.如权利要求2所述的方法,其中进行HMM分段还包括产生初始模型,所述初始模型基于总体覆盖分布估算状态数与它们的平均值。
13.如权利要求12所述的方法,其中进行HMM分段包括通过修改模型中的状态数以及优化每一状态的参数中的一种或多种来优化初始模型。
14.如权利要求12所述的方法,其中位置i处校正的覆盖范围为:
15.如权利要求4所述的方法,其中标准化测量数据包括通过使用以下等式确定标准化的校正的覆盖范围:
16.如权利要求1所述的方法,其还包括使用序列覆盖估算以产生测序的片段至基因组上超过一个位置的映射,并且使用每一映射上的置信测量结果以将所述每一映射部分地归于每一检测位置。
17.如权利要求1所述的方法,其还包括进行HMM计算以测定每一检测位置处的倍数。
18.如权利要求1所述的方法,其还包括进行HMM计算以测定每一检测位置处的倍性得分,所述倍性得分代表所述检测位置处测定的倍数为正确的置信性。
19.如权利要求1所述的方法,其还包括进行HMM计算以测定每一检测位置处的CNV类型得分,所述CNV类型得分代表在所述检测位置处所述测定的倍数正确地指示所述检测位置处减少的倍性,预测的倍性,或增加的倍性的置信性。
20.如权利要求2所述的方法,其中HMM的多个状态对应于各自的拷贝数,并且其中如果样品为正常的样品,进行HMM分段、评分以及输出,其包括: 对于拷贝数N大于O至N/2乘以预期为二倍体的样品部分中覆盖范围的中位数的每一状态,初始化HMM的发射分布的平均值;以及 对于拷贝数为O至正值的状态,初始化发射分布的平均值,所述正值小于具有拷贝数I的状态所用的。
21.如权利要求2所述的方法,其中HMM的多个状态对应于各自的拷贝数,并且其中如果样品为肿瘤样品,进行HMM分段、评分以及输出,其包括: 估算状态数与基于覆盖分布的每一状态的平均值以产生HMM初始模型;通过修改模型中的状态数以及优化每一状态的参数来优化初始模型;以及 通过向模型顺序添加状态然后顺序移除状态或其组合,修改模型中的状态数。
22.如权利要求21所述的方法,其中修改初始模型包括: a)如果添加新的状态将与HMM关联的似然提高至超过第一预定的阈值,则在一对状态间添加所述新的状态; b)在每一对状态间循环地重复步骤(a)直到不可能有更多的添加; c)如果状态的移除没有将似然减少超过第二预定的阈值,则从HMM移除所述状态;以及 d)对所有的状态反复地重复步骤(C)。
23.如权利要求2所述的方法,其中HMM的多个状态对应于各自的拷贝数,并且其中进行HMM分段、评分以及输出,其包括,对于拷贝数N至常数乘以所述状态的发射分布的平均值的每一状态,初始化HMM的发射分布的方差。
24.计算机可读的存储介质,其包含明确呈现其上的指令,当由计算机处理器执行时,所述指令引起处理器进行以下操作: 使用从配对图谱所产生的数据获得样品序列覆盖范围的测量数据; 校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;以及` 至少基于校正的测量数据,估算多个基因组区域的每一个区域的总拷贝数值与区域特异的拷贝数值。
25.计算机可读的存储介质,其包含明确呈现其上的指令,当由计算机处理器执行时,所述指令引起处理器进行以下操作: 获得包含靶多核苷酸序列的样品的序列覆盖范围的测量数据; 校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正; 基于校正的测量数据,进行隐马尔可夫模型(HMM)分段、评分以及输出; 基于HMM得分与输出,进行基于群体的无读取与低置信区域的鉴定;以及 基于HMM得分与输出,估算多个区域的总拷贝数值与区域特异的拷贝数值。
26.系统,用于测定靶多核苷酸序列的检测位置处基因组区域的拷贝数变异,其包含: a.计算机处理器;以及 b.与所述处理器连接的计算机可读的存储介质,所述存储介质具有明确呈现其上的指令,当由所述处理器执行时,所述指令引起处理器进行以下操作: 使用从配对图谱所产生的数据获得所述样品的序列覆盖范围的测量数据; 校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;以及 至少基于校正的测量数据,估算多个基因组区域的每一个区域的总拷贝数值与区域特异的拷贝数值。
27.计算机可读的存储介质,其包含储存其上的指令,其中当通过一个或多个计算机处理器执行时,所述指令引起一个或多个计算机处理器执行权利要求1-23中任一项所述的方法。
28.系统,其包含:a.一个或多个计算机处理器;以及 b.与一个或多个计算机处理器连接的计算机可读的存储介质,所述计算机可读的存储介质包含储存其上的指令,其中当通过一个或多个计算机处理器执行时,所述指令引起一个或多个计算机 处理器执行权利要求1-23中任一项所述的方法。
全文摘要
本文公开了确定位于样品中靶序列的检测位置处的基因组区域的拷贝数的方法。对样品中靶序列的基因组区域进行测序并且获得序列覆盖范围的测量数据。校正序列覆盖偏差并且可针对基线样品进行标准化。进行隐马尔可夫模型(HMM)分段、评分以及输出,并且在一些实施方案中,还可进行基于群体的无读取与低置信区域的鉴定。然后估算多个区域的总拷贝数值与区域特异的拷贝数值。
文档编号G06F19/20GK103201744SQ201180049765
公开日2013年7月10日 申请日期2011年10月12日 优先权日2010年10月13日
发明者亚伦·哈珀恩, 克利须那·潘特 申请人:考利达基因组股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1