用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体的制作方法

文档序号:406928阅读:353来源:国知局
专利名称:用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体的制作方法
技术领域
本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异相关联的病状的诊断和监测。
背景技术
2007 年公布的美国妇产科学会(American College of Obstetrics·andGynecology ;AC0G)实施公告号77支持对所有孕妇妊娠期的前三个月进行非整倍性风险评估,该评估是基于颈半透明度测量以及替代生化标记物,用以筛查唐氏综合征(美国妇产科学会实施公告号77 (AC0G Practice Bulletin No. 77),妇产科(ObstetGynecol) 109 :217-227 [2007])。这些筛查测试仅可以提供风险确定,该风险确定是非决定性的并且具有非最佳的确定和高假阳性率。如今,仅有包括绒膜绒毛采样(CVS)、羊膜穿刺或脐带穿刺在内的创伤性方法才提供关于胎儿的明确遗传信息,但这些程序对母亲和胎儿都有风险(欧迪波(Odibo)等人,妇产科(Obstet Gynecol) 112 :813-819[2008];欧迪波(Odibo)等人,妇产科(Obstet Gynecol) 111 :589-595[2008];埃文斯(Evans)和瓦普纳(Wapner),围产期学论文集(Semin Perinatol) 29 :215-218 [2005])。因此,所希望的是一种用来获得关于胎儿染色体状态的明确信息的无创性手段。对从母体血浆中获得的CfDNA进行大规模平行DNA测序产生数百万个短序列标签,这些短序列标签可以被比对并且唯一地映射到来自参照人类基因组的位点,并且所映射的标签的计数可以用于确定染色体的过度表达或表达不足(范(Fan)等人,美国国家科学院院刊(Proc Natl Acad Sci USA) 105 :16266-16271 [2008];维尔克汀(Voelkerding)和里昂(Lyon),临床化学(Clin Chem) 56 :336-338 [2010])。然而,测序深度和后续计数统计决定了胎儿非整倍性确定的灵敏度。显然不能在测试样品群体中确定一种以上类型的三体性,这一情况强调了针对用来在母体血浆样品中确定染色体非整倍性的优化的算法的需求(赵(Chiu)等人,英国医学杂志(BMJ) 342, C7401 [2011];埃里克(Ehrich)等人,美国妇产科杂志(Am J Obstet Gynecol) 2014 205 el[2011])。现有方法的局限性成为针对最佳的无创性方法的需求的基础,这些最佳的无创性方法将为产前诊断以及与拷贝数变化有关的医学病状的诊断和监测提供特异性、灵敏性以及适用性中的任一者或全部以便可靠地诊断染色体非整倍性。本发明实现了上述需求中的一些,并且尤其提供了一个优点,即提供了一种可靠的方法,该方法具有足够的灵敏性以便确定单个或多个染色体非整倍性,并且该方法验证已作出正确的确定。发明概述本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面不同。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异有关的病状的诊断和监测。在一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在一种胎儿染色体非整倍性(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较指示存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存 在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述的归一化的染色体值(NCV)。在上述和所有后续实施方案中,获得测序信息的步骤包括下一代测序(NGS)。NGS可以是使用多个可逆染料终止子进行合成法测序(sequencing-by-synthesis)。可替代地,NGS可以是连接法测序(sequencing-by-ligation)进行测序。NGS还可以是单分子测序。类似地,在上述和所有后续实施方案中,针对染色体21的归一化染色体是选自染色体9、11、14、以及I。在一些实施方案中,针对染色体18的归一化染色体是选自染色体
8、3、2、以及6。在一些实施方案中,针对染色体13的归一化染色体是选自染色体4、染色体2-6的群组、染色体5、以及染色体6。在一些实施方案中,针对染色体X的归一化染色体是选自染色体6、5、13、以及3。在一些实施方案中,针对染色体I的归一化染色体是选自染色体10、11、9、以及15。在一些实施方案中,针对染色体2的归一化染色体是选自染色体8、7、
12、以及14。在一些实施方案中,针对染色体3的归一化染色体是选自染色体6、5、8、以及18。在一些实施方案中,针对染色体4的归一化染色体是选自染色体3、5、6、以及13。在一些实施方案中,针对染色体5的归一化染色体是选自染色体6、3、8、以及18。在一些实施方案中,针对染色体6的归一化染色体是选自染色体5、3、8、以及18。在一些实施方案中,针对染色体7的归一化染色体是选自染色体12、2、14、以及8。在一些实施方案中,针对染色体8的归一化染色体是选自染色体2、7、12、以及3。在一些实施方案中,针对染色体9的归一化染色体是选自染色体11、10、1、以及14。在一些实施方案中,针对染色体10的归一化染色体是选自染色体1、11、9、以及15。在一些实施方案中,针对染色体11的归一化染色体是选自染色体1、10、9、以及15。在一些实施方案中,针对染色体12的归一化染色体是选自染色体7、14、2、以及8。在一些实施方案中,针对染色体14的归一化染色体是选自染色体12、
7、2、以及9。在一些实施方案中,针对染色体15的归一化染色体是选自染色体1、10、11、以及9。在一些实施方案中,针对染色体16的归一化染色体是选自染色体20、17、15、以及I。在一些实施方案中,针对染色体17的归一化染色体是选自染色体16、20、19、以及22。在一些实施方案中,针对染色体19的归一化染色体是选自22、17、16、以及20。在一些实施方案中,针对染色体20的归一化染色体是选自染色体16、17、15、以及I。在一些实施方案中,针对染色体22的归一化染色体是选自染色体19、17、16、以及20。在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在一种胎儿染色体非整倍性(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的·一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述的归一化的染色体值(NCV)。胎儿染色体非整倍性可以是一种部分的或完整的染色体非整倍性。在这些实施方案中,胎儿染色体非整倍性可以选自21三体性(T21)、18三体性(T18)、13三体性(T13)、X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血衆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。在另一个实施方案中,该方法确定存在或不存在至少两种不同的染色体非整倍性。在一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在至少两种不同的胎儿染色体非整倍性,其中这些步骤包括(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。在另一个实施方案中,该方法确定存在或不存在至少两种不同的染色体非整倍性。在一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)来确定在包含胎儿和母体核酸分子的母体测试样品中存在或不存在至少两种不同的胎儿染色体非整倍性,其中这些步骤包括(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,针对所述感兴趣的染色体的第一归 一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。至少两种不同的胎儿染色体非整倍性可以选自T21、T18、T13、以及X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血衆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。在另一个实施方案中,该方法通过以下步骤验证在包含胎儿和母体核酸分子的母体测试样品中存在或不存在针对感兴趣的染色体的一种非整倍性的确定(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述计算的归一化的染色体值(NCV)。在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一 个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述计算的归一化的染色体值(NCV)。胎儿染色体非整倍性可以是一种部分的或完整的染色体非整倍性。在这些实施方案中,胎儿染色体非整倍性可以选自T21、T18、T13、以及X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。在另一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在至少两种不同的胎儿染色体非整倍性,其中针对该至少两个感兴趣的染色体中每一个的步骤(a)-(c)包括(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,对于该至少两个感兴趣的染色体中的每一个而言,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。在另一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在至少两种不同的 胎儿染色体非整倍性,其中针对该至少两个感兴趣的染色体中每一个的步骤(a)-(c)包括(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,对于该至少两个感兴趣的染色体中的每一个而言,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。至少两种不同的胎儿染色体非整倍性可以选自T21、T18、T13、以及X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。
在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的一种胎儿染色体非整倍性(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目,其中获得序列信息包括使用多个可逆染料终止子进行大规模平行合成法测序;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿 和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的至少两种不同的染色体非整倍性。该方法可以进一步包括针对所有染色体重复步骤(a)-(c)以确定存在或不存在至少两种胎儿染色体非整倍性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血衆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的一种胎儿染色体非整倍性(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目,其中获得序列信息包括使用多个可逆染料终止子进行大规模平行合成法测序;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的至少两种不同的染色体非整倍性。该方法可以进一步包括针对所有染色体重复步骤(a)-(c)以确定存在或不存在至少两种胎儿染色体非整倍性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。在一些上述实施方案以及一些后续实施方案中,获得针对在样品中胎儿和母体核酸的序列信息包括对在样品中的胎儿和母体核酸分子进行测序。通过引用结合本文中所提及的所有专利、专利申请、以及其他公开物(包括这些参考文献中所·披露的所有序列)都明确地通过引用结合,其结合程度就如同各单独的公开物、专利或专利申请确切地并且单独地被指明为通过引用结合。然而,对任何文献的引述都不应该被理解为承认它是关于本发明的现有技术。附图
简要说明本发明的新颖特征在所附权利要求书中加以特殊性阐述。通过参考以下阐述了利用本发明原理的示意性实施方案的发明详细说明以及其附图将获得对本发明特征和优点的更好理解。图I提供了一个流程图,示出了确定并且验证存在或不存在非整倍性的方法的两个替代实施方案。图2示出了在来自训练集I的样品中确定的针对染色体21 (〇)、18 ( A )、以及13( □)的归一化的染色体值(实例I)。图3示出了在来自测试集I的样品中确定的针对染色体21 (〇)、18 ( A )、以及13( □)的归一化的染色体值(实例I)。图4示出了使用赵(Chiu)等人的归一化方法在来自测试集I的样品中确定的针对染色体21 (O)和18 ( A )的归一化的染色体值(实例I)。图5示出了使用染色体11作为归一化染色体在测试集I(实例I)的48个样品中确定的针对染色体9剂量的归一化的染色体值的图。图6示出了使用染色体2作为归一化染色体在测试集I(实例I)的48个样品中确定的针对染色体8剂量的归一化的染色体值的图。图7示出了使用染色体5作为归一化染色体在测试集I(实例I)的48个样品中确定的针对染色体6剂量的归一化的染色体值的图。图8示出了对应地使用染色体9 (A)、染色体10⑶、以及染色体14 (C)在测试集I的48个样品中确定的针对染色体21剂量的归一化的染色体值的图,该测试集I包括未受影响(〇)和受影响(A ) ( S卩,21三体性)的样品。图9示出了使用染色体2作为归一化染色体⑷以及使用染色体7作为归一化染色体(B)在测试集2(实例4)中确定的针对染色体8剂量的归一化的染色体值的图。发明详细说明本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面有所不同。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异有关的病状的诊断和监测。除非另外指明,否则本发明的实施涉及分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序、以及重组DNA领域中常用的常规技术,这些技术都在本领域的技术范畴内。这些技术是本领域的技术人员所知的,并且描述于众多教科书和参考文献中(参见例如萨姆布鲁克(Sambrook)等人分子克隆实验指南(Molecular Cloning A Laboratory Manual) ”,第二版(冷泉港(Cold Spring Harbor)), [1989]);和奥苏伯尔(Ausubel)等人,“最新分子生物学实验方法汇编(Current Protocols in MolecularBiology)” [1987]) 数值范围包括限定该范围的数值。在此的意图是贯穿本说明书给出的每一最大数值限度包括每一较低的数值限度,如同此类较低数值限度在此被明确写出。贯穿本说明书给出的每一最小数值限度将包括每一较高的数值限度,如同此类较高数值限度在此被明确写出。贯穿本说明书给出的每一数值范围将包括落在此类较广的数值范围内的每一较窄数值范围,如同此类较窄数值范围此处被全部明确地写出。本文中所提供的标题并不是对本发明的不同的方面或实施方案的限制,它可以是通过参考作为一个总体的说明书而具有的。因此,如上所指明,直接在下文中定义的术语通过参考作为一个总体的说明书而更充分地定义。除非在此另行定义,在此使用的所有技术的和科学的术语都具有本发明所属领域中的一位普通技术人员通常理解的相同含义。包括了在此包含的术语的不同科学字典对于本领域那些技术人员而言是熟知并且是可获得的。虽然类似或等价于在此所述的那些方法和材料的任何方法和材料在实施或测试本发明中找到了用途,但仅说明了一些优选的方法和材料。因此,直接在下文中定义的术语通过将本说明书作为整体来参阅即得到更完全地说明。应理解,本发明并不局限于所说明的具体方法学、规程、以及试剂,因为这些可以变化,它们被本领域的那些技术人员根据其情况下来使用。定义如在此所使用的,单数的术语“一个”、“一种”、和“该”包括复数引用,除非上下文清楚地另外指明。除非另外指明,核酸是按5'到3'方向从左到右书写并且氨基酸序列是按氨基到羧基方向从左到右书写。术语“获得序列信息”在本文中是指对核酸进行测序以获得呈序列读数形式的序列信息,这些序列读数当被唯一地映射到参照基因组时被识别为序列标签。术语“归一化值”在本文中是指针对感兴趣的染色体确定的并且使针对感兴趣的染色体的序列标签的数目与针对归一化染色体的序列标签的数目相关联的一个数值。举例来说,“归一化值”可以是如本文中别处描述的一个染色体剂量,或者它可以是如本文中别处描述的一个NCV (归一化的染色体值)。术语“感兴趣的染色体”在本文中是指进行存在或不存在一种非整倍性确定的一种染色体。感兴趣的染色体的实例包括常见的非整倍性(如21三体性)中所涉及到的染色体,以及罕见的非整倍性(如2三体性)中所涉及到的染色体。染色体1_22、X以及Y中的任何一项都可以是感兴趣的染色体。术语“多个(multiple)和复数个(plurality) ”当关于染色体非整倍性数目和/或染色体数目使用时,在本文中是指两个或更多个非整倍性和/或染色体。术语“阈值”在本文中是指使用训练数据集计算的并且用作生物体中拷贝数变异(例如非整倍性)诊断界限的任何数值。如果从实施本发明获得的结果超过阈值,那么受试者可以被诊断为有拷贝数变异(例如21三体性)。针对本文中所述的方法的适当阈值可以通过对针对包括合格样品(即,未受影响的样品)的训练样品集所计算的归一化值(例如染色体剂量、或NCV(归一化的染色体值))进行分析来识别。阈值可以使用合格样品以及被识别为具有染色体非整倍性的样品(即,受影响的样品)进行设定(参见本文中的实例)。在一些实施方案中,用于识别适当阈值的训练集包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400个、至少500个、至少600个、至少700个、至少800个、至少·900个、至少1000个、至少2000个、至少3000个、至少4000个、或更多个合格样品。使用更大的合格样品集来改善阈值的诊断工具可能是有利的。术语“下一代测序(NGS) ”在本文中是指允许对以克隆方式扩增的核酸分子以及单个核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括使用多个可逆染料终止子进行的合成法测序、以及连接法测序。术语“读数”是指具有足够长度(例如至少约30bp)的一个DNA序列,其可以用于识别更大的序列或区域,例如其可以被比对并且特定地归属到染色体或基因组区域或基因。术语“序列标签”在本文中可与术语“映射的序列标签”互换使用以提及已通过比而确切地归属(即,映射)到更大序列(例如,参照基因组)的一个序列读数。映射的序列标签被唯一地映射到一个参照基因组,即,它们被归属到参照基因组的单一位置。分析中不包括可以被映射到参照基因组上的一个以上位置的标签(即,不唯一地映射的标签)。术语“序列标签的数目”当关于针对一个感兴趣的染色体和/或一个或多个归一化染色体的标签的数目使用时,在本文中是指映射到这个感兴趣的染色体和/或这个或这些归一化染色体的序列标签,这些序列标签是针对样品中所有染色体获得的多个标签的子集。针对一个样品获得的标签数目可以是至少约IXio6个序列标签、至少约2X106个序列标签、至少约3 X IO6个序列标签、至少约5 X IO6个序列标签、至少约8 X IO6个序列标签、至少约IOX IO6个序列标签、至少约15 X IO6个序列标签、至少约20 X IO6个序列标签、至少约30 X IO6个序列标签、至少约40 X IO6个序列标签,或至少约50 X IO6个序列标签、或至少约60 X IO6个序列标签,或至少约70 X IO6个序列标签、或至少约80 X IO6个序列标签,包括在20bp与40bp之间(例如36bp)的读数,是每个样品通过将读数映射到参照基因组而获得的。被映射到任何一个染色体的标签的数目将取决于染色体大小和染色体拷贝数。举例来说,被映射到21三体性样品中的染色体21的标签的数目将不同于(即,大于)被映射到未受影响的样品中的染色体21的标签的数目。类似地,被映射到染色体19的标签的数目将小于被映射到染色体I (其约为染色体19大小的4倍)的标签的数目。被映射到感兴趣的序列(例如染色体)的标签的数目也被称为“序列标签密度”。
术语“序列标签密度”在本文中是指被映射到参照基因组序列的序列读数的数目,例如针对染色体21的序列标签密度是通过测序方法产生的被映射到参照基因组的染色体21的序列读数的数目。可以针对整个染色体、或针对染色体的部分确定序列标签密度。如本文中所使用,术语“被比对的”、“比对”或“进行比对”是指就它们的核酸分子次序方面被识别为与来自参照基因组的已知序列匹配的一个或多个序列。该种比对可以人工进行或通过计算机算法进行,实例包括作为亿明达基因组学分析流水线(IlluminaGenomics Analysis pipeline)的一部分配发的高效的核苷酸数据局部比对(EfficientLocal Alignment of Nucleotide Data ;ELAND)的计算机程序。比对中的序列读数的匹配可以是100%序列匹配或小于100% (非完美匹配)。如本文中所使用,术语“参照基因组”是指任何生物体或病毒的任何特定的已知基因组序列(无论是部分的还是完整的),其可以用于给从受试者识别出的序列作参照。举例来说,用于人类受试者以及许多其他生物体的参照基因组见于美国国家生物技术信息中心(National Center for Biotechnologylnformation)www. ncbi. nlm. nih. gov。 “基因组”是指以核酸序列形式表示的生物体或病毒的完整遗传信息。术语“母体样品”在本文中是指从怀孕的受试者(例如女性)获得的生物样品。术语“生物学流体”在本文中是指从生物来源取得的液体,并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、精液、汗水、眼泪、唾液等。如本文中所使用,术语“血液”、“血浆”以及“血清”明确地涵盖它们的部分或经过加工的部分。类似地,当样品是取自活组织检查、拭子、涂片等时,“样品”明确地涵盖来源于活组织检查、拭子、涂片等的经过加工的碎片或部分。术语“母体核酸”和“胎儿核酸”在本文中对应地是指怀孕女性受试者的核酸以及由怀孕雌性所携带的胎儿的核酸。术语“受试者”在本文中是指人类受试者以及非人类受试者,如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌、以及病毒。尽管本文中的实例涉及人类并且言辞主要是针对有关人类,但本发明的概念适用于来自任何植物或动物的基因组,并且适用于兽医学、动物科学、以及研究实验室等领域。术语“归一化序列”在本文中是指在多个样品和多个测序批次之间显示被映射到其上的序列标签的数目有变异性的序列,该序列标签的数目的变异性最接近于它被用作归一化参数所针对的感兴趣的序列的序列标签的数目的变异性,并且可以最佳地将受影响的样品与一个或多个未受影响的样品区别开。“归一化染色体”是“归一化序列”的一个实例。
术语“序列剂量”在本文中是指使感兴趣的序列的序列标签密度与归一化序列的标签密度相关联的一个参数。“染色体剂量”是被映射到染色体(例如感兴趣的染色体)的序列标签的数目与被映射到归一化染色体的序列标签的数目的比率,它是序列剂量的一个实例。“测试序列剂量”是使在测试样品中确定的感兴趣的序列(例如染色体21)的序列标签密度与归一化序列(例如染色体9)的序列标签密度相关联的一个参数。类似地,“合格序列剂量”是使在合格样品中确定的感兴趣的序列的序列标签密度与归一化序列的序列标签密度相关联的一个参数。术语“染色体剂量”在本文中是指被映射到染色体(例如感兴趣的染色体)的序列标签的数目与被映射到归一化染色体的序列标签的数目的比率。
术语“归一化染色体”在本文中是指在多个样品和多个测序批次之间显示被映射到它的序列标签的数目有变异性的染色体,该序列标签的数目的变异性最接近于它被用于获得归一化值所针对的感兴趣的染色体的序列标签的数目的变异性,并且可以最佳地将受影响的样品与一个或多个未受影响的样品区别开。术语“感兴趣的序列”在本文中是指与在健康个体对比患病的个体中的序列表达差异有关的核酸序列。感兴趣的序列可以是在疾病或遗传状况中错误表达(即,过度表达或表达不足)的染色体上的序列。感兴趣的序列还可以是染色体的一部分、或染色体(即,感兴趣的染色体)。举例来说,感兴趣的序列可以是在非整倍性病状中过度表达的染色体(例如染色体13、18、21、以及X)、或在癌症中编码表达不足的肿瘤抑制因子的基因。感兴趣的序列包括在受试者细胞的总群或亚群中过度表达或表达不足的序列。“感兴趣的合格序列”是合格样品中的感兴趣的序列。“感兴趣的测试序列”是测试样品中的感兴趣的序列。术语“合格样品”在本文中是指包含与测试样品中的核酸进行比较的、以已知拷贝数存在的多种核酸的混合物的一个样品,并且针对感兴趣的序列,它是正常(即,不是非整 倍体)的样品,例如用于识别针对染色体21的归一化染色体的合格样品是一个非21三体性样品的样品。术语“训练集”和“训练样品”在本文中用于指包含与测试样品中的核酸进行比较的、以已知拷贝数存在的核酸的样品。除非另外说明,否则训练集包括合格和受影响的样品。术语“测试样品”在本文中是指包含核酸混合物并且这些核酸包含拷贝数被怀疑已经发生变异的至少一个核酸序列的样品。存在于测试样品中的核酸被称为“测试核酸”。术语“非整倍性”在此是指由损失或获得整个染色体、或染色体的一部分而引起的遗传物质的不平衡。术语“染色体性非整倍性”在此是指由损失或获得整个染色体而引起的遗传物质的不平衡,并且包括种系非整倍性和嵌合性非整倍性。术语“部分非整倍性”和“部分染色体性非整倍性”在此是指由损失或获得染色体的一部分(例如,部分单体性和部分三体性)而引起的遗传物质的不平衡,并且涵盖由易位、缺失和插入引起的不平衡。术语“核酸分子”、“多核苷酸”以及“核酸”被可互换地使用,并且是指一个共价连接的核苷酸序列(即,RNA的核糖核苷酸和DNA的脱氧核糖核苷酸),其中一个核苷酸的戊糖的3'位置被一个磷酸二酯基团连接到下一个核苷酸的戊糖的5'位置上,这包括任何形式的核酸的序列,包括但不局限于RNA、DNA和cfDNA分子。术语“多核苷酸”包括而不局限于单链的和双链的多核苷酸。术语“拷贝数变异(CNV) ”在本文中是指存在于测试样品中的核酸序列拷贝数与存在于合格样品(即,正常样本)中的核酸序列拷贝数相比的变异。拷贝数变异包括缺失(包括微缺失)、插入(包括微插入)、复制、倍增、倒位、易位以及复杂多位置变异。CNV涵盖了完整的染色体非整倍性和部分的非整倍性。描述本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于至少两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面不同。感兴趣的序列包括在数百个碱基到数十个巨碱基到整个染色体范围内的基因组序列,这些基因组序列已知或被怀疑为与遗传或疾病病状有关。感兴趣的序列的实例包括与熟知的非整倍性(例如21三体性)有关的染色体、以及在疾病(如癌症)中倍增的染色体片段(例如急性髓细胞白血病中的部分8三体性)。本发明方法包括在一个或多个母体测试样品中获得测序信息,以计算针对感兴趣的序列(例如染色体)的染色体剂量,从而确定存在或不存在单个或多个染色体非整倍性,并且包括验证作出正确的非整倍性的确定。正确地确定在样品中存在或不存在CNV(例如非整倍性)所需的准确性是基于以下各项的一个测序批次内的多个样品之间映射到参照基因组的序列标签的数目的变异(同批测序变异),以及不同测序批次中映射到参照基因组的序列标签的数目的变异(轮次间测序变异),这些变异可以使胎儿染色体非整倍性映射射的序列标签的分布的影响不明显。举例来说,对于映射到GC富集或GC贫乏的参照序列的标签而言,变异可能尤其显著。为了校正该种变异,本发明方法基于归一化染色体(或归一化染色体群组)的知识使用染色体剂量从本质上解释了出现的测序变异性。 归一化染色体和染色体剂量使用来自一组从受试者获得的合格样品的序列信息来识别归一化染色体,这些样品已知包含具有针对任何一个感兴趣的序列正常的拷贝数(例如针对染色体21的二倍体)的细胞。从合格样品获得的序列信息还用于确定在测试样品中染色体非整倍性的有统计学意义的识别(参见实例)。在一个实施方案中,合格样品是从怀有胎儿的母亲获得的,已使用细胞遗传学手段证实该胎儿具有正常的染色体拷贝数(例如针对染色体21的二倍体)。生物学合格样品可以是一种生物学流体(例如血浆)、或如下文所述的任何适合的样品。在一些实施方案中,合格样品包含核酸分子(例如cfDNA分子)的混合物。在一些实施方案中,合格样品是包含胎儿和母体cfDNA分子的混合物的母体血浆样品。通过使用任何已知的测序方法对核酸(例如胎儿和母体核酸)的至少一部分进行测序来获得针对归一化染色体的序列信息。优选地,使用本文中别处所述的任何一种下一代测序(NGS)方法来对呈单分子或以克隆方式扩增的分子形式的胎儿和母体核酸进行测序。具有预定长度(例如36bp)的数百万个序列读数是通过NGS技术产生的,并且被映射到参照基因组以待于作为序列标签进行计数。对各合格样品的至少一部分核酸进行测序,并且对被映射到各染色体的序列标签的数目进行计数。在一些实施方案中,被映射到染色体的序列标签的数目可以归一化到这些感兴趣的合格序列的、映射它们到上面的长度。作为标签密度相对于感兴趣的序列长度的比率而确定的序列标签密度在本文中被称作标签密度比率。归一化到感兴趣的序列长度不是必需的,但是可以作为用来减少数值中的数字数目的步骤而包括在内,以简化数值以供人类解读。当各合格样品中的所有合格序列标签都被映射并且计数时,合格样品中针对感兴趣的序列(例如临床上相关的序列)的合格序列标签密度被确定,针对随后用来从中识别归一化序列的另外序列的序列标签密度也被确定了。基于所计算的合格标签密度,针对感兴趣的序列(例如染色体21)的合格序列剂量(例如染色体剂量)各自作为针对感兴趣的序列的序列标签密度与针对随后用来从中识别归一化序列的另外序列的合格序列标签密度的比率而被确定。举例来说,针对感兴趣的染色体(例如染色体21)的染色体剂量是作为针对染色体21的序列标签密度与针对所有其余染色体(即,染色体1-20、染色体22、染色体X、以及染色体Y)各自的序列标签密度的比率而确定的。可以针对所有染色体确定合格序列剂量。随后,基于所计算的序列剂量在合格样品中识别出针对感兴趣的序列(例如染色体21)的至少两个归一化序列。举例来说,针对染色体21的合格归一化序列是作为合格样品中所具有的序列标签密度变异最接近于染色体21的序列标签密度变异的序列而识别的。举例来说,合格归一化序列是具有最小变异性的序列。在一些实施方案中,识别出两个以上的归一化序列。举例来说,确定了针对所有染色体1-22、染色体X、以及染色体Y中的每一个的具有最低变异性的归一化染色体。实例5中的表9提供了四个归一化染色体,这些归一化染色体被确定为针对染色体1-22、染色体X、以及染色体Y中的每一个的具有四个最低变异性。如实例中所示,变异性在数值上可以表示为变异系数(CV%)。归一化序列还 可以是最佳地区分一个或多个合格样品与一个或多个受影响的样品的序列,即,归一化序列是具有最大可辨性的序列。可辨性程度可以作为合格样品群体中的染色体剂量与一个或多个测试样品中的染色体剂量之间的统计学差异而确定。举例来说,可辨性在数值上可以表示为T测试值,其表示合格样品群体中的染色体剂量与一个或多个测试样品中的染色体剂量之间的统计学差异。可替代地,可辨性在数值上可以表示为归一化的染色体值(NCV),其在NCV呈正态分布的时候是针对染色体剂量的z分值。在确定z分值中,可以使用一组合格样品中的染色体剂量的均值和标准差。可替代地,可以使用包括合格样品和受影响的样品的训练集中的染色体剂量的均值和标准差。在其他实施方案中,归一化序列是具有最小变异性和最大可辨性的序列。该方法识别了天生地具有类似的特征并且倾向于在样品和测序批次之间发生类似的变异的序列,并且这些序列适用于确定测试样品中的序列剂量。基于对合格样品中的这个或这些归一化序列的识别,使用针对测试样品中的核酸获得的序列信息确定测试样品中针对感兴趣的序列(例如染色体21)的一个或多个序列剂量(例如染色体剂量)。在一些实施方案中,确定了针对感兴趣的序列的至少两个序列剂量(例如染色体剂量)。举例来说,使用染色体9作为一个第一归一化染色体确定针对染色体21的一个第一染色体剂量,并且使用染色体11作为第二归一化染色体确定针对染色体21的一个第二染色体剂量。测试序列剂量可以进一步表示为如下所述的NCV。在一些实施方案中,可以通过以下步骤进行测试样品的分类直接将针对感兴趣的染色体的第一测试序列剂量与一个第一阈值进行比较并且将第二测试序列剂量与一个第二阈值进行比较以确定在测试样品中存在或不存在一种染色体非整倍性。针对感兴趣的染色体的两个染色体剂量的比较验证了样品分类的确定。根据用户定义的可靠性阈值选择阈值以将样品分类为“正常的”、“受影响的”或““未判定(no call)的”样品。在其他实施方案中,使用一个第一归一化染色体确定针对感兴趣的染色体的一个第一染色体剂量,并且使用一个第二归一化染色体确定针对第一归一化染色体的一个第二染色体剂量。可以通过以下步骤进行测试样品的分类将第一染色体剂量与一个第一阈值进行比较并且将第二染色体剂量与一个第二阈值进行比较以确定在测试样品中存在或不存在一种染色体非整倍性。针对感兴趣的染色体的染色体剂量与一个第一阈值的比较确定了在测试样品中存在或不存在针对感兴趣的染色体的非整倍性,并且针对归一化染色体的第二染色体剂量与一个第二阈值的比较验证了样品分类的确定。测试染色体剂量可以进一步表示为如下所述的NCV,其中第一和第二染色体剂量表不为第一和第二 NCV ;并且测试样品的分类是通过将第一 NCV与一个第一阈值进行比较并且将第二 NCV与一个第二阈值进行比较来进行的。尽管本文中的实例涉及完整的染色体非整倍性,但本发明的概念适用于部分的非整倍性。在一个实施方案中,感兴趣的序列是与部分的非整倍性(例如染色体缺失或插入、或不平衡的染色体易位)有关的染色体片段,并且至少两个归一化序列是与部分的非整倍性无关的染色体片段,并且这些两个归一化序列的序列标签密度变异最接近于与部分的非整倍性有关的染色体片段的序列标签密度变异。部分的非整倍性可以使用染色体剂量确定(参见2010年12月I日提交的国际申请PCT/US2010/058609、以及2010年12月I日提交的美国专利申请12/958,352,这些申请的名称都为“用于确定拷贝数变异的方法(Methodfor Determining Copy Number Variations) ”并且通过引用以其全文结合在此)。可以根据本发明方法使用至少两个归一化序列验证存在或不存在一种部分的非整倍性。图I提供了方法100的两个示例性实施方案的流程图,该方法在包含两个基因组 的混合物的样品(例如母体样品)中确定并且验证存在或不存在一种染色体非整倍性。在一个第一实施方案中,该方法通过以下步骤在包含胎儿和母体核酸的母体测试样品中确定存在或不存在胎儿染色体非整倍性(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的序列标签的数目以及针对至少两个归一化染色体的序列标签的数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(C)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(C)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述的归一化的染色体值(NCV)。根据如图I中示出的方法的步骤110、120、130、以及140描绘第一实施方案。对从母体样品获得的胎儿和母体核酸进行测序以提供序列标签的数目(110)。对被映射到一个感兴趣的染色体(例如染色体21)的序列标签、以及被映射到两个归一化染色体(例如染色体9和染色体11)的序列标签进行计数并且用于计算针对感兴趣的染色体的相应的第一和第二归一化值(例如染色体剂量)。在一个实施方案中,至少两个染色体剂量是针对各感兴趣的染色体确定的归一化值。在一个实施方案中,针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率(120)。将针对感兴趣的染色体的第一归一化值(S卩,第一染色体剂量)与一个第一阈值相比,并且将针对感兴趣的染色体的第二归一化值(即第二染色体剂量)与一个第二阈值相比(130),并且进行存在或不存在一种染色体非整倍性的确定以及验证(140)。可替代地,至少两个染色体剂量表示为第一和第二归一化的染色体值(NCV),该第一 NCV使第一染色体剂量与在一组合格样品中相应的第一染色体剂量的均值相关联,并且第二 NCV使第二染色体剂量与在同一组合格样品中相应的染色体剂量的均值相关联,如
权利要求
1.一种用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在胎儿染色体非整倍性的方法,所述方法包括 (a)获得针对在所述样品中所述胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目; (b)使用所述序列标签的数目来计算针对所述感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且 (C)将针对所述感兴趣的染色体的所述第一归一化值与一个第一阈值进行比较并且将针对所述感兴趣的染色体的所述第二归一化值与一个第二阈值进行比较,以确定在所述样品中存在或不存在一种胎儿非整倍性。
2.如权利要求I所述的方法,其中针对所述感兴趣的染色体的所述第一归一化值是一个第一染色体剂量,所述第一染色体剂量是针对所述感兴趣的染色体的序列标签的数目与一个第一归一化染色体的比率,并且其中针对所述感兴趣的染色体的所述第二归一化值是一个第二染色体剂量,所述第二染色体剂量是针对所述感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
3.一种用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在胎儿染色体非整倍性的方法,所述方法包括 (a)获得针对在所述样品中所述胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目; (b)使用针对所述感兴趣的染色体的所述序列标签的数目以及针对一个第一归一化染色体的序列标签的数目来确定针对所述感兴趣的染色体的一个第一归一化值;并且使用针对所述第一归一化染色体的所述序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对所述第一归一化染色体的一个第二归一化值; (c)将针对所述感兴趣的染色体的所述第一归一化值与一个第一阈值进行比较并且将针对所述第一归一化染色体的所述第二归一化值与一个第二阈值进行比较,以确定在所述样品中存在或不存在一种胎儿非整倍性。
4.如权利要求3所述的方法,其中针对所述感兴趣的染色体的所述第一归一化值是一个第一染色体剂量,所述第一染色体剂量是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且其中针对所述感兴趣的染色体的所述第二归一化值是一个第二染色体剂量,所述第二染色体剂量是所述第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
5.如权利要求I到4中任何一项所述的方法,进一步包括确定一个第一归一化的染色体值和一个第二归一化的染色体值(NCV),其中所述第一 NCV使所述第一染色体剂量与在一组合格样品中相应的第一染色体剂量的均值相关联,并且其中所述第二 NCV使所述第二染色体剂量与在一组合格样品中相应的第二染色体剂量的均值相关联,作为 其中A和^对应地是针对在一组合格样品中第j个染色体剂量的 估算均值和标准差,并且Xu是针对测试样品i所观察到的第j个染色体剂量。
6.如权利要求I到5中任何一项所述的方法,其中 针对染色体21的所述归一化染色体是选自染色体9、11、14、以及I ; 针对染色体18的所述归一化染色体是选自染色体8、3、2、以及6 ; 针对染色体13的所述归一化染色体是选自染色体4、染色体2-6的群组、染色体5、以及染色体6 ; 针对染色体X的所述归一化染色体是选自染色体6、5、13、以及3 ; 针对染色体I的所述归一化染色体是选自染色体10、11、9、以及15 ; 针对染色体2的所述归一化染色体是选自染色体8、7、12、以及14 ; 针对染色体3的所述归一化染色体是选自染色体6、5、8、以及18 ; 针对染色体4的所述归一化染色体是选自染色体3、5、6、以及13 ; 针对染色体5的所述归一化染色体是选自染色体6、3、8、以及18 ; 针对染色体6的所述归一化染色体是选自染色体5、3、8、以及18 ; 针对染色体7的所述归一化染色体是选自染色体12、2、14、以及8 ; 针对染色体8的所述归一化染色体是选自染色体2、7、12、以及3 ; 针对染色体9的所述归一化染色体是选自染色体11、10、I、以及14 ; 针对染色体10的所述归一化染色体是选自染色体1、11、9、以及15 ; 针对染色体11的所述归一化染色体是选自染色体1、10、9、以及15 ; 针对染色体12的所述归一化染色体是选自染色体7、14、2、以及8 ; 针对染色体14的所述归一化染色体是选自染色体12、7、2、以及9 ; 针对染色体15的所述归一化染色体是选自染色体I、10、11、以及9 ; 针对染色体16的所述归一化染色体是选自染色体20、17、15、以及I ; 针对染色体17的所述归一化染色体是选自染色体16、20、19、以及22 ; 针对染色体19的所述归一化染色体是选自22、17、16、以及20 ; 针对染色体20的所述归一化染色体是选自染色体16、17、15、以及I ;并且 针对染色体22的所述归一化染色体是选自染色体19、17、16、以及20。
7.如权利要求I到6中任何一项所述的方法,其中确定了至少两种不同的胎儿染色体非整倍性的存在或不存在。
8.如权利要求7所述的方法,其中 (i)所述方法包括针对至少两个感兴趣的染色体重复如权利要求I或权利要求2所述的方法来确定存在或不存在所述不同的胎儿染色体非整倍性;或 (ii)所述方法包括针对至少两个感兴趣的染色体重复如权利要求3或权利要求4所述的方法来确定存在或不存在所述不同的胎儿染色体非整倍性;或 (iii)所述方法包括针对至少两个感兴趣的染色体重复如权利要求5所述的方法。
9.如权利要求7或权利要求8所述的方法,其中该方法包括针对所有染色体重复如权利要求I到5中任何一项所述的方法来确定存在或不存在不同的胎儿染色体非整倍性。
10.如权利要求I到6中任何一项所述的方法,其中所述胎儿染色体非整倍性是选自T21、T13、T18、以及单体性X ;或如权利要求7到9中任何一项所述的方法,其中所述不同的胎儿染色体非整倍性是选自T21、T13、T18、以及单体性X。
11.如以上权利要求中任何一项所述的方法,其中所述母体样品是从一位孕妇获得的; 所述母体样品是一种生物学流体样品; 所述母体样品是一个血浆样品;和/或 所述核酸分子是cfDNA分子。
12.如以上权利要求中任何一项所述的方法,其中获得针对在该样品中的这些胎儿和母体核酸的序列信息包括对在该样品中的胎儿和母体核酸分子进行测序。
13.如权利要求12所述的方法,其中 获得所述序列信息包括下一代测序(NGS); 获得所述序列信息包括使用多个可逆染料终止子进行合成法测序; 获得所述序列信息包括连接法测序;或 获得所述序列信息包括单分子测序。
14.如以上权利要求中任何一项所述的方法,其中所述染色体非整倍性是一种部分的或完整的染色体非整倍性。
15.如以上权利要求中任何一项所述的方法,其中所述母体测试样品是从一位孕妇获得的血浆样品,并且所述核酸分子是cfDNA分子。
全文摘要
本发明提供了一种能够在包含胎儿和母体核酸的母体样品中检测单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面不同。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异有关的病状的诊断和监测。
文档编号C12Q1/68GK102985561SQ201180022971
公开日2013年3月20日 申请日期2011年4月14日 优先权日2011年4月14日
发明者里查德·P·拉瓦 申请人:维里纳塔健康公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1