由母本生物样品进行胎儿基因组的分析的制作方法

文档序号:393189阅读:713来源:国知局
专利名称:由母本生物样品进行胎儿基因组的分析的制作方法
由母本生物样品进行胎儿基因组的分析相关申请的交叉引用本申请要求2009年11月5日提交的题目为“Fetal Genomic Analysis (胎儿基因组分析)”的美国临时申请第61/258567号、2009年11月6日提交的题目为“FetalGenomic Analysis from a Maternal Biological Sample (由母本生物样品进行胎儿基因组的分析)”的美国临时申请第61/259075号和2010年9月10日提交的题目为“FetalGenomic Analysis from a Maternal Biological Sample (由母本生物样品进行胎儿基因组的分析)”的美国临时申请第61/381854号的权益,并且是这些临时申请的非临时申请,通过引用将这些临时申请的全部内容并入本文,用于所有目的。本申请还涉及2008年7月23日提交的题目为“Diagnosing Fetal ChromosomalAneuploidy Using Massively Parallel Genomic Sequencing(利用大规模平行基因组测序诊断胎儿染色体的非整倍性)”的美国申请第12/178,181号(代理人案 号 016285-005220US)、题目为“Diagnosing Fetal Chromosomal Aneuploidy UsingGenomic Sequencing With Enrichment (利用基因组测序与富集诊断胎儿染色体的非整倍性)”的美国申请第12/614350号(代理人案号016285-005221US)和同时提交的题目为“Size-Based Genomic Analysis (基于大小的基因组分析)”的美国申请(代理人案号016285-006610US),通过引用将这些申请的全部内容并入本文,用于所有目的。
背景技术
本发明通常涉及基于母本样品分析胎儿基因组,更具体而言,涉及基于母本样品中基因片段的分析确定全部或部分胎儿基因组。1997年,母本血浆中无细胞胎儿核酸的发现已为非侵入性产前诊断开启了新的可能性(Lo YMD et al Lancet 1997; 350:485-487;和美国专利 6,258,540)。这项技术被快速转化于临床应用,用于检测胎儿来源的、从父系遗传的基因或序列,例如用于胎儿性别确定、胎儿RhD状态确定和确定胎儿是否遗传了父系遗传性突变(AmicucciP et al Clin Chem 2000; 46:301-302; Saito H et al Lancet 2000; 356:1170;以及Chiu RffK et al Lancet2002; 360:998-1000)。最近在该领域内的进展已经能够由母本血浆核酸分析进行胎儿染色体非整倍性如三体性21的产前诊断(Lo YMD et al NatMed 2007; 13:218-223; Tong YK et al Clin Chem 2006; 52:2194-2202;美国专利申请2006/0252071;Lo YMD et al Proc Natl Acad Sci USA 2007; 104:131 16-13121;ChiuRffK et al Proc Natl Acad Sci USA 2008;105:20458-20463; Fan HC et al Proc NatlAcad Sci 2008; 105:16266-16271;美国专利申请2007/0202525;以及美国专利申请2009/0029377)。有意义的近期进展的另一方面是利用单分子计数法如数字PCR进行单基因疾病的非侵入性产前诊断,在所述单基因疾病中,母亲和父亲二人均携带同一突变。这已经通过母本血浆中的相对突变剂量(RMD)分析得到实现(美国专利申请2009/0087847; Lun FMFet al Proc Natl Acad Sci USA 2008;105:19920-19925;以及Chiu RffK et al. Trends基因 t 2009;25:324-331)。
然而,这些方法利用可能突变的现有知识来分析基因组的特定部分,因而不可能鉴定出潜在的或罕见的突变或遗传疾病。因此,期望提供能够利用非侵入性技术鉴定全部或部分胎儿基因组的新方法、系统和装置。发明概述本发明的某些实施方案提供了确定怀孕女性的未出生胎儿的基因组的至少一部分的方法、系统和装置。利用含有胎儿和母本遗传材料的样品(例如,来自怀孕母亲的血液样品)可以在产前构建胎儿的全基因组或所选基因组区域的基因图谱。基因图谱可以是胎儿从其父母二人或者仅从其父母之一遗传来的序列的图谱。基于一个或数个这样的基因图谱,可以确定胎儿患遗传疾病或易患遗传疾病或其他疾病或遗传性状的风险。本文还描述了实施方案的其他应用。在一个实施方案中,可以分析来自母本样品(含有母本和胎儿DNA)的DNA片段,以鉴定某些指定基因座(界标)处的等位基因。然后,可以综合分析这些基因座处各等位 基因的DNA片段的量,以确定这些基因座的单倍型的相对量,进而确定胎儿从母本和/或父本基因组遗传了哪种单倍型。通过鉴定胎儿单倍型,可以确定包括指定基因座的相应基因组区域内的单个基因座处的胎儿基因型。在各种实施方案中,以确定胎儿基因组的区域的方式分析亲本为纯合和杂合的特定组合的基因座。在一项应用中,使用代表群体中常见单倍型的参照单倍型,同时分析母本样品的DNA片段,以确定母本和父本基因组。还提供了其他实施方案,诸如确定突变,确定母本样品中的部分胎儿浓度和确定母本样品测序覆盖度的比例。本发明的其他实施方案涉及与本文所述方法相关的系统、装置和计算机可读介质。在一个实施方案中,计算机可读介质含有接收数据和分析数据的指令,而不是指导仪器产生数据(例如,测序核酸分子)的指令。在另一个实施方案中,计算机可读介质含有指导仪器产生数据的指令。在一个实施方案中,计算机程序产品包含存储多个指令的计算机可读介质,所述指令用于控制处理器执行本文所描述的方法的操作。实施方案还涉及经设置执行本文所述任何方法的步骤的计算机系统,可能有不同的组件执行各个步骤或各组步骤。参照说明书的其余部分,包括附图和权利要求书,将会理解本发明实施方案的其他特征和优点。下面结合附图详述本发明各实施方案的其他特征和优点以及结构和操作。在附图中,相似的参考编号可以表示相同的或功能上相似的元件。


图I是按照本发明的实施方案确定怀孕女性的未出生胎儿的基因组的至少一部分的方法100的流程图。图2示出了按照本发明的实施方案,针对父母各自的基因组密码的具体节段的父亲的两个单倍型和母亲的两个单倍型。图3示出了按照本发明的实施方案,图2的亲本单倍型中的两种类型的SNP。图4A和4B示出了按照本发明的实施方案,确定两种类型SNP的胎儿单倍型的分析。图5A和5B示出了按照本发明的实施方案比较每个基因座片段的相对量(例如,计数)的分析以及所述比较的结果是否能将特定的单倍型归为遗传的或非遗传的。图6示出了按照本发明的实施方案改变SPRT分类的似然比(likelihood ratio)的影响。图7是按照本发明的实施方案确定怀孕女性的未出生胎儿从父亲遗传的基因组的至少一部分的方法700的流程图。图8是按照本发明的实施方案确定母亲和父亲均为杂合的区域内未出生胎儿的基因组的至少一部分的方法800的流程图。图9示出了按照本发明的实施方案在特定基因组区域内均为杂合的父亲和母亲的单倍型。图10是按照本发明的实施方案显示确定母本样品中胎儿材料的部分浓度的方法1000的流程图。 图11是按照本发明的实施方案确定基因座是否为信息性的方法的流程图。图12A和12B分别示出了,按照本发明的实施方案,假设部分胎儿DNA浓度分别为20%和5%,三种情况下等位基因T (情况(a)和(C)下等位基因丰度较低)计数的预测分布。图13A、13B和14示出了,按照本发明的实施方案,对于部分胎儿DNA浓度为20%,较低丰度的等位基因计数的预测分布,不同的分子总计数的每一分布都对应于SNP。图15A和15B示出了按照本发明的实施方案参照单倍型、采自参照单倍型的亲本单倍型以及得到的胎儿单倍型的实例。图16是按照本发明的实施方案,一组参照单倍型已知,但亲本单倍型未知时,确定胎儿基因组的至少一部分的方法1600的流程图。图17示出了按照本发明的实施方案根据母本样品的DNA片段分析确定信息性基因座的实例。图18示出了三个参照单倍型(Hap A、Hap B和Hap C)和父本等位基因。图19示出了按照本发明的实施方案由父本等位基因确定亲本单倍型。图20示出了按照本发明的实施方案根据母本样品分析推导母本基因型。图21示出了按照本发明的实施方案由母本基因型和参照单倍型确定母本单倍型的一个实施方案。图22示出了按照本发明的实施方案确定的母本单倍型和父系遗传的单倍型。图23示出了按照本发明的实施方案相对于父本单倍型的母本单倍型的不同类型的基因座(a (A)和β⑶)。图24是显示鉴定怀孕女性的未出生胎儿的基因组中新生突变的方法2400的流程图。图25Α示出了按照本发明的实施方案表示父亲、母亲和胎儿(CVS)的不同基因型组合的SNP的绝对数量和百分比。图25Β示出了列出前20个流通池的比对统计数据的表格。图26是示出按照本发明的实施方案通过两个方法计算出的SNP的胎儿DNA的部分浓度的表格。图27Α的图示出了在该子集中观察到的SNP百分比,其中对于所分析的前20个流通池可以从测序数据看到胎儿等位基因。图27B的图示出了按照本发明的实施方案覆盖度对比读取(read)的数量。图28A和28B分别示出了按照本发明的实施方案父系遗传的等位基因的覆盖度与可作图的序列读取的数量和流通池序列的数量之间的相互关系的图。图29A示出了假阳性率与测序的流通池数量之间的相互关系,图29B示出了按照本发明的实施方案假阳性率与测序的流通池数量之间的相互关系。
图30示出了按照本发明的实施方案所分析的不同数量的流通池的胎儿特异性SNP的覆盖度。图31示出了按照本发明的实施方案,当使用来自10个流通池的数据时A型分析的精度。图32示出了按照本发明的实施方案,当使用来自10个流通池的数据时B型分析的精度。图33示出了按照本发明的实施方案,当使用来自20个流通池的数据时A型分析的精度。图34示出了按照本发明的实施方案,当使用来自20个流通池的数据时B型分析的精度。图35A和35B示出了按照本发明的实施方案,在密码子41/42处具有突变和野生型序列的读取。图36示出了按照本发明的实施方案A型RHDO分析的表格,而B型RHDO分析的表如图37所示。图38A和38B示出了以病例PW226为实例的SPRT分类结果。图39示出了按照本发明的实施方案总结了 5个病例的RHDO分析结果的表格。图40示出了按照本发明的实施方案测序深度与测序的流通池数量相比的图。图41示出了全基因组的胎儿序列和总序列的大小,图42A-42C示出了按照本发明的实施方案每条染色体单独的相似的图。图43示出了可与本发明实施方案的系统和方法一起使用的示例性计算机系统4300的框图。定义本文所用术语“生物样品”指从个体(如诸如孕妇的人)采集的含有一种或多种目的核酸分子的任何样品。术语“核酸”或“多核苷酸”指单链或双链形式的脱氧核糖核酸(DNA)或核糖核酸(RNA)和其多聚体。除非另有限制,该术语包括含有天然核苷酸的已知类似物的核酸,所述类似物具有与参照核酸类似的结合特性,并且以与天然存在的核苷酸类似的方式代谢。除非另有说明,特定的核酸序列还隐含地包括其保守修饰的变体(如简并密码子取代)、等位基因、直系同源物(orthologs)、SNP和互补序列以及明确表示的序列。具体来说,简并密码子的取代可以通过产生如下的序列实现其中一个或多个选择的(或全部)密码子的第三位被混合碱基和/或脱氧次黄苷残基取代(Batzer et al. , NucleicAcid Res. 19:5081(1991);Ohtsuka etal. , J. Biol. Chem. 260:2605-2608(1985);以及Rossolini et al. ,Mol. Cell. Probes 8:91-98(1994))。术语核酸与基因、cDNA、mRNA、小非编码RNA、微RNA (miRNA) ,Piwi-相互作用RNA和基因或基因座编码的短发夹RNA (shRNA)交换地使用。术语“基因”意指参与产生多肽链或转录的RNA产物的DNA的节段。其可以包括编码区之前和之后的区域(前导区和非转录尾区),以及单独的编码节段(外显子)间的间插序列(内含子)。本文所用术语“临床相关核酸序列”( 也称为靶序列或染色体)可以指对应于潜在的失衡正被检测的更大的基因组序列节段的多核苷酸序列,或指更大的基因组序列本身。一实例是21号染色体的序列。其他的实例包括18号、13号、X和Y染色体。除此以外的其他实例包括,胎儿从其父母之一或两者遗传的突变的基因序列或基因多态性或拷贝数变异,或者作为胎儿中新生突变。在某些实施方案中,多种临床相关核酸序列,或临床相关核酸序列等同的多种标记,可用于提供用来检测失衡的数据。例如,来自21号染色体的5个不连续序列的数据,能够以加成方式(additive fashion)用于确定可能的21号染色体失衡,从而将所需的样品体积有效地减少至1/5。本文所用术语“基于”意指“至少部分地基于”,并指确定另一值所用的一个值(或结果),如存在于方法的输入和该方法的输出的关系中的值。本文所用术语“获得”也指方法的输入和该方法的输出的关系,如该当获得是公式的计算时存在的关系。本文所用术语“参数”意指,表征定量数据集和/或定量数据集之间数值关系的数值。例如,第一核酸序列的第一量和第二核酸序列的第二量之间的比值(或比值函数)是参数。本文所用术语“基因座(locus) ”或其复数形式“基因座(loci) ”是在基因组间有变化的任何长度的核苷酸(或碱基对)的位置或地址。本文所用术语“序列失衡”意指,与参考量的任何显著偏差,其是由临床相关核酸序列的量中的至少一个截止值所限定的。序列失衡可以包括染色体剂量失衡、等位基因失衡、突变剂量失衡、单倍型剂量失衡和其他相似的失衡。举例来说,当胎儿具有不同于母亲的基因型时,能够发生等位基因或突变剂量失衡,从而在样品的具体基因座处产生失衡。本文所用术语“染色体非整倍性”意指,染色体的定量数量与二倍体基因组的染色体数量的变化。这种变化可以是增加或丢失。该变化可以包括一个染色体的全部或染色体的区域。本文所用的术语“单倍型”指在同一染色体或染色体区域上共同传递的多个基因座处的等位基因的组合。单倍型可以指少至一对基因座或者是指染色体区域,或者是指整个染色体。术语”等位基因”指处于同一物理基因组基因座处的两个DNA序列之一,它们可能导致不同的表型性状或可能不导致不同的表型性状。在任何具体二倍体生物中,每条染色体具有两个拷贝(除了雄性人个体中的性染色体),每个基因的基因型包括该基因座处存在的等位基因对,所述等位基因对在纯合子中是相同的,在杂合子中是不同的。生物群体或生物物种通常包括处于不同个体中的每个基因座处的多个等位基因。在群体中存在多于一个等位基因的基因组基因座被称为多态位性点。可以将一个基因座处的等位基因变化测量为所存在的等位基因的数量(即多态性的程度)、群体中杂合子的比例(即杂合率)。本文所用的术语“多态性”指人类基因组中任何个体间的变化,与其频率无关。这类变化的实例包括但不限于,单核苷酸多态性、简单串联重复多态性、插入-缺失多态性、突变(其可能会引起疾病)和拷贝数变化。详细描述未出生胎儿的部分基因图谱或全基因组序列的构建可以基于其父母的多态性序列的单倍型而提供。本文所用的术语“单倍型”指在同一染色体或染色体区域上共同传递的多个基因座处的等位基因的组合。例如,实施方案可以分析来自母本样品(含有母本和胎儿DNA)的DNA片段,以鉴定某些指定基因座(界标)处的等位基因。然后,可以综合分析这些基因座处的各等位基因的DNA片段的量,以确定这些基因座的单倍型的相对量,进而确定胎儿从母本和/或父本基因组遗传了哪种单倍型。通过鉴定胎儿单倍型,可以确定包括指定的基因座的相应基因组区域内的单个基因座处的胎儿基因型。在各种实施方案中,可以以确定胎儿基因组的区域的方式,分析父母为纯合和杂合的特定组合的基因座。在一种实施中,使用代表群体中常见单倍型的参考单倍型,同时分析母本样品的DNA片段,以确定母本和父本基因组。
用于确定胎儿基因组的至少一部分的实施方案的应用实例为通过将推断的胎儿基因型或单倍型与疑父的基因型或单倍型进行比较而用于亲子鉴定(paternitytesting)。另一实例是检测胎儿已经获得的一种或多种新生突变或检测从其父母产生配子期间就已经发生的减数分裂重组事件。这些是已经受精的配子,并且得到的受精卵已发育成胎儿。此外,一些实施方案还允许以任何所需的分辨率确定未出生胎儿的基因组序列。例如,在某些应用中,实施方案可允许确定胎儿的完整或接近完整的基因组序列。在一个实施方案中,可被确定的胎儿基因组序列的分辨率取决于所了解的父亲和母亲基因组的分辨率,以及来自含有胎儿核酸的母本生物样品的测序信息。如果已知父亲和母亲的完整或接近完整的基因组序列,则可以推导出未出生胎儿的完整或接近完整的基因组序列。在其他实施方案中,只阐述基因组内所选区域的基因组序列,例如,用于所选的遗传、后生(诸如印记失误)或染色体病症的产前诊断。实施方案可应用的遗传病症的实例包括血红蛋白病(诸如地中海贫血、α-地中海贫血、镰状细胞贫血、血红蛋白E病)、囊性纤维化和性连锁病症(诸如血友病和杜兴氏肌营养不良)。可利用实施方案检测的突变的其他实例可参见在线人类孟德尔遗传(Online Mendelian Inheritance in Man, www.ncbi. nlm. nih. rov/omim/Retmorbid. cri)。—些实施方案还可以用于确定胎儿DNA的部分浓度(fractionalconcentration),这可以在没有父母具体基因组的任何现有知识的情况下进行。相似的分析还可以用于确定对于胎儿基因组的精确确定所需的覆盖深度。因此,该覆盖度确定可用于估计为获得精确结果需要分析多少数据。I.引言当将母本样品(例如,血浆或血清)用作阐述胎儿单倍型的材料时,可能面临两个主要的挑战。第一个挑战是母本血浆或血清由胎儿DNA和母本DNA的混合物组成,并且胎儿DNA占很小的比例。已经确定的是,在妊娠的前两三个月,胎儿DNA所代表的平均/中值浓度为母本血浆总 DNA 的约 5% 至 10% (Lo YMD et al Am J Hum Genet 1998; 62:768-775; LunFMF et al Clin Chem 2008;54:1664-1672)。由于DNA是在血液凝固过程中由母本血细胞释放的,所以母本血清中胎儿DNA的部分浓度甚至比母本血浆中的浓度低。因此,在一些实施方案中,母本血浆优于母本血清。第二个挑战是母本血浆中的胎儿DNA和母本DNA由短片段组成(Chan KCA et alClin Chem 2004;50:88-92)。的确,在母本血浆中,胎儿来源的DNA通常短于母本来源的DNA。母本血浆中大多数胎儿DNA的长度小于200bp。单独利用如此短的血浆DNA片段,来构建长基因组距离上的基因多态性的单倍型是有挑战性的。母本血浆和血清的上述挑战同样适用于母本尿液中胎儿 DNA 的检测(Botezatu I et al Clin Chem 2000;46:1078-1084)。胎儿DNA仅代表孕妇尿液DNA的较小一部分,并且母本尿液中的胎儿DNA同样由短DNA片段组成。A.母本样品的测序与分析一些实施方案所采用的用来解决第一个挑战的方法是,利用允许对获自母本生物样品的核酸进行高精度的定量基因分型的方法。在该方法的一个实施方案中,通过分析大量的(例如,数百万或数亿计的)核酸分子来实现该精度。此外,通过分析单个核酸分子或单个核酸分子的克隆扩增可以提高该精度。一个实施方案利用大规模平行DNA测序,例如但 不限于,通过以下所进行的测序Illumina基因组分析仪平台(Bentley DR et al. Nature2008;456:53-59)、Roche 454 平台(Margulies M et al. Nature 2005;437:376-380) >ABI SOLiD 平台(McKernan KJ et al. Genome Res 2009; 19:1527-1541)、Helicos 单分子测序平台(Harris TD et al. Science 2008; 320:106-109)、利用单个聚合酶分子的实时测序(Science 2009; 323:133-138)和纳米孔测序(Clarke J et al. NatNanotechnol. 2009;4:265-70)。在一个实施方案中,对生物样品的核酸分子的随机子集进行大规模平行测序。在一些实施方案中,从每个分子获得尽可能长的序列读取可能是有益的。对可以实现的测序读取长度的一个限制是母本生物样品中核酸分子的性质。例如,已知母本血浆中的大多数DNA分子由短片段组成(Chan CA et al Clin Chem 2004; 50:88-92)。此外,在长读取长度时,读取长度必须与测序系统的保真度相平衡。对于上述系统中的一些系统,从分子两端获得序列即所谓的双末端测序可能是更好。举例来说,一个方法是从DNA分子的每端进行50bp的测序,因而产生每分子总共IOObp的序列。在另一个实施方案中,可以从DNA分子的每端进行75bp的测序,因而产生每分子总共150bp的序列。测序之后,然后将序列与参照人基因组进行比对。由于实施方案阐明未出生胎儿从其父母遗传的基因组变异,因此比对算法能够处理序列变异。这种软件包的一个实例是Illumina开发的核苷酸数据库的高效大规模比对(Efficient Large-Scale Alignmentof Nucleotide Databases) (ELAND)。这种软件包的另一个实例是SOAP(短寡核苷酸比对程序)和 S0AP2 软件(Li R et al. Bioinformatics 2008; 24:713-714; Li R etal. Bioinformatics 2009;25:1966-1967)。可能需要进行的DNA测序的量可以取决于需要构建的胎儿基因图谱或胎儿基因组序列的分辨率。通常,测序的分子越多,分辨率越高。在给定水平或深度的DNA测序的胎儿基因图谱或胎儿基因组序列分辨率的另一决定因素是母本生物样品中胎儿DNA的部分浓度。通常,部分胎儿DNA浓度越高,在给定水平的DNA测序可以阐述的胎儿基因图谱或胎儿基因组序列的分辨率越高。由于母本血浆中胎儿DNA的部分浓度高于母本血清中部分浓度,所以对于某些实施方案而言,相对于母本血清,母本血浆是更优选的母本生物样品类型。在使用索引(indexing)或条形码(barcoding)的情况下,可以增加基于上述测序的方法的通量。因此,可以将样品或患者特异性索引或条形码添加到特定核酸测序库的核酸片段中。然后,将许多这样的库混合起来并一起测序,每个库都具有样品或患者特异性索引或条形码。测序反应之后,可以基于索引或条形码由每个样品或患者收集测序数据。这种策略可以增加本发明实施方案的通量以及因此增加成本效益。在一个实施方案中,可以在进行定量基因分型(例如,测序)之前选择生物样品中的核酸分子或对其分级。在一个变型中,用与来自基因组中选择的基因座(例如,染色体7上含有CFTR基因的区域)的核酸分子优先结合的装置(例如,微阵列)处理核酸分子。然后,对由所述装置捕获的核酸分子优先进行测序。该方案允许将测序靶向目的基因组区域。在该方案的一个实施方案中,可以使用NimbleRen序列捕获系统(www. nimbleRen.com/products/seacap/index, html)或 Agilent SureSelect 革巴标富集系统(AgilentSure Select Target Enrichment System, www. opengenomics. com/SureSelect TargetEnrichment System)或相似的平台。在一些实施方案中,对来自基因组所选区域的核酸分子进行随机测序。 在另一个实施方案中,可以首先通过一组或多组扩增弓I物扩增生物样品中的目的基因组区域。然后,对所扩增的产物进行定量基因分型,例如测序。在该方案的一项实施中,可以使用 RainDance (www. raindancetech. com/technology/pcr-genomics-research. asp)系统。在一些实施方案中,对所扩增的核酸分子进行随机测序。还可以在生物样品中的核酸分子上进行大小分级步骤。因为已知母本血浆中胎儿DNA短于母本DNA (Li et al Clin Chem 2004; 50:1002-1011;美国专利申请20050164241;美国专利申请20070202525),因此可以收集分子大小较小的部分,然后用于定量基因分型,例如测序。这一部分将比原始生物样品含有较高的胎儿DNA部分浓度。因此,胎儿DNA富集的部分的测序可允许在特定的分析水平(例如,测序深度)上以比使用非富集的样品时更高的分辨率构建胎儿基因图谱或推导出胎儿基因组序列。因此,这使得该项技术成本效益更高。作为大小分级方法的实例,可以使用(i)凝胶电泳,随后从具体凝胶部分提取核酸分子;(ii)对不同大小的核酸分子具有差别亲和力的核酸结合基质对不同大小的核酸分子具有差别截留的过滤系统。在另一个实施方案中,在核酸测序之后可以优先分析特定大小或大小范围的分子。例如,可以进行对DNA分子的两端进行测序的双末端测序。然后,可以将这些两端的基因组坐标定位回参照人类基因组。然后通过减去两端的基因组坐标可以推导出分子的大小。进行这种双末端测序的一种方法是使用Illumina Genome Analyzer的双末端测序方案。推导DNA分子大小的另一方法是对整个DNA分子进行测序。这最容易通过读取长度相对长的测序平台进行,例如Roche 454平台(Marguelis et al Nature2005;437:376-380)和 Pacific Biosciences 单分子、实时(SMRT )技术(Eid et alScience 2009; 323:133-138)。推导出核酸分子的大小之后,可以选择将随后的分析集中在小于特定截止大小的分子上,进而富集胎儿DNA的部分浓度。与没有进行该方案相比,大小选择之后,这种分子子集的分析可以允许用较少的分析分子推导出胎儿基因图谱或胎儿基因组序列。在一个实施方案中,使用300bp的截止大小。在其他实施方案中,可以使用250bp、200bp、180bp、150bp、125bp、IOObp 或 75bp 的截止大小。B.利用亲本基因组作为框架(Scaffold)为了解决第二个挑战,一些实施方案可以利用母亲染色体的单倍型作为‘框架’。还可以使用父亲染色体的单倍型作为另一个‘框架’。该框架可以与获自含有胎儿DNA的母本样品的胎儿的遗传信息进行比较。该胎儿遗传信息可以用于确定母亲和/或父亲的框架是如何在胎儿基因组中建立的,进而利用框架的组成部分确定得到的胎儿基因组。可以由父亲和母亲的基因组DNA以及家族其他成员(例如,当前处于孕期的胎儿的兄弟姐妹)的基因组DNA构建亲本单倍型,鉴于基因组测序成本的降低,亲本单倍型的有 效性可能正变得越来越平常。在一种情况中,如果父母一方或双方的基因组已被测序,且他们在一个或多个染色体区域上的单倍型已被确定,那么该信息可以用作上文提到的框架。可以使用能够探寻基因组中的序列变异的本领域技术人员已知的任何基因分型平台,包括DNA测序、微阵列、杂交探针、基于荧光的技术、光学技术、分子条形码和单分子成像(Geiss GK et al. Nat Biotechnol 2008; 26:317-325)、单分子分析、PCR、数字PCR、质谱技术(例如Sequenom MassARRAY平台)等。作为更极端的实例,可以通过利用大规模平行测序方法的全基因组DNA测序(例如,Bentley DR et al. Nature2008; 456:53-59;McKernan KJ et al. Genome Res 2009; 19:1527-1541)确定父亲和母亲的DNA序列。可能感兴趣的序列变异的一个实例是单核苷酸多态性(SNP)。用于确定亲本基因型的特别优选的方法是,通过对基因组范围上或所选的基因组区域的SNP的微阵列分析,所选的基因组区域例如含有突变能导致遗传疾病(例如β珠蛋白簇中的基因或囊性纤维化跨膜传导调节因子(CFTR)基因)的基因的那些区域。除了序列变异之外,还可以使用拷贝数变化。序列变异和拷贝数变化均被称为多态遗传特征(PMF)。一方面,可以将目的染色体或染色体区域上的母本基因型构建成单倍型。构建单倍型的一个方式是,通过分析与母亲相关的其他家族成员,例如,母亲的儿子或女儿、父母、兄弟姐妹等。能够构建单倍型的另一方式是,通过上文提到的本领域技术人员公知的其他方法。然后,通过与来自其他家族成员例如当前处于孕期的胎儿的兄弟姐妹或来自祖父母的基因型等的基因型信息进行比较,基因型信息可以被扩展成父母的单倍型信息。还可以通过本领域技术人员公知的其他方法构建父母的单倍型。这类方法的实例包括基于单分子分析的方法如数字PCR(Ding C and Cantor CR. Proc Natl Acad Sci USA2003;100:7449-7453;Ruano G et al. Proc Natl Acad Sci USA 1990;87:6296-6300)、精子单倍型分析(Lien S et al. Curr Protoc Hum Genet 2002; Chapter I :Unit I. 6)和成像技术(Xiao M et al. Hum Mutat 2007;28:913-921)。其他方法包括基于等位基因特异性 PCR 的方法(Michalatos-Beloin S et al. Nucleic Acids Res 1996; 24:4841-4843; LoYMD et al. Nucleic Acids Res 1991;Nucleic Acids Res 19:3561-3567)、克隆和限制性酶消化(Smirnova AS et al. Immunogenetics 2007;59:93-8)等。其他方法基于群体中单倍型域的分布和连锁不平衡结构,其允许根据统计学评价推知母本单倍型(Clark AG. MolBiol Evol 1990;7:111-22;10:13-9;Salem RM et al. Hum Genomics 2005;2:39-66)。C.利用母本样品的基因组信息组建框架在一个实施方案中,为了研究母本染色体的哪条染色体已传递给胎儿,使用相对单倍型剂量(RHDO)方法。该方法的一般原理如下,以母亲对于基因多态性的每一个都是杂合的为例。因此,有两个单倍型,这些单倍型的相对剂量为1:1。然而,在母本样品中,小t匕例胎儿DNA的存在可能改变相对单倍型剂量。这是因为胎儿的单倍型互补物的一半遗传自母亲,而另一半遗传自父亲。此外,对于每条染色体,胎儿可能已经遗传了源自父母一方的一个或另一个同源染色体的单倍型的‘拼凑物(patchwor) ’,这取决于减数分裂重组的存在。所有这些因素都可能使母本组成型DNA中的相对单倍型剂量偏离1:1的比值。因此,对于给定的染色体或染色体区域,这些单倍型的组成型等位基因可以根据母本样品所产生的分析数据(例如,测序数据)寻找。然后,可以进行统计学程序以确定相对单倍型剂量,或者确定这些单倍型中的一个是否相对于另一个单倍型被过多表现。可以根据部分胎儿DNA浓度调整该统计学程序的分类阈值。通常,较高的部分胎儿DNA浓度可以允许所述阈值以较少的分子获得。还可以根据希望在目的基因组或基因组区域上实现的成功分类的片段的数量调整所述分类阈值。在一个实施方案中,可以使用序贯概率比检验(SPRT)。在一个实施方案中,可以使用美国专利申请2009/0087847中所描述的相对突变 剂量(RMD)来确定母亲具体多态性处等位基因的相对量。这些相对量可用于确定胎儿的单倍型(例如,当多态性位于连续或连锁的基因座时)。该靶向方法的一项实施是使用聚合酶链式反应(PCR)从基因组的所选部分扩增具体序列,用于RMD分析。为了使该RMD方法扩展至能确定在大基因组区域或全基因组上的胎儿遗传,需要大量母本样品。在利用随机测序的一个实施方案中,没有特异性地靶向目的基因组区域。因此,在目的基因组区域中所获得的序列的数量可能不会像靶向方法中一样多(除非进行很深的测序)。然而,可以将计数汇总成跨越很多连锁多态性的计数,以实现诊断目的必要的统计学功效。利用该测序实施方案的实际含义在于,其可以通过避免需要过深测序而节约成本。与基于数字PCR的方法相比,其也需要输入较少量的母本样品。此外,在区段中适合进行这种RHDO分析。换句话而言,可以分析每条染色体的一个区段,优选多于一个区段。一方面,后者可能允许观察减数分裂重组。例如,胎儿具体染色体节段的单倍型似乎来自母本同源染色体之一,而同一胎儿染色体的另一节段似乎具有来自另一母本同源染色体的单倍型。SPRT分析可以允许进行这种节段化。例如,可以在邻近的SNP上进行SPRT分析,所述邻近的SNP显示从染色体的一端开始的所需的亲本基因型构型(即父亲是纯合的而母亲是杂合的)。这将继续,直到SPRT分析已经表明,母本单倍型之一在母本血浆分析数据(例如,测序数据)中是主要的。然后,SPRT分析可以‘重置(reset)’,并从显示所需的亲本基因型构型的下一个邻近的SNP重新开始。再次继续,直到SPRT分析再一次表明,母本单倍型之一在母本血浆分析数据(例如,测序数据)中是主要的。继续该过程直到所述染色体上最后选择的SNP。然后,可以将染色体上这些多种SPRT决定的单倍型节段与母亲基因组的两条同源染色体的单倍型进行比较。当胎儿的单倍型节段似乎已经从一个母本同源染色体转换到另一个时,观察到减数分裂重组。即使每条染色体有多于一处减数分裂重组,该系统也能工作。如后文所描述的,对于组成型基因多态性父亲和母亲均为杂合的基因组区域也可以实施RHDO分析。该方案尤其适用于父亲和母亲共有同一祖先来源的疾病基因的突变拷贝的情况,例如当他们有血缘时或当疾病的显性突变是由于大的奠基者效应(即具有突变的大多数个体从群体的共同祖先奠基者遗传了相同的单倍型)。因此,父亲和母亲在该区域的单倍型可用于推导胎儿单倍型。II.由母本基因组构建胎儿基因组以下描述利用对亲本基因组的明确了解来构建胎儿基因图谱或阐明胎儿基因组序列。A.方法图I是确定怀孕女性的未出生胎儿的基因组的至少一部分的方法100的流程图。胎儿有父亲和身为怀孕女性的母亲。父亲的父本基因组具有两个单倍型,母亲的母本基因组具有两个单倍型。方法100分析获自怀孕女性的生物样品的核酸分子(片段),以确定胎儿的基因组。方法100主要描述在多个基因座处父亲为纯合的而母亲为杂合的时的情况, 而其他实例描述其他实施方案。方法100和本文所述的任何方法可以完全或部分地用包括处理器的计算机系统进行,所述计算机系统被设置成能够进行这些步骤。因此,实施方案涉及被设置成能进行任何本文所述方法的步骤的计算机系统,可能有不同组件执行各个步骤或各组步骤。尽管以编号的步骤呈现,但是本文方法的步骤可以同时或以不同的顺序进行。此外,这些步骤的一部分可以其他方法的其他步骤的一部分一起使用。同样,步骤的全部或部分可以是任选的。此外,任何方法的任何步骤可以用进行这些步骤的模块、电路或其他手段进行。在步骤110中,鉴定母本基因组为杂合的多个第一基因座。在一个实施方案中,在基因组范围水平或在选择的目的基因组基因座处在父亲和母亲的一部分基因分型上进行 该确定。在其他实施方案中,可以在分析母本样品的过程中进行多个第一基因座的确定,这将在后面的章节描述。在步骤120中,确定覆盖所述多个第一基因座的两个母本单倍型中的每一个。如上文提到的,可以由直接测序获得母本基因组。在其他实施方案中,可以在多个基因座处进行基因分型,然后使用预期具有相似基因组的某人的已知图谱的基因组,例如,来自家族成员或来自相同或相似群体中共有的参照基因组。在一个实施方案中,可以首先对母本基因组的全部或部分进行步骤120,然后可以研究母本基因组以找到母亲为杂合的基因座。一方面,没有必要构建父亲染色体的单倍型。然而,如果构建了父本单倍型,则可以根据测序结果获得其他信息。一种这类其他信息包括这样的事实可以对父母均为杂合的区域进行相对单倍型剂量分析。如果可获得父本单倍型,则可获得的另一种其他信息是涉及参与一条或多条父本染色体的减数分裂重组的信息,以及确定与这类多态性相关的疾病等位基因是否已传递给胎儿。在步骤130中,确定胎儿在所述多个第一基因座处从父亲遗传的等位基因。一些实施方案使用对父亲为纯合而对母亲为杂合的基因组基因座(如步骤110中所提到的)。因此如果父亲在该基因座处为纯合的,则从父亲遗传的等位基因是已知的。确定父亲为纯合的基因座的父亲的基因分型可以以本文所述的任何方式来确定。在一个实施方案中,多个第一基因座的确定可以基于父亲和母亲的基因分型来确定,以便找到父亲为纯合而母亲为杂合的基因座。在另一个实施方案中,可以使用父本基因组的、为杂合的多个第二基因座,以确定在父亲为纯合的多个第一基因座处由胎儿遗传的父本单倍型。例如,如果母本基因组在所述多个第二基因座处为纯合的,则可以鉴定出在父本基因组中于所述多个第二基因座中的每一个处存在而在母本基因组中不存在的等位基因。然后,遗传的父本单倍型可以被鉴定为具有所鉴定的等位基因的单倍型,并用于确定在所述多个第一基因座处从父亲遗传的等位基因。这些确定父亲单倍型的方面将在下文进行更为详细的讨论。在步骤140中,分析获自怀孕女性的生物样品的多个核酸分子。所述样品含有母本核酸和胎儿核酸的混合物。可以采集和接收母本生物样品,用于分析。在一个实施方案中,使用母本血浆和血清。在其他实施方案中,可以使用母本血液、母本尿液、母本唾液、子宫灌洗液或从母本血液获得的胎儿细胞。在一个实施方案中,分析核酸分子包括鉴定所述核酸分子在人类基因组中的位置,以及确定所述核酸分子在各个基因座处的等位基因。因此,一个实施方案可以利用从同一基因座确定的核酸分子的等位基因进行定量基因分型。可以使用允许确定核酸分子在母本生物样品中的基因组位置和等位基因(用于基因型分型的信息)的任何方法。这类方法有一些描述于美国申请12/178,181和12/614350以及题目为“Size-Based Genomic Analysis (基于大小的基因组分析)”的申请中。在步骤150中,基于核酸分子的确定的等位基因,确定所述多个第一基因座中每一个的各自等位基因的量。在一个实施方案中,所述量可以是第一基因座处每种类型的等位基因的数量。例如,6个A和4个T。在另一个实施方案中,量可以是具有特定等位基因的核酸分子的大小分布。例如,相对量还可以包括具有特定基因型的片段的大小分布,所述基因型能够传达相对量的某长度的片段。这种相对量还可以提供关于胎儿基因组中存在哪种基因型的信息,因为胎儿片段倾向小于母本片段。量和方法的一些实例描述于美国申请12/178,181 和 12/614350 以及申请名称为“Size-Based Genomic Analysis (基于大小的基因组分析)”的申请中。在一个实施方案中,某基因座的等位基因的相对量能够提供关于胎儿遗传了哪种基因型的信息(例如,在资料集达到足够的统计学强度后)。例如,相对量可用于确定相对于某基因座处母亲的基因型是否发生了序列失衡。上文引用的相关专利申请提供了检测具体基因座或区域处的序列失衡的实施方案的实例。在步骤160中,比较所述多个第一基因座中多于一个基因座处的核酸分子的各自等位基因的相对量。在一些实施方案中,在比较之前,汇总在所述多个第一基因座的每个基因座处包含单倍型的每个等位基因的量。然后,可以将汇总的亲本单倍型的量进行比较,以确定单倍型是过多表现、均等表现还是表现不足。在其他实施方案中,比较某基因座处等位基因的量,并使用多个基因座处的比较。例如,可以汇总分离值(例如,差异或比值),其可用于与截止值进行比较。这些实施方案的每一个都适用于本文所描述的任何比较步骤,在各种实施方案中,相对量可以是在具体基因座处具有具体等位基因的每个片段的数量的计数,来自具体单倍型上的任何基因座(或区域内的任何基因座)的片段的数量的计数,以及具体基因座或具体单倍型的计数(例如平均值)的统计值。因此,在一个实施方案中,所述比较可以是确定每个基因座处一个等位基因与另一个等位基因相比较的分离值(例如,不同或比值)。在步骤170中,基于所述比较,可以确定在由所述多个第一基因座覆盖的基因组的一部分处未出生胎儿从母亲遗传的单倍型。在一个实施方案中,为研究哪条母本染色体被传递给胎儿,使用例如如上文提到的相对单倍型剂量(RHDO)方法。因为母亲对所述第一基因座的每一个都是杂合的,所以所述第一基因座对应于第一基因座的基因组区域的两个单倍型。如果样品仅来自母亲,则这些单倍型的相对剂量为1:1。偏离该比值或缺少从该比值的偏离可用于确定胎儿从母亲(以及父亲,这在下文有详述)遗传的单倍型。因此,对于给定的染色体或染色体区域,可以根据步骤130中产生的分析数据(例如,测序数据)寻找这些单倍型的组成型等位基因。由于分析了多个基因座并将其与母亲的单倍型进行比较,所以基因座之间的序列可被归于具体的单倍型。在一个实施方案中,如果数个基因座匹配一个具体的单倍型,则基因座之间的序列节段可被假定为与母本单倍型的序列节段相同。由于减数分裂重组的发生,由胎儿遗传的最终单倍型可能由来源于这两个同源染色体之一的‘单倍型节段’的拼凑物组成。实施方案能够检测这种重组。可以检测这类重组的分辨率依赖已在父亲和母亲的组成型DNA中确定的遗传标志物的数量和分布,以及在随后的生物信息学分析(利用例如SPRT)中使用的阈值。例如, 如果所述比较提示在第一组连续的基因座的每一个处从母亲遗传的等位基因对应于第一单倍型,则所述第一单倍型被确定为是针对对应于第一组基因座的基因组位置而遗传的。如果第二组连续基因座提示遗传了第二单倍型,则第二单倍型被确定为是针对对应于第二组基因座的基因组位置而遗传的。在一个实施方案中,当分析多个基因座时,可以以更高的精度确定单倍型。例如,一个基因座的统计学数据可能无法确定,但是当与其他基因座的统计学数据组合时,可以确定遗传了哪种单倍型。在另一个实施方案中,可以独立地分析每个基因座,以进行分类,然后可以分析分类以提供针对给定区域遗传了哪种单倍型的确定。在一个实施方案中,可以进行统计学步骤以确定相对单倍型剂量(例如,如果这些单倍型中的一个相对于另一个单倍型过多表现)。可以根据部分胎儿DNA浓度调整该统计学步骤的分类阈值。通常,较高的部分胎儿DNA浓度可以允许用较少的分子达到所述阈值。还可以根据希望在目的基因组或基因组区域上实现的成功分类的节段的数量调整所述分类阈值。返回参见图1,在步骤180中,可以分析突变的胎儿基因组。例如,实施方案可用来搜索在具体群体中引起遗传疾病的一组突变。可利用实施方案检测的突变的实例可参见在线人类孟德尔遗传(www. ncbi. nlm. nih. rov/omim/Retmorbid. cri)这些突变可以在步骤140-160中搜索或作为本文所述的单独的步骤。例如,在父亲是母亲中不存在的一个或多个突变的携带者的家族中,那么能够根据母本生物样品的分析数据(例如,测序数据)搜索到所述突变。除了检测实际的突变之外,还可以寻找与父亲或母亲的突变体或野生型等位基因相关的多态性遗传标志物。例如,RHDO分析可以揭示,胎儿已从母亲遗传了已知携带疾病突变的单倍型。本发明的实施方案还可以用于非侵入性产前诊断由染色体区域缺失所引起的疾病,例如,东南亚(Southeast Asian)缺失引起的α-地中海贫血。在父亲和母亲都是缺失携带者的情况下,如果胎儿对于所述缺失是纯合的,且如果对母本血浆DNA进行大规模平行测序,那么母本血浆中来源于所述缺失区域的DNA序列的频率应该有所下降。B.实例
这部分描述应用于母亲为杂合的单核苷酸多态性(SNP)的(例如,方法100的)实施方案的实例。同一染色体上的SNP等位基因形成单倍型,由于母亲的每条染色体都具有同源的一对,因此有两个单倍型。为了说明如何进行这样一种确定,考虑例如如图2所显示的3号染色体的一个节段。图2示出了针对父母各自基因组密码的具体节段的父亲的两个单倍型和母亲的两个单倍型。在该节段内发现5个SNP,其中对于这些SNP中的所有5个,父亲和母亲分别为纯合的和杂合的。父亲的两个同源染色体具有相同的单倍型(Hap),即A-G-A-A-G(图2中从上到下)。为了简单起见,将父本单倍型称为Hap I和Hap II,记住这两个单倍型对于该5个SNP组是相同的。对母亲而言,观察到两个单倍型,即Hap III,A-A-A-G-G和HapIV,G-G-G-A-A0该实例中的SNP可进一步分成两种类型。图3示出了本发明实施方案的两种类型的SNP。A型由这样的SNP组成其中父本等位基因与母本单倍型III上的等位基因相同。B型由这样的SNP组成其中父本等位基因与母本单倍型IV上的等位基因相同。
这两种类型的SNP可能需要略微不同的数学处理。因此,在A型情况下,胎儿遗传单倍型III将导致母本血浆中单倍型III相对于单倍型IV的过多表现(图4A)。例如,为了方便讨论,仅查看一种SNP 410,从父亲遗传了等位基因A,并且如果从母亲遗传了 HapIII,则胎儿将向样品贡献两个A等位基因,这将会导致A的过多表现。如果胎儿遗传了单倍型IV,则不会观察到过多表现,因为在A和G位于该基因座的情况下,胎儿在该基因座处也是杂合的。另一方面,在B型情况下,胎儿遗传单倍型III将导致母本血浆中单倍型III和单倍型IV的均等表现(图4B)。例如,查看SNP 420,从父亲遗传了 G且A作为Hap III的一部分将导致胎儿在SNP 420处贡献等量的A和G,如同母亲一样。如果胎儿遗传了单倍型IV,则如同上文的讨论所表明的,将观察到过多表现。图5A和5B示出了比较每个基因座片段的相对量(例如,计数)的分析,以及比较的结果是否将具体单倍型归为遗传的还是非遗传的。其中有匹配父亲和母亲的这些基因型构型(例如,A型或B型情况)之一的SNP的任何基因组位置可用于该实例。根据母本血浆测序数据,可以集中于对应于SNP具体等位基因的测序分子的数量。SPRT分析(或其他比较法)可用于确定在这些等位基因间是否有任何等位基因失衡(Lo Y D et al Proc NatlAcad Sci USA 2007;104:13116-13121)。图5A示出了对A型SNP的分析。如图所示,对于每个SNP,相对量(例如,如分离值所限定的)与截止值的SPRT比较提供了分类。在一个实施方案中,如果达到SPRT的分类阈值,则可断定胎儿遗传了具体母本单倍型。然后可以重置SPRT分析的计数。接着,分析可以从端粒至着丝粒的方向或着丝粒至端粒的方向移动至与所需基因型构型匹配的邻近SNP上。并且新的SPRT分析可从该下一个SNP开始。另一方面,在一个实施方案中,如果SPRT分类没有用SNP到达,那么我们也可以以相似的方式移动至邻近的SNP,然后再次进行SPRT,除了下一个SNP的计数被加到之前的SNP之外。该过程可以继续直到达到分类阈值。图5A和图5B示出了对A型和B型分析运行该过程。在一个实施方案中,将分类汇总分析以组成区域的总分类。例如,如果获得了第一组SNP和下一组SNP的分类,则可以比较两组的分类,以查看分类是否一致。
图6不出了改变SPRT分类似然比的影响(Zhou W et al. Nat Biotechnol2001; 19:78-81;Karoui NE et al. Statist Med 2006;25:3124-33)。通常,较低的分类似然比,比如8,可以允许更容易地进行分类。这能在基因组内产生更大数量的分类区域。然而,预期很多这样的区域可能被错分。另一方面,较高的分类似然比,比如1200,可能仅允许当已对较多的SNP进行评分时进行分类。这能在基因组内产生较小数量的分类区域。当与使用较低分类阈值的情况相比时,预期错分区域的数量和比例会更低。在一个实施方案中,只有当两个连续的SPRT分类导致相同的单倍型(称为“二连续域(two consecutive blocks) ”算法)时才进行分类。一方面,“二连续域”算法可以增加分类的精度。在一些实施方案中,对于任何一段序列,实施方案可以首先进行A型SNP的SPRT分析,然后进行B型SNP的另一 SPRT分析。在一个实施方案中,可以考虑这样一段序列的情况,对该段序列而言,A型和B型SNP形成两交错的基因界标组(例如,SNP)。在使用“二连续域”算法的实施方案中,两域可以为不同的类型。来自A型和B型分析的SPRT结果可以允许核对其分类结果的一致性或不一致性。为了提高分类精度,一个实施方案(“交错法”)只有当给定的基因组区域的A型和B型分析能够产生一致的结果时才进行分类。如果两种类型分析产生不一致的结果,我们可以查看紧邻该区域的两个连续分类区域的分类结果,一个区域位于端粒端,另一个区域位于着丝粒端。如果这两个连续的区域产生一致的结果,那么我们可以将第一区域分类为具有这两个区域的连续单倍型。如果这两个连续的区域没有产生一致的结果,那么我们可以移动到下两个连续的区域直到观察到一致性。该方案的一个变型是仅在一个方向移动,并将下一个或两个或甚至更多个连续区域的分类结果作为所关注的最初区域的结果。一般原则是使用邻近基因组区域的分类结果来证实具体区域的分类结果。III.胎儿遗传的父本等位基因的确定图7是确定怀孕女性的未出生胎儿从父亲遗传的基因组的至少一部分的方法700的流程图。方法700分析获自怀孕女性的生物样品的核酸分子(片段),以确定胎儿的基因组。所述样品含有母本核酸和胎儿核酸的混合物。在步骤710中,分析来自生物样品的多个核酸分子的每一个,以鉴定所述核酸分子在人类基因组中的位置,并确定所述核酸分子的等位基因类型。因此,在一个实施方案中,可以确定具体位置(基因座)处的核酸分子的基因型。上文和其他地方所描述任何一种方法都可以用于该分析。在步骤720中,确定多个第一基因座,在所述基因座处,父本基因组为杂合的而母本基因组为纯合的。在一个实施方案中,通过确定父本和母本基因组获得所述多个第一基因座。可采集基因组中父亲为杂合的而母亲为纯合的基因组基因座。在步骤730中,基于所述多个第一基因座处的确定的基因型,确定在由所述多个第一基因座覆盖的基因组的一部分处未出生胎儿从父亲遗传的单倍型。在一个实施方案中,在分析数据(例如,测序数据)中寻找父亲具有而母亲的基因组中却没有的这些基因座中每一个基因座的等位基因。这些等位基因的组合可以指示胎儿从父亲遗传的染色体的单倍型。在另一个实施方案中,如果父亲基因组中的每个目的染色体或染色体区域的单倍型是已知的,则还可以确定父亲精子发生过程中减数分裂重组发生的地方。因此,在胎儿和父亲之间,当父系遗传的染色体中的一段DNA的单倍型不同时,则可以观察到父本减数分裂重组。当分析数据(例如,测序数据)用于通过与基因多态性的连锁分析(linkageanalysis)进行遗传疾病的产前诊断时,包含这种重组信息可能是有用的。IV.父亲和母亲对于某一基因组区域均为杂合的实施方案可以解决这样的情况,其中父亲和母亲对于某一基因组区域均为杂合的。这种情况在父亲和母亲有血缘的家族中尤其相关。当疾病与已产生的显性突变相关时,大的奠基者效应可能也是相关的。在这种情况下,预期如果未出生胎儿的父亲和母亲均是突变基因的携带者,那么携带突变拷贝的基因的染色体的单倍型必然是相同的,除非发生减数分裂重组事件。这种类型的分析尤其适用于常染色体隐性疾病,诸如囊性纤维化、β -地中海贫血、镰状细胞贫血和血红蛋白E病。图8是按照本发明的实施方案确定母亲和父亲均为杂合的区域内未出生胎儿的基因组的至少一部分的方法800的流程图。
在步骤810中,确定多个第一基因座,在所述基因座处,父亲和母亲均为杂合的。在一个实施方案中,可以通过本文提到的任何方法确定所述第一基因座。例如,可以对亲本基因组的全部或区域进行测序,或者对不同的部分进行基因分型以找到第一基因座。因此,在所述第一多个基因座处的两个父本单倍型的每一个和两个母本单倍型的每一个都是已知的。举例来说,图9示出了父亲和母亲的、在具体基因组区域均为杂合的单倍型。如图所示,父母在区域I内均具有突变基因(等位基因)。具体而言,父亲的Hap I和母亲的HapIII具有突变基因。还如图所示,父亲和母亲每人都具有携带野生型基因拷贝的其他染色体拷贝。具体而言,父亲的Hap II和母亲的Hap IV具有野生型基因。因此,本实例在确定胎儿是否遗传了突变基因中具有相关性。父亲和母亲的携带野生型基因的染色体在紧邻该基因处具有相同的单倍型,但是在离该基因更远一点的位置可能具有不同的单倍型。由于该染色体可能具有不同的祖先来源,所以该染色体在父亲和母亲之间的整个染色体中不大可能具有相同的单倍型。在步骤820中,确定多个第二基因座,在所述基因座处,父亲为杂合的而母亲为纯合的。如图所示,所述多个第一和第二基因座位于同一染色体上。区域2示出了这样的第二基因座。可以选择区域2,使得对于该区域内的一个或多个SNP而言,父亲是杂合的,而在该区域内母亲为纯合的。在步骤830中,可以分析来自怀孕女性样品的片段,以鉴定在人类基因组中的位置和基因型。所述位置可用于确定片段(核酸分子)是否包括所述第一基因座中的一个或多个或所述第二基因座中的一个或多个。然后,该信息可用于确定从父亲遗传的单倍型和从母亲遗传的单倍型。在步骤840中,通过分析所述第二基因座中的至少一个基因座处的来自生物样品的多个核酸分子的确定的基因型,来确定胎儿遗传了两个父本单倍型的哪一个。例如,可以根据母本生物样品的分析数据(例如,从步骤710产生的位置和基因型)找到仅存在于父未基因组而不存在于母未基因组中的SNP等位基因,诸如图9中由*标记的等位基因T和由+标记的等位基因Α。如同方法700可以进行的,如果从母本血浆检测到由*标记的等位基因Τ,那么这表示,胎儿从父亲遗传了单倍型II (Hap II)。相反,如果从母本血浆检测到由+标记的等位基因A,那么这表示,胎儿从父亲遗传了 Hap I。在步骤850中,比较所述多个第一基因座中的多于一个基因座处的确定的核酸分子基因型的相对量。在一个实施方案中,汇总每一基因座处的量,并比较母本单倍型的相对量。相对量可以指计算的数量、大小分布以及可以传达有关哪个基因型位于胎儿基因组中具体基因座处信息的任何其他参数。在步骤860中,基于确定为由胎儿遗传的父亲单倍型,且基于相对量的比较,确定在由所述多个第一基因座所覆盖的基因组的一部分处,未出生胎儿从母亲遗传的单倍型。因此,考虑到区域2中由胎儿遗传的父本单倍型,可以根据母本生物样品的分析数据对区域I中的SNP进行RHDO分析(例如,如上文所描述的),以确定胎儿遗传了两个母本单倍型中的哪一个。在一个实施方案中,假设当这些区域从父母传递给胎儿时,区域I和2之间没有重组。例如,考虑当通过区域2分析胎儿已被确定已经从父亲遗传了 Hap I的情况。贝U 胎儿从母亲遗传了 Hap III (其在区域I与Hap I相同)将导致母本血浆中Hap III相对于Hap IV过多表现。相反地,如果胎儿从母亲遗传了 Hap IV,则在母本血浆中将观察到HapIII和Hap IV的均等表现。作为另一个实例,考虑当通过区域2分析胎儿已被确定已经从父亲遗传了 Hap II的情况。则胎儿从母亲遗传了 Hap IV(其在区域I与Hap II相同)将导致母本血浆中HapIV相对于Hap III过多表现。相反地,如果胎儿从母亲遗传了 Hap III,则在母本血浆中将观察到Hap III和Hap IV的均等表现。在以前的部分中,我们利用从母本血浆DNA测序获得的数据以及胎儿父母的基因型信息推导出胎儿基因组和部分胎儿DNA浓度。在下面的部分中,我们描述在没有母本和父本基因型/单倍型现有信息的情况下推导部分胎儿DNA浓度和胎儿基因型的实施方案。V.部分胎儿DNA浓度的确定在一些实施方案中,任选的步骤是确定部分胎儿DNA浓度。在各种方面中,该部分浓度可以指导分析的量(例如,所需的测序量)或允许对给定的数据量(例如,基因组测序覆盖深度)估计分析的精度。部分胎儿DNA浓度的确定还可以用于确定截止值,从而确定遗传的单倍型和/或基因型的分类。在一个实施方案中,可以通过采集对父亲和母亲而言均为纯合但具有不同的等位基因的基因座的分析数据(例如,如在步骤140和710中可以获得的)来确定部分胎儿DNA浓度。例如,对于具有两个等位基因即A和G的SNP,父亲可以为AA,母亲可以为GG,反之亦然。对于这样的基因座,胎儿应是肯定杂合子。在上文的一个实例中,胎儿基因型应是AG,母本样品中等位基因A的比例可用于确定部分胎儿DNA浓度。在另一个实施方案中,可以进行统计学分析,以确定母亲为纯合的而胎儿为杂合的基因座。以这种方式,无需关于母本基因组或父本基因组的现有信息。作为采集分析数据的备选方案,还可以在一组多态性遗传标志物上通过另一种方法如PCR测定的使用、数字PCR测定或基于质谱的测定来确定部分胎儿DNA浓度(Lun FMF et al Clin Chem 2008;54:1664-1672)。另一备选方案是利用在胎儿和母亲之间表现出不同DNA甲基化的一个或多个基因组基因座(Poon LLM et al. Clin Chem2002;48:35-41;Chan KCA et al. Clin Chem 2006;52:2211-2218;美国专利 6,927,028)。另一备选方案是利用从参照群体如相似妊娠期确定的近似的部分胎儿DNA浓度。然而,由于部分胎儿DNA浓度在样品与样品之间不同,所以该后面的方法的精度预期比具体测量受试样品的浓度低。A.确定肯定杂合子的部分浓度在胎儿是肯定杂合子的实施方案中,可以利用一系列下述计算(例如,利用大规模平行测序)确定部分胎儿DNA浓度。P为母本基因组缺乏的胎儿等位基因的计数。q为其他等位基因即母本和胎儿基因组共有的等位基因的计数。通过以下方程给出部分胎儿DNA浓度
权利要求
1.确定怀孕女性的未出生胎儿的基因组的至少一部分的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,并且所述父亲的父本基因组具有父本单倍型,所述母亲的母本基因组具有母本单倍型,所述方法包括 分析获自所述怀孕女性的生物样品的多个核酸分子,其中所述生物样品含有母本核酸和胎儿核酸的混合物,其中分析核酸分子包括 鉴定所述核酸分子在人类基因组中的位置;以及 确定所述核酸分子的各自的等位基因; 确定在多个第一基因座中的每一个处所述胎儿从所述父亲遗传的父本等位基因,其中所述母本基因组在所述多个第一基因座处为杂合的; 确定所述多个第一基因座的两个母本单倍型中的每一个; 基于所述核酸分子的确定的等位基因,计算机系统确定在所述多个第一基因座中的每一个处的各自等位基因的量; 比较在所述多个第一基因座中的多于一个基因座处的所述核酸分子的各自等位基因的相对量;以及 基于所述比较,确定在由所述多个第一基因座所覆盖的基因组的一部分处所述未出生胎儿从所述母亲遗传了两种母本单倍型中的哪一种。
2.如权利要求I所述的方法,其中所述相对量包括所述核酸分子的大小分布。
3.如权利要求I所述的方法,其中基于所述来自生物样品的多个核酸分子的分析,确定所述多个第一基因座的两个母本单倍型中的每一个。
4.如权利要求I所述的方法,其中确定在所述多个第一基因座中的每一个处从父亲遗传的等位基因包括 确定所述父本基因组的、为杂合的多个第二基因座,其中所述母本基因组在所述多个第二基因座处为纯合的; 鉴定所述多个核酸分子中在所述父本基因组中于所述多个第二基因座中的各个基因座处存在而在所述母本基因组中不存在的等位基因; 将遗传的父本单倍型鉴定为具有鉴定的等位基因的单倍型;以及 利用所述遗传的父本单倍型确定在所述多个第一基因座处从所述父亲遗传的等位基因。
5.如权利要求I所述的方法,其中确定所述多个第一基因座的两个母本单倍型中的每一个包括 基于各自基因座处所述核酸分子的确定的各自等位基因的量,鉴定在所述多个第一基因座中的一个或多个处所述母本基因组的等位基因; 鉴定多个参照单倍型;以及 将所鉴定的所述母本基因组的等位基因与所述多个参照单倍型的相应基因座中的等位基因进行比较,以鉴定所述两个母本单倍型。
6.如权利要求5所述的方法,其中确定所述多个第一基因座的两个母本单倍型中的每一个还包括 将所鉴定的所述母本基因组的等位基因与所述多个参照单倍型反复进行比较,直到唯一鉴定出所述两个母本单倍型中的每一个。
7.如权利要求I所述的方法,其中基于所述来自生物样品的多个核酸分子的分析,确定在所述多个第一基因座中的每一个处从所述父亲遗传的等位基因,并且其中确定在所述多个第一基因座中的每一个处从父亲遗传的等位基因包括 确定所述胎儿基因组为杂合的而所述母本基因组为纯合的多个第二基因座; 通过以下方式确定在所述多个第二基因座中的每一个处从所述父亲遗传的等位基因 确定在所述多个第二基因座的各个基因座处所述核酸分子的确定的各自等位基因的相对量;以及 将具有最小相对量的等位基因鉴定为在所述各个基因座处遗传的等位基因; 鉴定多个参照单倍型; 利用在所述多个第二基因座中的每一个处从所述父亲遗传的等位基因来确定从父亲遗传了哪种参照单倍型,确定的单倍型包括所述多个第一基因座;以及 根据确定为从所述父亲遗传的单倍型确定在所述多个第一基因座处从所述父亲遗传的等位基因。
8.如权利要求7所述的方法,其中确定从所述父亲遗传了哪种参照单倍型包括 将确定为在所述多个第二基因座中的每一个处从所述父亲遗传的等位基因与所述多个参照单倍型的相应基因座中的等位基因反复进行比较,直到唯一鉴定出从所述父亲遗传的参照单倍型。
9.如权利要求7所述的方法,其中将具体基因座确定为所述多个第二基因座中的一个基因座,在所述一个基因座处,所述胎儿基因组为杂合的而所述母本基因组为纯合的,包括 确定所述具体基因座处等位基因的预测计数数量的截止值,所述截止值预测所述母本基因组是否为纯合的以及所述胎儿基因组是否为杂合的,其中基于所述具体基因座处纯合性和杂合性的不同组合的计数数量的统计学分布确定所述截止值; 基于所述来自生物样品的核酸分子的分析,检测所述具体基因座处的第一等位基因和第二等位基因; 基于所述来自生物样品的多个核酸分子的测序,确定所述第一等位基因的实际计数的数量;以及 当所述实际计数的数量小于所述截止值时,确定所述胎儿基因组对于所述第一等位基因和第二等位基因是杂合的,并且所述母本基因组对于所述第二等位基因是纯合的。
10.如权利要求9所述的方法,其中所述统计学分布依赖于来源于所述胎儿的生物样品的核酸分子的部分浓度。
11.如权利要求10所述的方法,其中所述统计学分布还依赖于对应于所述具体基因座的所述多个核酸分子的数量。
12.如权利要求I所述的方法,其中确定在所述多个第一基因座中的每一个处从所述父亲遗传的等位基因包括 通过分析所述父本基因组确定所述父本基因组的、为纯合的多个第二基因座,其中所述多个第一基因座是所述多个第二基因座; 确定在所述多个第一基因座中的每一个处所述父本基因组的等位基因;以及将所述多个第一基因座处的各自等位基因指定为从所述父亲遗传的等位基因。
13.如权利要求I所述的方法,其中分析核酸分子包括对所述核酸分子的至少一部分实施至少一项选自以下的技术大规模平行测序、微阵列、杂交、PCR、数字PCR和质谱。
14.如权利要求I所述的方法,还包括 对于所述多个第一基因座的邻近基因座第一子集中的每一个,确定对于包括所述邻近基因座第一子集的第一基因组部分而言,所述未出生胎儿从所述母亲遗传了哪种单倍型,其中确定哪种单倍型包括 (a)确定与所述连续基因座第一子集的两个母本单倍型之一匹配的所述核酸分子的确定的各自等位基因的第一量; (b)确定与所述连续基因座第一子集的两个母本单倍型中的另一个匹配的所述核酸分子的确定的各自等位基因的第二量;以及 (c)基于所述第一量与所述第二量的比较确定遗传的所述第一基因组部分的单倍型。
15.如权利要求14所述的方法,其中所述第一量与所述第二量的比较利用序贯概率比检验。
16.如权利要求14所述的方法,其中确定所述第一量与所述第二量均相对于所述邻近基因座第一子集的位置相继进行。
17.如权利要求14所述的方法,其中所述邻近基因座第一子集被进一步分成两个亚组,其中所述第一亚组由所述父亲的基因型与所述母亲的第一单倍型的组成型基因型匹配的基因座组成,且所述第二亚组由所述父亲的基因型与所述母亲的第二单倍型的组成型基因型匹配的基因座组成,并且其中对所述两个亚组单独进行(a)-(c),所述方法还包括 基于这两个亚组的(C)结果确定遗传的所述第一基因组部分的单倍型。
18.如权利要求I所述的方法,还包括 通过以下确定所述胎儿从所述母亲遗传了突变 分析所述胎儿遗传的所述母亲的单倍型;以及 鉴定所述遗传的单倍型中的突变。
19.如权利要求I所述的方法,其中分析所述来自生物样品的多个核酸分子包括 富集所述生物样品的基因组靶区域内的核酸,和/或 优先对所述靶区域内的核酸进行测序,并且其中多个第一基因座位于所述靶区域内。
20.如权利要求19所述的方法,其中所述靶区域被鉴定为含有大量的信息性基因座。
21.如权利要求19所述的方法,其中所述测序仅对所述靶区域内的.核酸进行测序。
22.确定怀孕女性的未出生胎儿的基因组的至少一部分的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,所述父亲的父本基因组具有父本单倍型,所述母亲的母本基因组具有母本单倍型,所述方法包括 分析获自所述怀孕女性的生物样品的多个核酸分子,其中所述生物样品含有母本核酸和胎儿核酸的混合物,并且其中分析核酸分子包括 鉴定所述核酸分子在人类基因组中的位置;以及 确定所述核酸分子的各自的等位基因; 确定所述父本基因组的、为杂合的多个第一基因座,其中所述父本基因组获自所述未出生胎儿的所述父亲,并且其中所述母本基因组在所述多个第一基因座处为纯合的;以及基于在所述多个第一基因座处的确定的各自的等位基因,计算机系统确定在由所述多个第一基因座所覆盖的基因组的一部分处所述未出生胎儿从所述父亲遗传的单倍型。
23.如权利要求22所述的方法,其中确定所述未出生胎儿从所述父亲遗传的单倍型包括 鉴定所述多个核酸分子中在所述父本基因组中于所述多个第一基因座中的各个基因座处存在而在所述母本基因组中不存在的等位基因;以及 将遗传的父本单倍型鉴定为具有鉴定的等位基因的单倍型。
24.如权利要求I所述的方法,还包括 通过以下确定所述胎儿从所述父亲遗传的突变 分析所述胎儿遗传的所述父亲的单倍型;以及 鉴定遗传的单倍型中的突变。
25.确定怀孕女性的未出生胎儿的基因组的至少一部分的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,所述父亲的父本基因组具有父本单倍型,所述母亲的母本基因组具有母本单倍型,所述方法包括 确定所述父本基因组的、为杂合的多个第一基因座,其中所述父本基因组获自所述未出生胎儿的所述父亲,并且其中所述母本基因组获自所述未出生胎儿的母亲,并在所述多个第一基因座处也为杂合的,并且其中在所述多个第一基因座处两个父本单倍型中的每一个和两个母本单倍型中的每一个都是已知的; 确定父本基因组的、为杂合的一个或多个第二多个基因座,其中所述母本基因组在所述第二基因座处为纯合的;并且其中所述多个第一基因座和所述第二基因座位于同一染色体上; 分析获自所述怀孕女性的生物样品的多个核酸分子,其中所述生物样品含有母本核酸和胎儿核酸的混合物,并且其中分析核酸分子包括 鉴定所述核酸分子在人类基因组中的位置;以及 确定所述核酸分子的各自的等位基因; 通过分析在所述第二基因座中的至少一个处的所述来自生物样品的多个核酸分子的确定的各自等位基因,来确定所述胎儿遗传了两个父本单倍型的哪一个; 计算机系统比较在所述第一多个基因座中多于一个基因座处的所述核酸分子的确定的各自等位基因的相对量;以及 基于确定为由所述胎儿遗传的父本单倍型并基于所述相对量的比较,确定在由所述多个第一基因座所覆盖的基因组的一部分处所述未出生胎儿从所母亲遗传的单倍型。
26.确定怀孕女性的未出生胎儿的基因组的至少一部分的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,所述父亲的父本基因组具有父本单倍型,所述母亲的母本基因组具有母本单倍型,所述方法包括 分析获自所述怀孕女性的生物样品的多个核酸分子,其中所述生物样品含有母本核酸和胎儿核酸的混合物,并且其中分析核酸分子包括 鉴定所述核酸分子在人类基因组中的位置;以及 确定所述核酸分子的各自的等位基因; 确定所述胎儿基因组为杂合的而所述母本基因组为纯合的多个第一基因座;通过以下方式,计算机系统确定在所述多个第一基因座中的每一个处从所述父亲遗传的等位基因 确定所述第二基因座的各个基因座处所述核酸分子的确定的各自等位基因的相对量;以及 将具有最小相对量的等位基因鉴定为在所述各个基因座处遗传的等位基因; 鉴定多个参照单倍型;以及 利用在所述多个第一基因座中的每一个处从所述父亲遗传的等位基因来确定在由所述多个第一基因座所覆盖的基因组的一部分处从所述父亲遗传了哪种参照单倍型。
27.如权利要求26所述的方法,其中确定从所述父亲遗传了哪种参照单倍型包括 将确定为在所述多个第二基因座种的每一个处从所述父亲遗传的等位基因与所述多个参照单倍型的相应基因座中的等位基因反复进行比较,直到唯一鉴定出从父亲遗传的参照单倍型。
28.如权利要求26所述的方法,其中将具体基因座确定为所述胎儿基因组为杂合的而所述母本基因组为纯合的所述多个第一基因座之一包括 确定所述具体基因座处等位基因的预测计数数量的截止值,所述截止值预测所述母本基因组是否为纯合的以及所述胎儿基因组是否为杂合的,其中基于所述具体基因座处纯合性和杂合性的不同组合的计数数量的统计学分布确定所述截止值; 基于来自所述生物样品的所述核酸分子的分析,检测所述具体基因座处的第一等位基因和第~■等位基因; 基于来自所述生物样品的所述多个核酸分子的测序,确定第一等位基因的实际计数的数量;以及 当所述实际计数的数量小于所述截止值时,确定所述胎儿基因组对于所述第一等位基因和第二等位基因是杂合的,并且所述母本基因组对于所述第二等位基因是纯合的。
29.鉴定怀孕女性的未出生胎儿的基因组中的新生突变的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,所述方法包括 接受获自所述怀孕女性的生物样品的多个核酸分子测序的测序结果,其中所述生物样品含有母本核酸和胎儿核酸的混合物。
鉴定所述测序的核酸分子中的每一个在人类基因组中的位置; 对于所述位置的至少一部分的每一个,确定所述位置处的母本序列和父本序列; 计算机系统鉴定所述多个核酸分子中在确定的母本或父本序列中不存在的第一序列; 确定所述生物样品中所述第一序列的第一部分浓度; 利用所述胎儿从其父亲遗传的、存在于所述父本基因组中但不存在于所述母亲基因组中的第二序列,确定所述生物样品中胎儿核酸的第二部分浓度;以及 如果所述第一和第二部分浓度大致相同,则将所述第一序列归为新生突变。
30.如权利要求29所述的方法,其中所述第二序列存在于Y染色体上,或者是基因多态性,或者是单核苷酸多态性,或者是插入-缺失多态性。
31.鉴定怀孕女性的未出生胎儿的基因组中的新生突变的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,所述方法包括接受获自所述怀孕女性的生物样品的多个核酸分子测序的测序结果,其中所述生物样品含有母本核酸和胎儿核酸的混合物。
鉴定所述测序的核酸分子中的每一个在人类基因组中的位置; 对于所述位置的至少一部分的每一个,确定所述位置处的母本序列和父本序列; 计算机系统鉴定所述多个核酸分子中在确定的母本或父本序列中不存在的第一序列; 确定所述生物样品中所述第一序列的第一部分浓度; 利用在所述生物样品中胎儿来源的和母系来源的核酸之间表现出不同的后生状态的核酸分子,确定所述生物样品中胎儿核酸的第二部分浓度;以及 如果所述第一和第二部分浓度大致相同,则将所述第一序列归为新生突变。
32.如权利要求31所述的方法,其中所述不同的后生状态由不同的DNA甲基化模式反映。
33.如权利要求32所述的方法,其中所述不同的DNA甲基化模式包括RAS相关结构域家族lA(RASSFlA)或羧化全酶合成酶(生物素(丙酰辅酶A羧化酶(ATP水解))连接酶(HLCS)基因。
34.确定采自怀孕女性的生物样品中胎儿DNA的部分浓度的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,其中所述生物样品含有母本核酸和胎儿核酸的混合物,所述方法包括 分析来自所述生物样品的多个核酸分子,其中分析核酸分子包括 鉴定所述核酸分子在人类基因组中的位置;以及 确定所述核酸分子的各自的等位基因; 计算机系统确定一个或多个第一基因座,其中所述胎儿基因组在每一个第一基因座处均为杂合的,使得所述胎儿基因组在所述第一基因座处具有各自的第一和第二等位基因,并且其中母本基因组在每一个第一基因座处均为纯合的,使得所述母本基因组在所述第一基因座处具有两个各自的第二等位基因,所述第一等位基因不同于所述第二等位基因,其中将具体基因座确定为一个或多个第一基因座之一包括 确定所述具体基因座处各自第一等位基因的预测计数数量的截止值,所述截止值预测所述母本基因组是否为纯合的以及所述胎儿基因组是否为杂合的,其中基于所述具体基因座处纯合性和杂合性的不同组合的计数数量的统计学分布确定所述截止值; 基于所述多个核酸分子的分析,检测所述具体基因座处的各自的第一等位基因和各自的第二等位基因; 基于来自所述生物样品的所述多个核酸分子的分析,确定所述各自的第一等位基因的实际计数的数量;以及 当所述实际计数的数量小于所述截止值时,确定所述具体基因座为所述第一基因座之 对于所述第一基因座中的至少一个 确定所述各自的第一等位基因计数的第一数量P和所述各自的第二等位基因计数的第二数量Q ;以及 基于所述第一和第二数量计算所述部分浓度。
35.如权利要求34所述的方法,其中所述部分浓度被确定为2xp/(p+q)。
36.如权利要求34所述的方法,其中为多个第一基因座确定P和Q,并且其中所述部分浓度f被确定为
37.如权利要求34所述的方法,其中确定所述截止值包括确定最大和最小部分浓度的统计学分布。
38.确定已从采自怀孕女性的生物样品测序的胎儿基因组比例的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,其中所述生物样品含有母本核酸和胎儿核酸的混合物,所述方法包括 接受获自所述怀孕女性的所述生物样品的多个核酸分子测序的测序结果; 分析所述测序结果,分析核酸分子包括 鉴定所述核酸分子在人类基因组中的位置;以及 确定所述核酸分子的各自的等位基因; 确定多个第一基因座,其中所述胎儿基因组在所述多个第一基因座中的每一个处均为杂合的,使得所述胎儿基因组在所述基因座处具有各自的第一和第二等位基因,并且其中母本基因组在所述多个第一基因座中的每一个处均为纯合的,使得母本基因组在所述基因座处具有两个各自的第二等位基因,所述第一等位基因不同于所述第二等位基因; 计算机系统确定所述多个第一基因座中从所述测序结果检测到各自第一等位基因的基因座的比例,以及 基于该比例,确定已从所述生物样品测序的所述胎儿基因组的比例。
39.如权利要求38所述的方法,其中确定所述多个第一基因座包括 确定所述父本基因组对于在所述多个第一基因座中的每一个处的所述各自的第一等位基因为纯合的,以及确定所述母本基因组对于在同一基因座处的所述各自的第二等位基因为纯合的。
40.如权利要求38所述的方法,其中将具体基因座确定为所述多个第一基因座之一包括 确定所述具体基因座处各自的第一等位基因的预测计数数量的截止值,所述截止值预测所述母本基因组是否为纯合的以及所述胎儿基因组是否为杂合的,其中基于所述具体基因座处纯合性和杂合性的不同组合的计数数量的预期分布确定所述截止值; 基于所述测序结果的分析,检测所述具体基因座处的各自的第一和第二等位基因; 基于来自所述生物样品的所述多个核酸分子的测序,确定所述各自的第一等位基因的实际计数的数量;以及 当所述实际计数的数量小于所述截止值时,确定所述胎儿基因组对于所述各自的第一和第二等位基因是杂合的,并且所述母本基因组对所述各自的第二等位基因是纯合的。
41.如权利要求38所述的方法,其中至少两个基因座的所述第一等位基因彼此不同。
42.确定采自怀孕女性的生物样品中胎儿DNA的部分浓度的方法,所述胎儿有父亲和身为所述怀孕女性的母亲,其中所述生物样品含有母本核酸和胎儿核酸的混合物,所述方法包括 富集获自所述怀孕女性的所述生物样品的靶区域内的核酸分子; 对所述富集的生物样品的多个核酸分子进行测序,所述测序对所述靶区域是特异性的,其中分析所述测序结果以 鉴定所述核酸分子在人类基因组靶区域中的位置;以及 确定所述核酸分子的各自的等位基因; 确定一个或多个第一基因座,其中所述胎儿基因组在每一个第一基因座处均为杂合的,使得所述胎儿基因组在所述第一基因座处具有各自的第一和第二等位基因,并且其中母本基因组在每一个第一基因座处均为纯合的,使得所述母本基因组在所述第一基因座处具有两个各自的第二等位基因,所述第一等位基因不同于所述第二等位基因; 对于所述第一基因座中的至少一个 确定所述各自的第一等位基因计数的第一数量P和所述各自的第二等位基因计数的第二数量Q ;以及 基于所述第一和第二数量确定所述部分浓度。
43.如权利要求42所述的方法,其中确定所述一个或多个第一基因座包括 确定所述父本基因组对于在所述多个第一基因座中的每一个处的所述各自的第一等位基因为纯合的,以及确定所述母本基因组对于在同一基因座处的所述各自的第二等位基因为纯合的。
44.如权利要求42所述的方法,其中将具体基因座确定为一个或多个第一基因座包括 确定所述具体基因座处所述各自的第一等位基因的预测计数数量的截止值,所述截止值预测所述母本基因组是否为纯合的以及所述胎儿基因组是否为杂合的,其中基于所述具体基因座处纯合性和杂合性的不同组合的计数数量的统计学分布确定所述截止值; 基于所述测序结果的分析,检测所述具体基因座处的所述各自的第一和第二等位基因; 基于来自所述生物样品的所述多个核酸分子的测序,确定所述各自的第一等位基因的实际计数的数量;以及 当所述实际计数的数量小于所述截止值时,确定所述具体基因座为所述第一基因座之O
全文摘要
提供了确定胎儿基因组的至少一部分的系统、方法和装置。可以分析来自母本样品(母本和胎儿DNA)的DNA片段以鉴定某些基因座处的等位基因。综合分析这些基因座处各自等位基因的DNA片段的量,以确定这些基因座的单倍型的相对量,并确定从亲本基因组遗传了哪种单倍型。可以分析亲本为纯合和杂合的特定组合的基因座,以确定胎儿基因组的区域。可以使用群体中共有的参照单倍型,同时分析母体样品的DNA片段,以确定母本和父本基因组。还提供了突变、母本样品中部分胎儿DNA浓度以及母本样品测序覆盖度比例的确定。
文档编号C12Q1/68GK102770558SQ201080059486
公开日2012年11月7日 申请日期2010年11月5日 优先权日2009年11月5日
发明者卢煜明, 查尔斯·坎特, 赵慧君, 陈君赐 申请人:塞昆纳姆股份有限公司, 香港中文大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1