母体血浆中胎儿dna分数的基于大小的分析的制作方法

文档序号:6533250阅读:249来源:国知局
母体血浆中胎儿dna分数的基于大小的分析的制作方法
【专利摘要】基于多种大小的DNA片段的量,确定来自生物样品的DNA混合物中临床相关DNA的浓度分数。例如,可以确定母体血浆中胎儿DNA或患者血浆中肿瘤DNA的浓度分数。已表明样品中DNA片段的大小分别与胎儿DNA的比例和肿瘤DNA的比例相关。校准数据点(例如,作为校准函数)指示了大小参数值与临床相关DNA的浓度分数值之间的对应性。对于给定的样品,大小参数的第一值可从样品中DNA片段的大小确定。第一值与校准数据点的比较可以提供对临床相关DNA的浓度分数的估算。
【专利说明】母体血浆中胎儿DNA分数的基于大小的分析
[0001] 相关申请的交叉引用
[0002] 本申请为 2012 年 3 月 8 日递交的标题为 "SIZE-BASED ANALYSIS OF FETAL DNA FRACTION IN MATERNAL PLASMA (母体血浆中胎儿DNA分数的基于大小的分析)"的第 61/608, 623号美国临时专利申请,和2012年4月6日递交的标题为"SIZE-BASED ANALYSIS OF FETAL DNA FRACTION IN MATERNAL PLASMA(母体血浆中胎儿DNA分数的基于大小的分 析)"的第61/621,451号美国临时专利申请的非临时性申请,并要求它们的权益,其通过引 用整体并入本文,用于所有目的。
[0003] 发明背景
[0004] 母体血浆中无细胞的胎儿DNA的发现开创了非侵入性产前诊断的新的可能(Lo YMD et al. Lancet 1997;350:485-487)。胎儿DNA均值/中值浓度分数被报导为约 3% -10% (Lo YMD et al. Am J Hum Genet 1998 ;62:768-775 ;Lun FMF et al. Clin Chem 2008 ;54:1664-1672)。胎儿DNA浓度分数是影响使用母体血浆DNA的非侵入性产前诊断 测试性能的重要的参数。例如,对于胎儿染色体非整倍性(例如21三体、18三体或13三 体)的非侵入性的产前诊断,胎儿DNA浓度分数越高,母体血浆中来源于非整倍性染色体的 DNA序列的过度表现越高。确实,已证明母体血浆中胎儿DNA浓度分数每减少2倍,将需要 计数4倍的分子数来获得非整倍性检测(Lo YMD et al. Proc Natl Acad Sci USA 2007 ; 104:13116-13121)。
[0005] 对于通过随机大规模并行测序进行的胎儿三体非侵入性产前检测,样品的胎儿 DNA浓度分数将影响获得较强检测所需要进行的测序量(Fan HC and Quake SR.PL〇S One 2010 ;5:el0439)。确实,一些研究组已列入了质量控制步骤,其中首先测量胎儿DNA浓度分 数,并且只有含有大于最小胎儿DNA浓度分数的样品才有资格产生诊断结果(Palomaki GE et al· Genet Med 2011 ;13:913-920)。其他研究组已在他们的诊断算法中列入了胎儿DNA 浓度分数,用于估算特定母体血楽样品获自非整倍性妊娠的风险(Sparks AB et al. Am J Obstet Gynecol 2012 ;206:319. el_9)。
[0006] 除了非整倍性检测,胎儿DNA浓度分数还类似地影响使用母体血浆DNA进行的 用于检测单基因疾病如血红蛋白病(Lun FMF et al.Proc Natl Acad Sci USA 2008; 105:19920-19925)和血友病(Tsui NBY et al· Blood 2011 ; 117:3684-3691)的非侵入性 产前诊断测试。胎儿DNA浓度分数还影响构建胎儿全基因组基因图谱和突变图谱以及胎儿 全基因组测序所需要进行的测序深度(Lo YMD et al.Sci Transl Med 2010;2:61ra91和 美国专利申请2011/0105353)。
[0007] 已描述了多种测量胎儿DNA浓度分数的方法。一种方法为测量母本基因组不存在 的、胎儿特异性的、父本遗传的序列浓度。此类序列的实例包括男性胎儿中存在的Y染色体 上的序列,和来自Rhesus D阴性孕妇怀有的Rhesus D阳性胎儿中的RHD基因的序列。还 可使用母亲和胎儿中均存在的序列测量母体总血浆DNA。为了得到胎儿DNA浓度分数,接着 可以计算胎儿特异性的、父本遗传的序列浓度相比母体总血浆DNA浓度的比率。
[0008] 可使用的序列的另一实例包括利用单核苷酸多态性(Lo YMD et al. Sci Transl Med 2010 ;2:61ra91)。使用用于测量胎儿DNA浓度分数的遗传标志物的缺点是没有哪一 组遗传标志物是所有胎儿-母亲对特征性的。然而可采用的另一方法是使用母体血浆中 展现胎儿或胎盘特异性DNA甲基化模式的DNA序列(Nygren AO et al.Clin Chem 2010; 56:1627-1635)。使用DNA甲基化标志物的可能缺点是可能存在DNA甲基化水平的个体间 差异。此外,用于检测DNA甲基化标志物的方法通常较复杂,包括使用甲基化敏感性限制 酶消化(Chan KCA et al.Clin Chem 2008;52:2211-2218),或亚硫酸盐转化(Chim SSC et al.Proc Natl Acad Sci USA2005;102:14753-14758),或甲基化 DNA 免疫沉淀(MeDIP) (Papageorgiou EA et al. Nat Med 2011 ; 17:510-513)。
[0009] 由于胎儿DNA浓度分数是重要的数值,用其他的方法和系统来确定该值是可取 的。
[0010] 发明概述
[0011] 实施方案能够提供基于多种大小的DNA片段的量,估算来自生物样品的DNA混合 物中临床相关DNA的浓度分数的方法和系统。例如,可以确定母体血浆中的胎儿DNA的浓 度分数或患者血浆中的肿瘤DNA的浓度分数。已表明DNA片段的大小与胎儿DNA的比例和 肿瘤DNA的比例相关。校准数据点(例如,作为校准函数)指示了大小参数值与临床相关 DNA的浓度分数值之间的对应性。对于给定的样品,大小参数的第一值可自样品中DNA片 段的大小确定而来。第一值与校准数据点的比较提供了关于临床相关DNA的浓度分数的估 算。
[0012] 根据一个实施方案,方法估算生物样品中临床相关DNA的浓度分数,所述生物样 品包含所述临床相关的DNA和其他DNA。对于多种大小中的每一种大小,测量了来自生物样 品的对应于所述大小的多个DNA片段的量。计算机系统基于多种大小的DNA片段的量,计 算第一参数的第一值。第一参数提供了生物样品中DNA片段的大小模式的统计学度量。获 得一个或多个第一校准数据点。每个第一校准数据点指定了对应于第一参数的校准值的临 床相关DNA的浓度分数。所述一个或多个校准数据点自多个校准样品确定而来。将第一值 与至少一个校准数据点的校准值比较。基于所述比较估算生物样品中临床相关DNA的浓度 分数。
[0013] 根据另一个实施方案,方法分析了生物体的生物样品。所述生物样品包含源自正 常细胞和可能来自癌症相关细胞的DNA。所述DNA中的至少一些在所述生物样品中是无细 胞的。对于多种大小中的每种大小,测量了来自生物样品的对应于所述大小的多个DNA片 段的量。计算机系统基于多种大小DNA片段的量,计算了第一参数的第一值。第一参数提 供了生物样品中DNA片段的大小模式的统计学度量。将第一值与参考值比较。基于所述比 较确定生物体中癌症等级的分级。
[0014] 其他实施方案涉及系统、便携式用户装置和与本文所述方法相关的计算机可读介 质。
[0015] 参考以下详细描述和附图可获得对本发明的性质和优势的更好的理解。

【专利附图】

【附图说明】
[0016] 图1显示了根据本发明实施方案,母体血浆中循环无细胞DNA的大小分布的图 100。
[0017] 图2A显示了根据本发明实施方案,具有不同胎儿DNA浓度分数的两个母体血浆样 品(妊娠的第一个三个月)中胎儿DNA的大小分布的图200。
[0018] 图2B显示了根据本发明实施方案,具有不同胎儿DNA浓度分数的两个母体血浆样 品(妊娠的第二个三个月)中DNA片段的大小分布的图250。
[0019] 图3是方法300的流程图,其阐示了根据本发明实施方案估算生物样品中临床相 关DNA的浓度分数的方法。
[0020] 图4是图400,其显示了根据本发明实施方案,使用电泳获得的母体血浆DNA的大 小分布(电泳图)。
[0021] 图5A是图500,其显示了根据本发明实施方案,母体血浆中具有多种胎儿DNA百分 比的样品的150bp或更小DNA片段的比例。
[0022] 图5B是图550,其显示了彡150bp的DNA片段与163bp-169bp的DNA的量的大小 t匕,标示为(CF(大小彡150)/大小(163-169))。
[0023] 图6A是图600,其显示了 140bp-146bp的DNA片段与163bp-169bp DNA的量的大 小比,标示为(大小(140-146)/大小(163-169))。
[0024] 图6B是图650,其显示了 140bp-154bp的DNA片段与163bp-169bp DNA的量的大 小比,标示为(大小(140-154)/大小(163-169))。
[0025] 图7是图700,其显示了 100bp-150bp的DNA片段与163bp-169bp DNA的量的大小 t匕,标示为(大小(100-150)/大小(163-169))。
[0026] 图8是图800,其显示了根据本发明实施方案,母体血浆中具有多种胎儿DNA百分 比的样品的150bp或更小DNA片段的比例。
[0027] 图9A是图900,其显示了彡150bp的DNA片段与163bp-169bp DNA的量的大小比, 标示为(CF(大小彡150)/大小(163-169))。
[0028] 图9B是图950,其显示了 140bp-146bp的DNA片段与163bp-169bp DNA的量的大 小比,标示为(大小(140-146)/大小(163-169))。
[0029] 图 10A 是图 1000,其显示了 140bp-154bp 的 DNA 片段与 163bp-169bp DNA 的量的 大小比,标示为(大小(140-154)/大小(163-169))。
[0030] 图 10B 是图 1005,其显示了 100bp-150bp 的 DNA 片段与 163bp-169bp DNA 的量的 大小比,标示为(大小(100-150)/大小(163-169))。
[0031] 图11的图显示了根据本发明实施方案,对于所示大小的重复元件,大小比相对于 胎儿DNA百分比作图。
[0032] 图12A是电泳图1200,其根据本发明实施方案可用于确定大小比。
[0033] 图12B是图1250,其显示了根据本发明实施方案,母体血浆中具有多种胎儿DNA百 分比的样品的200bp-267bp的DNA片段与290bp-294bp DNA的量的大小比。
[0034] 图13是根据本发明实施方案,由校准样品产生的测量结果确定校准数据点的方 法1300的流程图。
[0035] 图14A是根据本发明实施方案,针对训练组,大小比相对于胎儿DNA浓度分数的图 1400。
[0036] 图14B是根据本发明实施方案,从图14A的线性函数1410推导(估算)的浓度分 数相对于使用胎儿特异性序列测得的浓度分数的图1450。
[0037] 图15A是图1500,其显示了根据本发明实施方案,肿瘤切除之前和之后的两名肝 细胞癌(HCC)患者血浆中具有多种肿瘤DNA百分比的样品的150bp或更小的DNA片段的比 例。
[0038] 图15B是图1550,其显示了肿瘤切除之前和之后的两名HCC患者的彡150bp的DNA 片段与163bp-169bp DNA的量的大小比,标示为(CF(大小彡150)/大小(163-169))。
[0039] 图16A是图1600,其显示了肿瘤切除之前和之后的两名HCC患者的140bp-146bp 的DNA片段与163bp-169bp DNA的量的大小比,标示为(大小(140-146)/大小(163-169))。
[0040] 图16B是图1650,其显示了肿瘤切除之前和之后的两名HCC患者的140bp-154bp 的DNA片段与163bp-169bp DNA的量的大小比,标示为(大小(140-154)/大小(163-169))。
[0041] 图17是图1700,其显示了肿瘤切除之前和之后的两名HCC患者的100bp-150bp的 DNA片段与163bp-169bp DNA的量的大小比,标示为(大小(100-150)/大小(163-169))。
[0042] 图18A是图1800,其显示了肿瘤切除之前和之后的HCC患者的150bp或更小的DNA 片段的比例。
[0043] 图18B是图1850,其显示了肿瘤切除之前和之后的HCC患者的彡150bp的DNA片 段与163bp-169bp DNA的量的大小比,标示为(CF(大小彡150)/大小(163-169))。
[0044] 图19A是图1900,其显示了肿瘤切除之前和之后的HCC患者的140bp-146bp的DNA 片段与163bp-169bp DNA的量的大小比,标示为(大小(140-146)/大小(163-169))。
[0045] 图19B是图1950,其显示了肿瘤切除之前和之后的HCC患者的140bp-154bp的DNA 片段与163bp-169bp DNA的量的大小比,标示为(大小(140-154)/大小(163-169))。
[0046] 图20是图2000,其显示了肿瘤切除之前和之后的HCC患者的100bp-150bp的DNA 片段与163bp-169bp DNA的量的大小比,标示为(大小(100-150)/大小(163-169))。
[0047] 图21是流程图,其阐示了根据本发明实施方案分析生物体的生物样品以确定癌 症等级的分级的方法2100。
[0048] 图22是表2200,其显示了可见于多种类型的癌症中的一些常见的染色体畸变。
[0049] 图23显示了可用于根据本发明实施方案的系统和方法的示例性计算机系统2300 的方块图。
[0050] 定义
[0051] 如本文所用的术语"生物样品"是指取自对象(例如,人,如孕妇)且含有一种或 多种目标核酸分子的任何样品。实例包括血浆、唾液、胸膜液、汗液、腹水、胆汁、尿、血清、胰 液、粪便和宫颈刮片样品。生物样品可获自人、动物或其他合适的生物体。"校准样品"对应 于这样的生物样品,其临床相关DNA分数是已知的,或可通过校准方法如使用临床相关DNA 特异性的等位基因确定。临床相关DNA的实例为母体血浆中的胎儿DNA或患者血浆中的肿 瘤 DNA。
[0052] 如本文所用,术语"基因座(locus)"或其复数形式"基因座(loci)"是在基因组 间存在变异的任何长度的核苷酸(或碱基对)的位点或地址。术语"序列读数"是指获自 核酸分子(例如,DNA片段)的全部或一部分的序列。在一个实施方案中,仅对片段的一端 测序。可选地,可对片段的两端(例如,从每端起约30bp)测序以生成两个序列读数。然后 可将成对的序列读数与参照基因组比对,这可提供片段长度。在又一实施方案中,例如,通 过连接,可将线性DNA片段环化,并且可对跨越连接位点的部分测序。
[0053] 术语"通用测序"是指这样的测序,其中将适配子添加至片段的末端,并且将测序 引物连接至适配子。因此,可用相同的引物对任何片段测序,因此测序可为随机的。
[0054] 术语胎儿DNA浓度分数与术语胎儿DNA比例及胎儿DNA分数可互换使用,并指 存在于生物样品(例如,母体血浆或血清样品)中的源自胎儿的胎儿DNA分子的比例 (Lo YMD et al. Am J Hum Genet 1998 ;62:768-775 ;Lun FMF et al. Clin Chem 2008; 54:1664-1672)。类似地,术语肿瘤DNA浓度分数可与术语肿瘤DNA比例和肿瘤DNA分数互 换使用,并指生物样品中存在的肿瘤DNA分子的比例。
[0055] 术语"大小模式(size profile)"通常涉及生物样品中DNA片段的大小。大小模 式可为提供多种大小的DNA片段的量的分布的柱形图。可将多种统计学参数(也称为大小 参数或仅称为参数)用于区分一种大小模式与另一种。一个参数为特定大小或大小范围的 DNA片段相对于所有DNA片段或相对于另一大小或范围的DNA片段的百分比。
[0056] "临床相关的" DNA的实例包括母体血浆中的胎儿DNA和患者血浆中的肿瘤DNA。 另一实例包括移植患者血浆中的移植物相关的DNA量的测量结果。其他实例包括对象血浆 中的造血与非造血DNA的相对量的测量结果。该后一实施方案可用于检测或监测或预测病 理进程或造血和/或非造血组织相关的损伤。
[0057] "校准数据点"包括目标DNA( S卩,临床相关的DNA)的"校准值"和测量的或已知的 浓度分数。校准值是测定的校准样品的大小参数的值,所述校准样品的临床相关DNA的浓 度分数是已知的。校准数据点可以多种方式定义,例如,定义为离散点或校准函数(也称为 校准曲线或校准面)。
[0058] 术语"癌症等级"可指癌症是否存在、癌症阶段、肿瘤大小、涉及多少缺失或扩增的 染色体区域(例如,双倍性或三倍性),和/或癌症严重性的其他度量。癌症等级可为数字 或其他特征。该水平可为〇。癌症等级还包括与缺失或扩增相关的恶化前的或癌症前期的 状况。
[0059] 发明详述
[0060] 已经知道母体血浆中的无细胞胎儿DNA分子通常比母体来源的分子短(Chan KCA et al· Clin Chem 2004;50:88-92 ;Lo YMD et al.Sci Transl Med 2010 ;2:61ra91)。胎 儿DNA的存在导致母体血浆DNA的整体大小分布改变,并且改变的程度与胎儿DNA的浓度 分数相关。通过测量母体血浆DNA的大小模式的特定值,实施方案可获得母体血浆中的胎 儿DNA浓度分数。
[0061] 除应用于非侵入性的产前诊断外,实施方案还可用于测量生物体液中可用于临床 的不同大小的核酸种类的浓度分数,其可用于癌症检测、移植和医疗监测。先前已证明癌症 患者血楽中肿瘤来源的DNA比非癌症来源的DNA短(Diehl F et al.Proc Natl Acad Sci USA 2005 ; 102:16368-16373)。在移植环境下,已证明造血来源的DNA比非造血来源的DNA 短(Zheng YW et al· Clin Chem 2012;58:549-558)。例如,如果患者从供体接受了肝,则来 源于肝(成体中的非造血器官)的DNA将比血楽中造血来源的DNA短(Zheng YW et al.Clin Chem 2012 ;58:549-558)。类似地,在患有心肌梗死或中风的患者中,预期受损的非造血器 官(即,分别为心脏和脑)释放的DNA将导致血浆DNA的大小模式向较短的范围转变。
[0062] I.大小分布
[0063] 为了说明实施方案,我们在以下实例中表明可测量大小模式,例如,通过双端大规 模并行测序或通过电泳(例如,使用生物分析仪)。后一实例尤其有用,因为使用生物分析 仪的电泳是较快而且相对便宜的方案。这将允许在对血浆DNA样品进行相对较贵的测序方 法前,快速进行该分析来作为一种质量控制度量。
[0064] 图1显示了根据本发明实施方案,母体血浆中循环无细胞DNA的大小分布的图 100。大小分布可通过测量DNA片段大小,然后对多种大小DNA片段(例如,50个碱基至约 220个碱基范围内)的数目计数获得。图100显示了两种分布。分布110是针对母体血浆 样品中所有的DNA片段,而分布120是仅针对来自胎儿的DNA。水平轴是DNA片段碱基对 (bp)的大小。垂直轴是测量的DNA片段的百分比。
[0065] 在图1中,已证明母体血浆中胎儿来源的DNA的大小分布比母体来源的分子短 (Chan KC et al.ClinChem 2004;50:88-92)。最近,我们使用双端大规模并行测序分析测 定了孕妇中胎儿特异性DNA和总DNA(主要来源于母亲)的高分辨率大小分布。我们证明 两种DNA间的主要差异为:对于胎儿来源的DNA,166bp DNA片段分数减小,且150bp以下的 较短 DNA 的比例增加 (Lo YM et al.Sci Transl Med 20102:61ra91)。
[0066] 在本文中,我们概述了母体血浆样品(生物样品的一个实例)中总DNA片段的大 小分布的分析如何有利于确定母体血浆中胎儿DNA的浓度分数。母体血浆中胎儿DNA浓度 分数的增加将导致总DNA的整体大小分布缩短。在一个实施方案中,约144bp DNA片段和 约166bp DNA片段的相对丰度(参数的一个实例)可用于反映胎儿DNA的浓度分数。在另 一实施方案中,关于大小模式的其他参数或参数组合可用于反映血浆DNA的大小分布。 [0067] 图2A显示了根据本发明实施方案,具有不同胎儿DNA浓度分数的两个母体血浆 样品(妊娠的第一个三个月)中胎儿DNA的大小分布的图200。这两名孕妇均怀有男性胎 儿。胎儿DNA浓度分数由来自Y染色体的序列在总测序DNA片段中的比例而确定。两个样 品均采自妊娠第一个三个月的孕妇。个例338(实线,胎儿DNA浓度分数10% )具有比个例 263(虚线,胎儿DNA浓度分数20% )低的胎儿DNA浓度分数。当与个例263相比时,个例 338在166bp处具有较高的峰,而对于150bp以下的大小峰较低。换句话说,个例263中短 于150bp的DNA片段更为丰富,而个例338中约166bp的片段更为丰富。这些观察与假设 一致,即长DNA和短DNA的相对量可能与胎儿DNA浓度分数相关。
[0068] 图2B显示了根据本发明实施方案,具有不同胎儿DNA浓度分数的两个母体血浆样 品(妊娠的第二个三个月)中DNA片段的大小分布的图250。两个样品均采自第二个三个 月的孕妇。这两名孕妇均怀有男性胎儿。胎儿DNA浓度分数由来自Y染色体的序列在总测 序DNA片段中的比例而确定。类似于之前的实例,个例5415 (虚线,具有较高的胎儿DNA浓 度分数19% )的150bp以下的大小具有较高的峰,而个例5166(实线,具有较低的胎儿DNA 浓度分数12% )在166bp处具有较高的峰。
[0069] 大小参数的不同值与胎儿DNA浓度分数值的相关性显示在下面的数据图中。另 夕卜,肿瘤DNA片段的大小与具有肿瘤DNA片段和来自正常细胞的DNA片段的样品中肿瘤DNA 片段的百分比相关。因此,肿瘤片段大小还可用于确定样品中肿瘤片段的百分比。
[0070] II.方法
[0071] 因为DNA片段大小与浓度分数(也称为百分比)相关,实施方案可使用该相关性 来确定样品中具体类型的DNA(例如,胎儿DNA或来自肿瘤的DNA)的浓度分数。具体类型 的DNA是临床相关的,因为其为待估算的浓度分数。因此,方法可基于测得的DNA片段大小, 估算生物样品中临床相关DNA的浓度分数。
[0072] 图3是方法300的流程图,其阐示了根据本发明实施方案,估算生物样品中临床相 关DNA的浓度分数的方法。生物样品包含临床相关的DNA和其他DNA。生物样品可获自患 者,例如,怀有胎儿的女性对象。在另一实施方案中,患者可患有或疑似患有肿瘤。在一个 实施方案中,可将生物样品接收于仪器,例如,测序仪,其输出可用于确定DNA片段大小的 测量数据(例如,序列读数)。方法300可全部或部分用计算机系统进行,如同本文所述其 他方法所能进行的那样。
[0073] 在方框310中,测量了对应于多种大小的DNA片段的量。对于多种大小中的每种大 小,可测量生物样品的对应于所述大小的多个DNA片段的量。例如,可测量具有140个碱基 长度的DNA片段的数目。所述量可保存为柱形图。在一个实施方案中,测量了来自生物样 品的多种核酸中的每种的大小,其可基于个体进行(例如,通过单分子测序)或基于群组进 行(例如,通过电泳)。所述大小可对应于范围。因此,量可针对具有特定范围大小的DNA 片段。
[0074] 可随机挑选多种DNA片段,或优选地,从基因组的一个或多个预定区域挑选多种 DNA片段。例如,可进行靶向富集,如上文所述。在另一实施方案中,可对DNA片段随机测序 (例如,使用通用测序),并且可将得到的序列读数与对应于对象(例如,参照的人基因组) 的基因组比对。然后,可仅将序列读数与一个或多个预定区域对齐的DNA片段用于确定大 小。
[0075] 在多个实施方案中,大小可为质量、长度或其他合适的大小度量。测量可以多种方 式进行,如本文所述。例如,可进行双端测序和DNA片段比对,或可使用电泳。可测量统计学 显著数目的DNA片段,以提供生物样品的精确大小模式。统计学显著数目的DNA片段的实 例包括大于100, 〇〇〇 ;1,〇〇〇, 〇〇〇 ;2, 000, 000,或其他合适的值,这可取决于所需的精确度。
[0076] 在一个实施方案中,可将获自物理测量如双端测序或电泳的数据接收于计算机, 并分析以实现DNA片段大小测量。例如,可分析(例如,通过比对)来自双端测序的序列读 数来确定大小。再例如,可分析产生自电泳的电泳图以确定大小。在一个实施方案中,DNA 片段的分析确实包括实际的测序过程或对DNA片段进行电泳,但其他实施方案可仅进行所 得数据的分析。
[0077] 在方框320中,基于多种大小DNA片段的量,计算第一参数的第一值。在一个方 面,第一参数提供了生物样品中DNA片段的大小模式的统计学度量(例如,柱形图)。所述 参数可称为大小参数,因为其自多种DNA片段的大小确定而来。
[0078] 第一参数可具有多种形式。此类参数为特定大小的DNA片段数除以片段总数,其 可从柱形图(任何数据结构,提供了特定大小片段的绝对或相对计数)获得。再例如,参数 可为特定大小或特定范围片段的数目除以另一大小或范围片段的数目。该除法可用作标准 化,以解释针对不同样品分析的DNA片段的不同数目。标准化可通过针对每个样品分析相 同数目的DNA片段实现,其有效地提供了与除以分析的片段的总数相同的结果。本文描述 了参数的其他实例。
[0079] 在方框330中,获得了一个或多个第一校准数据点。每个第一校准数据点可指定 对应于第一参数的特定值(校准值)的临床相关DNA的浓度分数。浓度分数可指定为特定 浓度或浓度范围。校准值可对应于从多个校准样品确定的第一参数(即,特定大小参数) 的值。校准数据点可自具有已知浓度分数(其可通过本文描述的多种技术测量)的校准样 品确定而来。校准样品中的至少一些具有不同的浓度分数,但一些校准样品可具有相同的 浓度分数。
[0080] 在多个实施方案中,一个或多个校准点可定义为一个离散点、一组离散点、函数、 一个离散点和函数,或离散或连续数值组的任何其他组合。例如,校准数据点可自具有特定 浓度分数的样品的大小参数(例如,特定大小或大小范围片段的数目)的一个校准值确定 而来。可使用多个柱形图,每个校准样品具有不同的柱形图,其中校准样品中的一些可具有 相同的浓度分数。
[0081] 在一个实施方案中,可将从相同浓度分数的多个样品测得的相同大小参数的值组 合,以确定特定浓度分数的校准数据点。例如,可从相同浓度分数的样品的大小数据获得大 小参数数值的平均值,以确定特定校准数据点(或提供对应于校准数据点的范围)。在另一 个实施方案中,具有相同校准值的多个数据点可用于确定平均浓度分数。
[0082] 在一个实施方案中,测量了多个校准样品的DNA片段的大小。确定了每个校准样 品的相同大小参数的校准值,其中可将所述大小参数针对样品的已知的浓度分数作图。然 后可将函数与图的数据点拟合,其中所述函数拟合确定了用于确定新样品的浓度分数的校 准数据点。
[0083] 在方框340中,将第一值与至少一个校准数据点的校准值比较。比较可以多种方 式进行。例如,比较可为第一值是否高于或低于校准值。比较可包括与校准曲线(由校准 数据点组成)比较,因此比较可确定具有第一参数的第一值的曲线上的点。例如,计算的第 一参数的数值x(如从测得的新样品中DNA的大小确定的)可用作函数F(X)的输入,其中F 为校准函数(曲线)。F(X)的输出为浓度分数。可提供误差范围,其对于每个X值可能是 不同的,从而提供了 F(X)的输出值的范围。
[0084] 在步骤350中,生物样品中临床相关DNA的浓度分数基于比较来估算。在一个实 施方案中,可以确定第一参数的第一值是大于还是小于阈值校准值,从而能确定估算的本 样品的浓度分数是大于还是小于对应于阈值校准值的浓度分数。例如,如果计算的生物样 品的第一值\大于校准值则生物样品的浓度分数Fq可确定为大于对应于X。的浓度分 数FC。。该比较可用于确定生物样品中是否存在进行其他检测(例如,检测胎儿非整倍性) 的足够的浓度分数。该大于和小于的关联可取决于参数如何定义。在此类实施方案中,可 能仅需要一个校准数据点。
[0085] 在另一个实施方案中,通过输入第一值至校准函数来实现比较。校准函数可通过 确定对应于第一值的曲线上的点,有效地比较第一值与校准值。然后可将估算的浓度分数 提供为校准函数的输出值。
[0086] 在一个实施方案中,可确定生物样品的多于一个参数的值。例如,可确定第二参数 的第二值,其对应于生物样品中DNA片段大小模式的不同的统计学度量。第二值可使用DNA 片段的相同的大小测量或不同的大小测量确定。每个参数可对应于不同的校准曲线。在一 个实施方案中,可将不同的值独立地与不同的校准曲线比较,以获得多个估算的浓度分数, 然后可将其平均或用于提供作为输出的范围。
[0087] 在另一实施方案中,可使用多维校准曲线,其中可将不同的参数值有效地输入至 输出浓度分数的单个校准函数。单个校准函数可产生自获自校准样品的所有数据点的函数 拟合。因此,在一个实施方案中,第一校准数据点和第二校准数据点可为多维曲线上的点, 其中比较包括确定具有对应于第一值和一个或多个第二值的坐标的多维点。
[0088] III.测定大小
[0089] 可测定血浆DNA的大小分布,例如但不限于,使用实时PCR、电泳和质谱分析。在多 个实施方案中,所测的大小为长度、分子量或测量的与长度或质量成比例的参数,如电泳图 谱中的迁移性和在电泳或质谱仪中移动固定距离所需的时间。在另一个实例中,可用嵌入 性荧光染料如溴化乙锭或SYBR Green对DNA染色,其中染料结合的量与DNA分子的长度成 比例。可以通过UV光照射于样品上时发出的荧光的强度,确定结合的染料的量。测量大小 的一些实例以及得到的数据描述如下。
[0090] A.使用测序的第一胎儿样品集
[0091] 表1显示了以胎儿DNA分数为例的样品信息和测序分析。血浆样品取自80名孕 妇,每名怀有一个男性胎儿。在这80名孕妇中,39名怀有整倍体胎儿,18名怀有21三体 (T21)胎儿,10名怀有18三体(T18)胎儿,且13名怀有13三体(T13)胎儿。使用双端大 规模并行测序确定血浆DNA的大小分布。母体血浆DNA的测序文库按先前所述构建(Lo YM et al.Sci Transl Med 2010;2:61ra91),除了通过三引物PCR扩增将6个碱基的标识符引 入至每个血浆样品的DNA分子。
[0092] 将两个样品引入一个测序道(即,2倍测序)。在其他实施方案中,可将多于两 个样品引入一个测序道,例如,6或12或20个,或多于20个。所有文库均通过基因组分 析仪Ilxailumina)使用36-bpX2PE格式测序。进行了另外的7轮测序以解译每个测 序的血楽DNA分子上的索引序列。使用短寡核苷酸比对程序2 (Short Oligonucleotide Alignment Program 2,S0AP2) (soap, genomics, org. cn),将 36_bp 的序列读数与非重复掩 蔽的(non-repeat-masked)人参照基因组(Hgl8) (genome.ucsc.edu)比对。确定了具有单 独的成员的双端(PE)读数,所述成员在流动池 (flow cell)的相同簇位置上测序,且以正 确方向和无任何核苷酸错配地、唯一地与人基因组中的单个位置对齐。在其他实施方案中, 比对可能不唯一的且可允许错配。
[0093] 仅回收展现插入物大小< 600bp的PE读数用于分析。利用这些标准,这些实验中 分析的血浆DNA片段的大小范围为36bp-600bp。每个测序的DNA片段的大小从测序片段每 端的最外面的核苷酸坐标推导而来。
[0094]

【权利要求】
1. 估算生物样品中临床相关DNA的浓度分数的方法,所述生物样品包含所述临床相关 DNA和其他DNA,所述方法包括: 对于多种大小中的每种大小: 测量来自所述生物样品的对应于所述大小的多个DNA片段的量; 使用计算机系统,基于多种大小的DNA片段的量,计算第一参数的第一值,所述第一参 数提供了所述生物样品中DNA片段大小模式的统计学度量; 获得一个或多个第一校准数据点,其中每个第一校准数据点指定了对应于所述第一参 数校准值的临床相关DNA的浓度分数,并且其中所述一个或多个校准数据点自多个校准样 品确定而来; 将所述第一值与至少一个校准数据点的校准值比较;以及 基于所述比较,估算所述生物样品中临床相关DNA的浓度分数。
2. 如权利要求1所述的方法,其中所述多个DNA片段对应于基因组的一个或多个预定 区域。
3. 如权利要求1所述的方法,其中所述第一参数代表相对于大DNA片段丰度的小DNA 片段丰度,并且其中短DNA片段具有比所述大DNA片段更小的大小。
4. 如权利要求1所述的方法,还包括 基于多种大小的DNA片段的量,计算一个或多个第二参数的一个或多个第二值,所述 一个或多个第二参数提供了所述生物样品中DNA片段大小模式的不同统计学度量; 获得对应于所述一个或多个第二参数的一个或多个第二校准数据点; 将所述一个或多个第二值与所述第二校准数据点的对应的第二校准值比较;并且 基于涉及所述第一值和所述一个或多个第二值的比较,估算所述生物样品中临床相关 DNA的浓度分数。
5. 如权利要求4所述的方法,其中所述第一校准数据点和所述第二校准数据点是多维 曲线上的点,并且所述比较包括确定具有对应于所述第一值和所述一个或多个第二值的坐 标的多维点。
6. 如权利要求1所述的方法,其中所述第一校准数据点形成校准曲线。
7. 如权利要求1所述的方法,其中每个第一校准数据点自对应于不同校准样品的柱形 图确定而来,其中柱形图提供了多种大小DNA片段的量,并且其中所述不同校准样品的至 少一部分具有不同的浓度分数。
8. 如权利要求1所述的方法,其中测量对应于所述大小的DNA片段的量包括: 对于来自所述生物样品的多个DNA片段中的每个: 测量所述DNA片段的大小, 其中测量DNA片段的大小包括: 进行所述DNA片段的双端测序,以获得配对序列读数; 将所述配对序列读数与参照基因组比对;以及 使用比对的位置确定所述DNA片段的大小。
9. 如权利要求1所述的方法,其中测量对应于所述大小的DNA片段的量包括使用电泳。
10. 如权利要求1所述的方法,还包括: 通过如下计算所述一个或多个第一校准数据点: 对于所述多个校准样品中的每个: 测量所述校准样品中临床相关DNA的浓度分数; 测量对应于所述多种大小的DNA片段的量;以及 基于多种大小DNA片段的量,计算所述第一参数的校准值,所述校准样品的校准数据 点包括所述校准值和测量的浓度分数。
11. 如权利要求10所述的方法,还包括: 确定函数,其近似于所述第一校准数据点在多个浓度分数间的校准值。
12. 如权利要求11所述的方法,其中所述函数为线性函数。
13. 如权利要求10所述的方法,其中所述生物样品来自怀有胎儿的孕妇,其中所述临 床相关的DNA为胎儿DNA,并且其中测量临床相关DNA的浓度分数包括以下的至少一种: 测量所述孕妇基因组中不存在的父本遗传的序列;和 测量胎儿特异性的表观遗传标志物。
14. 如权利要求13所述的方法,其中所述胎儿特异性表观遗传标志物包括母体血浆或 血清中的展现胎儿或胎盘特异性DNA甲基化模式的DNA序列。
15. 如权利要求10所述的方法,其中所述临床相关的DNA为源自获取生物样品的患者 肿瘤的DNA。
16. 如权利要求15所述的方法,其中测量临床相关DNA的浓度分数包括: 鉴定一个或多个基因座,其中所述患者为杂合的,并且其中所述肿瘤展现杂合性丢失 (LOH)使得等位基因缺失; 确定所述生物样品中所述一个或多个基因座处,具有未缺失的等位基因的序列读数的 第一量A ; 确定所述生物样品中所述一个或多个基因座处,具有缺失的等位基因的序列读数的第 二量B ;以及 使用比例(A - B) /A将临床相关DNA的浓度分数F计算为所述第一量与所述第二量之 比。
17. 如权利要求15所述的方法,其中测量临床相关DNA的浓度分数包括: 鉴定一个或多个基因座,其中所述患者为杂合的,并且其中所述肿瘤展现一个等位基 因的重复; 确定所述生物样品中所述一个或多个基因座处,具有非重复等位基因的序列读数的第 一量A ; 确定所述生物样品中所述一个或多个基因座处,具有重复等位基因的序列读数的第二 量B ;以及 使用比例(B - A) /A将临床相关DNA的浓度分数F计算为所述第一量与所述第二量之 比。
18. 如权利要求15所述的方法,其中测量临床相关DNA的浓度分数包括: 鉴定一个或多个基因座,其中所述患者为纯合的,并且其中肿瘤组织中存在单核苷酸 突变; 确定所述生物样品中所述一个或多个基因座处,具有野生型等位基因的序列读数的第 一量A ; 确定所述生物样品中所述一个或多个基因座处,具有突变等位基因的序列读数的第二 量B ; 使用比例2ΒΛΑ+Β)将临床相关DNA的浓度分数F计算为所述第一量与所述第二量之 比。
19. 如权利要求1所述的方法,其中所述测量的大小为长度、分子量或与长度成比例的 测量参数。
20. 如权利要求1所述的方法,其中所述多种大小中的至少一种对应于范围。
21. 计算机产品,包括存储多条指令的非临时性计算机可读介质,当执行时,所述指令 控制计算机系统估算生物样品中临床相关DNA的浓度分数,所述生物样品包含所述临床相 关的DNA和其他DNA,所述指令包括: 对于多种大小中的每种大小: 计算来自所述生物样品的对应于所述大小的多个DNA片段的量; 基于多种大小的DNA片段的量,计算第一参数的第一值,所述第一参数提供了所述生 物样品中DNA片段的大小模式的统计学度量; 获得一个或多个第一校准数据点,其中每个第一校准数据点指定了对应于所述第一参 数的校准值的临床相关DNA的浓度分数,并且其中所述一个或多个校准数据点自多个校准 样品确定而来; 将所述第一值与至少一个校准数据点的校准值比较;以及 基于所述比较,估算所述生物样品中临床相关DNA的浓度分数。
22. 分析生物体的生物样品的方法,所述生物样品包含源自正常细胞以及可能来自癌 症相关细胞的DNA,其中所述DNA中的至少一些为所述生物样品中无细胞的,所述方法包 括: 对于多种大小中的每种大小: 测量来自生物样品的对应于所述大小的第一组DNA片段的量; 基于多种大小的DNA片段的量,计算第一参数的第一值,所述第一参数提供了所述生 物样品中DNA片段的大小模式的统计学度量; 将所述第一值与参考值比较;以及 基于所述比较,确定所述生物体中癌症等级的分级。
23. 如权利要求22所述的方法,其中所述第一组DNA片段对应于所述生物体基因组的 一个或多个预定区域。
24. 如权利要求23所述的方法,还包括: 鉴定来自所述生物样品的其他组的DNA片段,其中每组DNA片段对应于不同的预定区 域; 测量对应于所述多种大小的DNA片段的量; 计算所述其他组DNA片段的第一参数的大小值; 将每个大小值与各自的参考值比较;以及 确定这样的预定区域:其中相应的大小值相比各自的参考值具有统计学差异。
25. 如权利要求24所述的方法,还包括: 使用鉴定的预定区域确定一种或多种可能的癌症类型,其中所述可能的癌症类型与所 述确定的预定区域相关。
26. 如权利要求24所述的方法,其中基于所述比较确定所述生物体中癌症等级的分级 包括: 确定所鉴定的预定区域的数目,其中相比各自的参考值,所述相应的大小值具有统计 学差异;以及 将所述数目与阈值区域数比较,以确定所述生物体中癌症等级的分级。
27. 如权利要求24所述的方法,其中所述各自的参考值中的至少两个是不同的。
28. 如权利要求22所述的方法,其中所述确定的分级对应于肿瘤大小或肿瘤数目。
29. 如权利要求22所述的方法,其中所述生物样品获自治疗后的生物体,并且其中所 述参考值对应于治疗前采集的样品确定的第一参数的值。
30. 如权利要求22所述的方法,其中所述参考值对应于当推测所述生物体未患癌症时 从样品确定的第一参数的值。
31. 如权利要求22所述的方法,其中所述参考值从获自一个或多个健康生物体的一个 或多个生物样品确立。
32. 如权利要求22所述的方法,其中所述分级为所述生物体未患癌症或癌症等级已降 低。
33. 如权利要求22所述的方法,其中所述分级为所述生物体确实患有癌症或者癌症等 级已增加。
34. 如权利要求22所述的方法,其中所述生物体为人。
【文档编号】G06F19/20GK104254618SQ201380013054
【公开日】2014年12月31日 申请日期:2013年3月8日 优先权日:2012年3月8日
【发明者】卢煜明, 陈君赐, 郑文莉, 江培勇, 廖嘉炜, 赵慧君 申请人:香港中文大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1