用于在确定拷贝数变异中改善检测的灵敏度的方法与流程

文档序号:13012025阅读:712来源:国知局
与相关申请的参考
本申请依据35U.S.C.§119(e)要求于2013年10月21日提交的题为
“METHODFORIMPROVINGTHESENSITIVITYOFDETECTIONIN
DETERMININGCOPYNUMBERVARIATIONS(用于在确定拷贝数变异中
改善检测的灵敏度的方法)”美国临时专利申请号61/893,830的优先权,其
全部内容以引用方式结合于本文。


背景技术:

人类医学研究中的关键的努力之一是产生不良健康后果的遗传异常的
发现。在许多情况下,在基因组的多个部分中已确定了特定基因和/或关键
的诊断标志物,它们是以异常拷贝数存在的。例如,在产前诊断中,全染
色体的额外的或丢失的拷贝是频繁发生的遗传性病变。在癌症中,全染色
体或染色体片段的拷贝的缺失或倍增,以及基因组的特定区域的较高水平
扩增是常见的情况。
通过允许识别出结构性异常的细胞遗传学分辨能力已经提供了关于拷
贝数变异(CNV)的大部分信息。用于基因筛查和生物学剂量测定的常规
程序已经利用了侵入性程序,例如,羊膜穿刺术、脐静脉穿刺术、或绒膜
绒毛取样(CVS),来获得用于核型分析的细胞。认识到需要并不要求细
胞培养的更快速的测试方法,已经开发了荧光原位杂交(FISH)、定量荧
光PCR(QF-PCR)和阵列-比较基因组杂交(阵列-CGH)作为用于拷贝数
变异分析的分子细胞遗传学方法。
人类医学研究中的关键的努力之一是产生不良健康后果的遗传异常的
发现。在许多情况下,在基因组的多个部分中已确定了特定基因和/或关键
的诊断标志物,它们是以异常拷贝数存在的。例如,在产前诊断中,全染
色体的额外的或丢失的拷贝是频繁发生的遗传性病变。在癌症中,全染色
体或染色体片段的拷贝的缺失或倍增,以及基因组的特定区域的较高水平
扩增是常见的情况。
通过允许识别出结构性异常的细胞遗传学分辨能力已经提供了关于拷
贝数变异(CNV)的大部分信息。用于基因筛查和生物学剂量测定的常规
程序已经利用了侵入性程序,例如,羊膜穿刺术、脐静脉穿刺术、或绒膜
绒毛取样(CVS),来获得用于核型分析的细胞。认识到需要并不要求细

胞培养的更快速的测试方法,已经开发了荧光原位杂交(FISH)、定量荧
光PCR(QF-PCR)和阵列-比较基因组杂交(阵列-CGH)作为用于拷贝数
变异分析的分子细胞遗传学方法。
允许在相对较短的时间内对测序整个基因组进行测序的技术的出现以
及循环无细胞的DNA(cell-freeDNA,cfDNA)的发现已提供了将来自一
个有待比较的染色体的遗传物质以与另一个染色体的遗传物质进行比较的
机会,而没有伴随侵入性采样方式的风险,其提供了一种诊断感兴趣的基
因序列的各种各样拷贝数变异的工具。
在一些应用中,拷贝数变异(CNV)的诊断涉及高度的技术挑战。例
如,对于异卵多胎(或多卵性,polyzygotic)妊娠的CNV的非侵入性产前
诊断(NIPD)比单胎妊娠更加困难,这是因为胎儿cfDNA的总分数与胎儿
的数目并不是成正比变化,这使cfDNA的胎儿分数降低了胎儿数目的一个
数量级,其反过来又会降低分析的的信噪比。另外,基于Y染色体的诊断
如性别鉴定受到与Y染色体相关限制的影响。具体地,Y染色体的覆盖度
(coverage)低于常染色体的覆盖度,并且在Y染色体上的重复序列使得读
数到其正确位置的定位的映射复杂化。此外,一些目前的测序方法方法利
用超短读数如25聚体读数和标签,从而提出另一个序列比对挑战,因为25
聚体标签短于大多数遍在重复元件的典型尺寸。本文披露的一些实施方式
提供了在分析用于评价CNV的序列数据时改善灵敏度和/或特异性的方法。
无侵入性产前诊断中现有方法存在局限性,包括源于cfDNA的有限水
平的灵敏度不足,以及源于基因组信息的固有特性的技术的测序偏差,构
成了对能够提供任何或所有的特异性、灵敏度、和适用性,以在各种各样
的临床设置中可靠地诊断拷贝数变化的非侵入性方法的持续需要的基础。
本文披露的实施方式满足一些上述需要,并且尤其提供了适用于无侵入性
产前诊断的实践的可靠方法。
发明概述
在一些实施方式中,提供了用于确定任何胎儿非整倍性的拷贝数变异
(CNV),以及已知或疑似相关与各种各样的医学状况的CNV的方法。所
述方法包括用于减少与基因组序列的GC波动的噪声和误差有关的机制。能
够根据本方法确定的CNV包括1-22、X和Y中的任意一个或多个染色体的
三体性和单体性,其他染色体多体性,以及任意一个或多个染色体的片段
的缺失和/或复制。
另一种实施方式提供了一种用于确定在测试样品中感兴趣的核酸序列
(例如,临床相关序列)的拷贝数变异(CNV)的方法。所述方法评价感
兴趣的序列而不是完整的染色体或染色体的片段的拷贝数变异。
在一些实施方式中,用包括一个或多个处理器和系统存储器的计算机
系统来实施所述方法,从而评价在包含一个或多个基因组的核酸的测试样
品中感兴趣的核酸序列的拷贝数。所述方法包括:(a)提供通过核酸序列
测定仪由测试样品获得的序列读数;(b)比对测试样品与包含感兴趣的核
酸序列的参比基因组的序列读数,从而提供测试序列标签;(c)确定位于
每个bin中的测试序列标签的覆盖度,其中参比基因组被分成多个bin;(d)
提供针对感兴趣的核酸序列的全局配置参数(globalprofile),其中全局配
置参数包含每个bin中的预期覆盖度,以及其中预期覆盖度获自以与测试样
品基本相同的方式测序和比对的未受影响的(例如,二倍体)训练样品的
训练集(trainingset),预期覆盖度呈现bin之间的变化;(e)利用在每个
bin中至少感兴趣的核酸序列的预期覆盖度来调节测试序列标签的覆盖度,
从而获得针对感兴趣的核酸序列的全局配置参数修正的覆盖度;(f)基于
在GC含量水平和全局配置参数修正的覆盖度之间的关系,调节全局配置参
数修正的覆盖度,从而获得针对感兴趣的核酸序列的样品-GC-修正的覆盖
度;以及(g)基于样品-GC-修正的覆盖度,评价在测试样品中感兴趣的核
酸序列的拷贝数。在一些实施方式中,在文库深度差(librarydepth
difference)的归一化之后,获得在步骤(c)中确定的覆盖度。文库归一化
可涉及覆盖度除以映射到鲁棒染色体(稳健染色体,robustchromosome)
(预期是如本文所描述的二倍体)的读数的总数。可替换地,文库深度归
一化可能涉及覆盖度除以映射到全基因组的读数数目,从而产生序列与标
签密度比值。在一些实施方式中,样品本身的测序数据可以用来得到估计
具有二倍体覆盖度的基因组区,以及将那些区域文库归一化。与通常在(c
)之后进行的其他形式的归一化,如归一化在(f)中获得的全局配置参数
修正的覆盖度,分别进行文库深度归一化。另一种形式的“归一化”产生如
下文所描述的“序列剂量”。
在一些实施方式中,所述方法进一步涉及,在确定bin的覆盖度的操作
(c)之前,施加序列掩码(sequencemask),其排除掩蔽bin中的考虑覆
盖度。在一些实施方式中,序列掩码获自多个未受影响的训练样品的序列
读数。通过比对训练集与参比基因组的序列读数来获得序列掩码,从而提
供针对训练样品的训练序列标签。所述方法还涉及将参比基因组分成多个
bin以及针对每个训练样品确定在每个bin中的训练序列标签的覆盖度。所
述方法进一步涉及产生包含未掩蔽(unmasked)和掩蔽(masked)bin的序

列掩码。每个掩蔽bin具有超过掩蔽阈值(maskingthreshold)的分布指数,
该分布指数与训练样品的覆盖度的分布有关。在一些实施方式中,用来确
定掩蔽和未掩蔽bin的分布指数与训练样品的覆盖度的变化(例如,变异系
数)在数学上相关。分布指数作为用于掩蔽bin的标准来事实,这是因为在
训练样品中呈现较大可变性或变异的bin具有高分布指数,因而对应用于表
征拷贝数而言是不可靠的。
在一些实施方式中,在产生或施加序列掩码之前,所述方法首先去除
常见于未受影响的训练样品的系统性变化(或全局配置参数)。这可以通
过根据在每个bin中的预期覆盖度调节训练序列标签的覆盖度来实现,从而
获得在bin中的训练序列标签的全局配置参数修正的覆盖度,其然后用来产
生序列掩码。在一些实施方式中,归一化覆盖度的量用来计算掩码。归一
化覆盖度的量是感兴趣的核酸序列的覆盖度与归一化序列的覆盖度的比
率。在一些实施方式中,在感兴趣的核酸序列上的掩蔽bin具有第一掩蔽阈
值以及在归一化序列上的掩蔽bin具有第二掩蔽阈值。在一些实施方式中,
第一掩蔽阈值和第二掩蔽阈值的组合提供这样的序列掩码,其导致在未受
影响的样品中在包括感兴趣的序列的区域内比利用其他阈值获得的掩码更
低的覆盖度变异。覆盖度的变化反映了序列掩码在整个样品和运行上控制
变异的能力,因而较低变异会使受影响的和未受影响的样品之间的分离增
加。在一些实施方式中,掩蔽阈值导致在验证样品中覆盖度的较小的变异
系数和/或在ROC分析中较大的d’值。
在一些实施方式中,序列掩码包括在bin内由跨整个训练样品的映射质
量得分(mappingqualityscore)的分布所定义的掩蔽bin和未掩蔽bin。映
射质量得分来源于多个未受影响的训练样品与参比基因组的比对序列读
数。
在一些实施方式中,评价在测试样品中感兴趣的核酸序列的拷贝数包
括利用归一化序列的覆盖度信息来计算测试样品的感兴趣的核酸序列的序
列剂量。在一些实施方式中,计算序列剂量包括在感兴趣的核酸序列中的
测试序列标签的覆盖度(例如,样品-GC-修正的覆盖度)除以在归一化序
列中的测试序列标签的覆盖度。其他方法可以用来计算序列剂量,如利用
线性回归或稳健线性回归并依据基因组的其他归一化区的归一化覆盖度来
对感兴趣的序列的归一化覆盖度建模。
在一些实施方式中,归一化序列包含一个或多个鲁棒常染色体序列或
它们的片段。在一些实施方式中,鲁棒常染色体包括除感兴趣的染色体之
外的所有常染色体。在一些实施方式中,鲁棒常染色体包括除chrX、Y、
13、18、和21之外的所有常染色体。在一些实施方式中,鲁棒常染色体包

括除那些确定自偏离自正常二倍体状态的样品的常染色体之外的所有常染
色体。
在一些实施方式中,评价拷贝数进一步包括利用归一化序列的覆盖度
信息来计算测试样品的感兴趣的核酸序列的归一化染色体值或归一化片段
值。
在一些实施方式中,测试样品包括来自两个不同的基因组的核酸的混
合物。在一些实施方式中,测试样品包括cfDNA分子。在一些实施方式中,
测试样品包括胎儿和母体无细胞核酸。在一些实施方式中,测试样品包括
来自两个或更多个胎儿的胎儿无细胞核酸。在一些实施方式中,测试样品
包含来自相同受试者的癌细胞和未受影响的细胞的核酸(细胞基因组DNA
和/或cfDNA)。
在一些实施方式中,评价在测试样品中感兴趣的核酸序列的拷贝数与
确定完全或部分胎儿非整倍性的存在或不存在有关。
在一些实施方式中,在获得样品-GC-修正的覆盖度的操作(f)之后,
考虑到CNV的评价,所述方法进一步涉及除去样品-GC-修正的覆盖度的离
群bin(outlierbins)。在一些实施方式中,离群bin是这样的bin,其中位
数样品-GC-修正的覆盖度离在每个染色体中的所有bin的中位数是大于约3
中位数绝对偏差(medianabsolutedeviation)。
在一些实施方式中,在每个bin中的预期覆盖度是跨整个训练样品的中
位数或平均值。在一些实施方式中,在计算全局配置参数作为中位数或均
值归一化覆盖度之前,针对GC含量变异,修正在训练样品中的覆盖度。
在一些实施方式中,通过(i)在一个或多个鲁棒染色体或区域中的多
个bin中获得在测试序列标签的覆盖度和预期覆盖度之间的数学关系,以及
(ii)将数学关系应用于在感兴趣的序列中的bin来调节测试序列标签的覆
盖度。在一些实施方式中,利用在来自未受影响的训练样品的预期覆盖度
值和在鲁棒染色体或基因组的其他鲁棒区(robustregion)中的测试样品的
覆盖度值之间的线性关系,来修正在测试样品中覆盖度的变化。上述调节
导致全局配置参数修正的覆盖度。在一些情况下,上述调节涉及获得在鲁
棒染色体或区中针对bin的子集的针对测试样品的覆盖度,具体如下:
ya=截距+斜率*gwpa其中ya是在一个或多个强大染色体或区域中针对测试样品的bin的覆
盖度,以及gwpa是针对未受影响的训练样品的bin的全局配置参数。然后
上述过程计算针对感兴趣的序列或区的全局配置参数修正的覆盖度zb,作
为:
zb=yb/(截距+斜率*gwpb)-1
其中yb是针对测试样品在感兴趣的序列中binb的观测覆盖度(其可以
位于鲁棒染色体或区之外),以及gwpb是针对未受影响的训练样品的binb
的全局配置参数。分母(截距+斜率*gwpb)是binb的覆盖度,其应在未受
影响的测试样品中进行观测。在藏匿(harboring)拷贝数变异的感兴趣的序
列的情况下,针对binb的观测覆盖度,因而全局配置参数修正的覆盖度值
将显著偏离未受影响的样品的覆盖度。例如,在三体样品的情况下,针对
在受影响的染色体上的bin,修正的覆盖度zb将正比于胎儿分数。通过计算
在鲁棒染色体上的截距和斜率,此过程在样品内归一化,然后评价目标染
色体(或其他感兴趣的序列)如何偏离适用于在同一样品中的鲁棒染色体
的关系(如由斜率和截距所描述的)。
在一些实施方式中,来自(e)的全局配置参数修正的测试序列标签的
覆盖度包含在感兴趣的核酸序列中bin的全局配置参数修正的覆盖度和在
归一化序列中bin的全局配置参数修正的覆盖度。
在一些实施方式中,在操作(f)中调节全局配置参数修正的覆盖度包
括将在参比基因组中的bin分组为多个GC组,每个GC组包含多个bin,
其中多个bin含有测试序列标签并具有类似的GC含量;确定针对多个鲁棒
常染色体的每个GC组的全局配置参数修正的覆盖度的预期值;以及基于相
同GC组的确定的预期值,调节针对每个GC组的全局配置参数修正的测试
序列标签的覆盖度,从而获得在感兴趣的核酸序列上的测试序列标签的样
品-GC-修正的覆盖度。
在一些实施方式中,全局配置参数修正的覆盖度的预期值是针对多个
鲁棒常染色体的GC组的覆盖度的平均值或中位数。在一些实施方式中,通
过从全局配置参数修正的覆盖度减去预期值来调节测试序列标签的全局配
置参数修正的覆盖度。
在一些实施方式中,在操作(f)中调节全局配置参数修正的覆盖度涉
及将线性或非线性数学函数拟合于来自多个鲁棒常染色体的数据点,其中
每个数据点使覆盖度值相关与GC含量值。然后,通过在所考虑的bin的
GC含量值下等于数学函数的覆盖度值的值,所述方法调节覆盖度。在一些
实施方式中,所述方法从全局配置参数修正的覆盖度减去预期值。在其他
实施方式中,所述方法将覆盖度量除以预期值。
在一些实施方式中,用于评价CNV的方法还涉及从多个不受影响的的
个体和/或测试样品提取无细胞DNA。在一些实施方式中,所述方法还涉及
利用测序仪来测序来自测试样品的核酸,从而产生测试样品的序列读数。
在一些实施方式中,序列读数包含来自在个体的整个基因组中任意处的约
20至50-bp的序列。在一些实施方式中,序列读数包括条形码25聚体。
在一些实施方式中,测试序列标签和训练序列标签的覆盖度是基于未
排除的位点计数(non-excludedsitecounts,NES计数),其中NES计数是
映射到未排除的位点的非冗余的和/或唯一对齐的序列标签的数目。
在一些实施方式中,感兴趣的核酸序列被分成约1000bp至1,000,000bp
的bin。在一些实施方式中,bin尺寸是约100,000bp。在一些实施方式中,
参照测试样品的序列读数的数目来计算bin尺寸。在一些实施方式中,在每
个bin中序列标签的数目为至少约1000bp。
本文披露的一些实施方式提供了用来产生用于评价感兴趣的核酸序列
的拷贝数的序列掩码的方法。所述方法包括:(a)在计算机系统中提供包
含来自多个未受影响的训练样品的序列读数的训练集;(b)比对训练集与
包含感兴趣的核酸序列的参比基因组的序列读数,从而提供用于训练样品
的训练序列标签;(c)将参比基因组分成多个bin;(d)在对于每个训练
样品的每个bin中,针对每个未受影响的训练样品,确定训练序列标签的覆
盖度;(e)对所有训练样品,针对每个bin,确定训练序列标签的预期覆
盖度;(f)根据在每个bin中的预期覆盖度,在对于每个训练样品的每个
bin中调节训练序列标签的覆盖度,从而获得在对于每个训练样品的bin中
训练序列标签的全局配置参数修正的覆盖度;以及(g)产生包含整个参比
基因组的未掩蔽和掩蔽bin的序列掩码,其中每个掩蔽bin具有超过掩蔽阈
值的分布特征,以及提供了分布特征,用于调节在跨整个训练样品的bin
中训练序列标签的覆盖度。
在一些实施方式中,在(e)中针对每个bin确定的预期覆盖度包括训
练样品的覆盖度的中位数或均值。在一些实施方式中,在(f)操作中,调
节训练序列标签的覆盖度包括从针对每个bin的训练序列标签的每个训练
样品的覆盖度减去中位数或均值。在一些实施方式中,通过针对每个bin
的训练序列标签的每个训练样品的覆盖度除以中位数或均值来完成调节。
在一些实施方式中,在感兴趣的核酸序列上的掩蔽bin具有第一掩蔽阈
值以及在归一化序列上的掩蔽bin具有第二掩蔽阈值。在一些实施方式中,
第一掩蔽阈值和第二掩蔽阈值的组合提供这样的序列掩码,其导致在包括
在未受影响的样品中的感兴趣的序列的区域内比利用其他阈值获得的掩码
更低的覆盖度变异。
在一些实施方式中,用于产生序列掩码的方法进一步涉及,在(f)之
后以及在(g)之前,基于在GC含量水平和在每个训练样品中存在的全局
配置参数修正的覆盖度之间的关系,调节针对每个训练样品的bin的全局配
置参数修正的覆盖度,从而获得对于每个训练样品的训练序列标签的样品
-GC-修正的覆盖度。
在一些实施方式中,对于每个训练样品,全局配置参数修正的覆盖度
的调节涉及:将在参比基因组中的所有bin分组为多个GC组,每个GC组
包含具有类似的GC含量的多个bin;对于多个鲁棒常染色体的每个GC组,
确定全局配置参数修正的覆盖度的预期值;以及基于相同GC组的确定的预
期值,对于每个GC组,调节训练序列标签的全局配置参数修正的覆盖度,
从而获得在感兴趣的核酸序列上的训练序列标签的样品-GC-修正的覆盖
度。
在一些实施方式中,全局配置参数修正的覆盖度的预期值是针对多个
鲁棒常染色体的GC组的覆盖度的平均值或中位数。在一些实施方式中,调
节训练序列标签的全局配置参数修正的覆盖度涉及从全局配置参数修正的
覆盖度减去预期值。
在一些实施方式中,对于每个训练样品,调节全局配置参数修正的覆
盖度涉及:将线性或非线性数学函数拟合为来自多个鲁棒常染色体的数据
点,其中每个数据点使覆盖度值相关与GC含量值。然后,基于对于每个
bin的覆盖度的预期值,所述方法调节在每个bin中的训练序列标签的全局
配置参数修正的覆盖度,其等于在bin的GC含量值下数学函数的覆盖度值。
在一些实施方式中,调节训练序列标签的全局配置参数修正的覆盖度
包括从全局配置参数修正的覆盖度减去预期值。在其他实施方式中,覆盖
度除以预期值。
在一些实施方式中,测试样品可以是母体样品,选自血液、血浆、血
清、尿液和唾液样品。在任何一种实施方式中,测试样品可以是血浆样品。
母体样品的核酸分子是胎儿和母体无细胞DNA分子的混合物。可以下一代
测序(NGS)来进行核酸的测序。在一些实施方式中,测序是利用合成法
测序(sequencing-by-synthesis)并借助于可逆染料终止子的大规模平行测序。
在其他实施方式中,测序是连接法测序(sequencing-by-ligation)。在其他
实施方式中,测序是单分子测序。可选地,在测序之前,进行扩增步骤。
另一种实施方式提供了用于在测试样品中确定感兴趣的核酸序列(例
如,临床相关序列)的拷贝数变异(CNV)的方法。所述方法评价感兴趣
的序列的拷贝数变异,而不是完整的染色体或染色体的片段。
在用计算机系统实施的某些实施方式中,针对每一个或多个感兴趣的
染色体或感兴趣的染色体片段确定的序列标签的数目为至少约10,000、或
至少约100,000。
所披露的实施方式还提供了计算机程序产品,该产品包括非临时性计
算机可读介质,其上提供程序指令,用于执行列举的操作和本文描述的其
他计算操作。
一些实施方式提供了用于评价在测试样品中的感兴趣的核酸序列的拷
贝数的系统。上述系统包括:测序仪,用于接收来自测试样品的核酸,从
而提供来自样品的核酸序列信息;处理器;以及一个或多个计算机可读存
储介质,在其上已存储用于用所述处理器加以执行的指令,以利用本文列
举的方法来评价在测试样品中的拷贝数。
在一些实施方式中,方法另外包括测序所述测试样品的至少一部分的
所述核酸分子以获得关于所述测试样品的所述胎儿和母体核酸分子的所述
序列信息。上述测序可能涉及对来自母体测试样品的母体和胎儿核酸的大
规模平行测序以产生序列读数。
虽然在此这些实例涉及人类并且语言主要针对人类问题,但是本发明
的概念也适用于来自任何植物或动物的基因组。依据下文的描述和所附的
权利要求,本公开内容的这些和其他的目的和特征将变得更充分显而易见
的,或可以通过如下文阐述的公开内容的实践来实现。
通过引用并入
所有专利、专利申请、和其他出版物,包括在这些参考文献中披露的、
在本文中提及的所有序列,以引用方式明确地并入本文。在相关部分中,
引用的所有文件的全部内容以引用方式结合于本文。然而,任何文件的引
用不应当被解释为承认它是关于本公开内容的现有技术。
附图说明
图1是用于在包含核酸的混合物的测试样品中确定拷贝数变异的存在
或不存在的方法100的流程图。
图2描述了用来确定用于拷贝数的评价的感兴趣的核酸序列的覆盖度
的过程的流程图。
图3A示出用于在来自测试样品的序列数据中减少噪声的过程的一个
实施例的流程图。
图3B-3K呈现在图3A中描述的过程的不同阶段获得的数据的分析。
图4A示出过程的流程图,上述过程用于产生序列掩码,其用于减少在
序列数据中的噪声。
图4B表明,MapQ得分与归一化覆盖度量CV具有单调的强相关性。
图5是用于处理测试样品并最终作出诊断的分散系统的框图。
图6示意性地说明,在处理测试样品中的不同的操作如何可以被分组
以由系统的不同元件来处理。
图7A和7B示出根据在实施例1a中描述的方法简化方法(图7A)以
及在实施例1b中描述的方法方法(图7B)所制备的cfDNA测序文库的电
泳图。
图8示出来自118个双胞胎妊娠的母体血浆样品的归一化染色体值
(NCV)分布。(A)染色体21和18的NCV分布,三个样品被分类为T21
受影响的(包括对于T21的嵌合体(mosaic)胎儿)以及一个样品被分类
为T18受影响的。(B)Y染色体的NCV分布。将群组分为临床上被分类
为雌性/雌性的样品或含有至少一个雄性胎儿的样品(雄性/雌性和雄性/雄
性)并利用针对Y染色体的NCV来确定Y染色体的存在。
图9示出在NIPT研究中分析的双胞胎样品。在各种研究中使用的双胞
胎样品的数目,以评价市售NIPT测试的性能。
发明详述
披露的实施方式涉及用于评价在包含胎儿和母体无细胞核酸的测试样
品中Y染色体的拷贝数的方法、装置、和系统。在一些实施方式中,感兴
趣的序列包括基因组片段序列,其范围为,例如,千碱基(kb)至兆碱基
(Mb)至整个染色体,其已知或疑似相关与遗传或疾病状况。在一些实施
方式中,Y染色体的拷贝数用来确定胎儿性别。在一些实施方式中,根据
本方法可以确定的CNV包括性Y染色体的单体性和三体性(例如47,XXY
和47,XYY),性染色体的其他多体性如四体性和五体性(例如XXXXY和
XYYYY),以及任何一个或多个性染色体的片段的缺失和/或复制。感兴趣
的序列的其他实例包括相关与众所周知的非整倍体的染色体,例如,三体
性XXX、三体性21、以及在疾病如癌症中倍增的染色体的片段,例如,在
急性髓细胞样白血病中的部分三体性8。
除非另有说明,本文披露的方法和系统的实践涉及常规技术和在分子
生物学、微生物学、蛋白纯化、蛋白质工程、蛋白质和DNA测序、以及重
组DNA领域中通常使用的仪器,其是在本领域的技术范围内。这样的技术
和仪器是本领域技术人员已知的并且描述于众多的教科书和参考著作(参
见例如,Sambrook等人,“MolecularCloning:ALaboratoryManual,”第三版
(ColdSpringHarbor),[2001]);以及Ausubel等人,“CurrentProtocolsin
MolecularBiology”[1987])。
数值范围包括限定范围的数字。意图是,在整个本说明书中给出的每
个最大数值限度包括每个较低数值限度,好像在本文中明确写入这样的较
低数值限度。在整个本说明书中给出的每个最小数值限度将包括每个较高
数值限度,好像在本文中明确写入这样的较高数值限度。在整个本说明书

中给出的每个数值范围将包括在上述较宽数值范围之内的每个较窄数值范
围,好像在本文中均明确写入这样的较窄数值范围。
本文中提供的标题并不旨在限制本公开内容。
除非本文中另有定义,本文中使用的所有技术和科学术语具有和本领
域普通技术人员通常理解的相同的含义。包括在本文中包括的术语的各种
科学词典是众所周知的并且是本领域技术人员可获得的。虽然类似或等同
于本文描述的那些方法和材料的任何方法和材料可用于本文披露的实施方
式的实践或测试,但描述了一些方法和材料。
通过参照作为整体的说明书来更全面地描述下文马上定义的术语。应
当理解的是,本公开内容不限于所描述的特定的方法、方法、和试剂,因
为它们可以变化,其取决于本领域技术人员使用它们的上下文。
定义
如在本文中所使用的,单数术语“一个”、“一种”和“该”包括复数对象(除
非上下文另外明确指出)。
除非另外指明,对应地,核酸是按5′到3′方向从左到右书写并且氨基
酸序列是按氨基到羧基方向从左到右书写。
当在本文中在分析核酸样品的CNV的情况下使用时,术语“评价”是指
通过三种类型的调用之一来表征染色体或片段非整倍体的状态:“正常的”
或“未受影响的”、“受影响的”、和“无调用的”。通常设置用于调用正常的和
受影响的阈值。在样品中测量涉及到非整倍体或其他拷贝数变异的参数并
将测量值相比于阈值。对于复制型非整倍体,如果染色体或片段剂量(或
其他测量值序列含量)是高于受影响的样品的定义的阈值设置,则进行受
影响的的调用。对于这样的非整倍体,如果染色体或片段剂量是低于针对
正常的样品的阈值设置,则进行正常的的调用。相比之下,对于缺失型非
整倍体,如果染色体或片段剂量是低于针对受影响的样品所定义的阈值,
则进行受影响的的调用,以及如果染色体或片段剂量是高于针对正常的样
品的阈值设置,则进行正常的的调用。例如,在三体性的存在下,由参数
值,例如,低于用户定义的可靠性阈值的测试染色体剂量,来确定“正常的”
调用,以及由参数,例如,测试染色体剂量,其是高于用户定义的可靠性
阈值,来确定“受影响的”调用。由参数,例如,位于进行“正常的”或“受影
响的”调用的阈值之间的测试染色体剂量,来确定“无调用的”结果。术语“无
调用的”与“未分类的”互换使用。
术语“拷贝数变异”在本文中是指,和在参比样品中存在的核酸序列的拷
贝数比较,在测试样品中存在的核酸序列的拷贝的数目的变化。在某些实
施方式中,核酸序列是1kb或更大。在一些情况下,核酸序列是全染色体

或其显著部分。“拷贝数变异体(variant)”是指通过比较在测试样品中的感
兴趣的序列与存在于合格样品中的序列,其中发现的拷贝数差异为1kb或
更大的核酸的序列。拷贝数变异体/变异包括缺失(包括微缺失)、插入(包
括微插入)、复制、倍增、倒位、易位和复杂的多位点变异体。CNV涵盖
染色体性非整倍性和部分非整倍性。
术语“非整倍性”在本文中是指由获得或丢失整个染色体、或染色体的一
部分而引起的遗传物质的不平衡。
术语“染色体非整倍性”和“完全染色体非整倍性”在本文中是指由全染
色体的获得或丢失所引起的遗传物质的失衡,并且包括种系非整倍性和嵌
合性非整倍性。
术语“部分非整倍性”和“部分染色体非整倍性”在本文中是指由部分染
色体(例如,部分单体性和部分三体性)的获得或丢失所引起的遗传物质
的失衡,并且涵盖来自易位、缺失和插入的失衡。
术语“多个/多种”在本文中是用于提及一定数目的核酸分子或序列标
签,该数目在使用本发明的方法的测试样品和合格样品中足以识别拷贝数
变异(例如染色体剂量)中的显著性差异。在一些实施方案中,对于每一
测试样品获得了包括在20和40bp读数之间的至少约3×106个序列标签、
至少约5×106个序列标签、至少约8×106个序列标签、至少约10×106个序列
标签、至少约15×106个序列标签、至少约20×106个序列标签、至少约30×106个序列标签、至少约40×106个序列标签、或至少约50×106个序列标签。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用并且是指核苷酸的共
价连接序列(即,用于RNA的核糖核苷酸和用于DNA的脱氧核糖核苷酸),
其中通过磷酸二酯基团将一个核苷酸的戊糖的3’位连接于下一个核苷酸的
戊糖的5’位。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和
DNA分子如cfDNA分子。术语“多核苷酸”包括但不限于单链和双链多核苷
酸。
术语“部分”在本文中用来指在生物样品中胎儿和母体核酸分子的序列
信息的量,其总量小于1个人类基因组的序列信息。
术语“测试样品”在本文中是指这样的样品,其通常来源于生物液体、细
胞、组织、器官、或生物体,其包含核酸或核酸的混合物,其包含要被筛
查拷贝数变异的至少一个核酸序列。在某些实施方式中,上述样品包含至
少一种核酸序列,其拷贝数被疑似已经历变化。这样的样品包括但不限于
痰/口腔液、羊水、血液、血液部分、或细针活检样品(例如,手术活检、
细针活检等)、尿、腹腔液、胸膜液等。虽然上述样品经常取自人受试者
(例如,患者),但上述测定可以用于在来自任何哺乳动物的样品中的拷

贝数变异(CNV),包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。
当获自生物源或在用来改变样品的特性的预处理之后,可以直接使用上述
样品。例如,这样的预处理可以包括从血液制备血浆,稀释粘性液体等。
预处理的方法可能还涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、
冷冻、冷冻干燥、浓缩、扩增、核酸片段化、干扰成分的灭活、试剂的添
加、裂解等。如果针对上述样品,采用这样的预处理方法,则这样的预处
理方法通常是如此以致感兴趣的核酸留在测试样品中,有时具有正比于在
未经处理的测试样品中的浓度的浓度(例如,即未经受任何这样的预处理
方法的样品)。针对本文描述的方法,这样的“处理过的”样品仍然被认为是
生物“测试”样品。
术语“合格样品”或“未受影响的样品”在本文中是指这样的样品,其包含
以已知的拷贝数(在测试样品中的核酸将与其比较)存在的核酸的混合物,
并且对于感兴趣的核酸序列,它是正常的样品,即,不是非整倍体。在一
些实施方式中,合格样品用作训练集的未受影响的训练样品,以得到序列
掩码或序列分布图。在某些实施方式中,合格样品用于确定一个或多个归
一化染色体或用于在考虑中的染色体的片段。例如,合格样品可以用于确
定染色体21的归一化染色体。在这种情况下,合格样品是这样的样品,其
不是三体性21样品。另一个实施例涉及仅利用女性作为用于X染色体的合
格样品。合格样品还可以用于其他目的如确定用于调用受影响的样品的阈
值,确定用于定义在参比序列上的掩码区的阈值,确定针对基因组的不同
区的预期覆盖度量等。
术语“训练集”在本文中是指一组训练样品,其可以包含受影响的和/或
未受影响的样品并且用来开发用于分析测试样品的模型。在一些实施方式
中,上述训练集包括未受影响的样品。在这些实施方式中,利用对于感兴
趣的拷贝数变异未受影响的样品的训练集来建立用于确定CNV的阈值。在
训练集中的未受影响的样品可以用作合格样品来确定归一化序列,例如,
归一化染色体,以及未受影响的样品的染色体剂量用来设定对于感兴趣的
每个序列,例如,染色体,的阈值。在一些实施方式中,训练集包括受影
响的样品。在训练集中的受影响的样品可以用来确认,受影响的测试样品
可以容易地区别与未受影响的样品。
“训练集”在本文中还用于指感兴趣的群体的统计样品的一组个体,上述
个体用来确定适用于群体的感兴趣的一个或多个定量值的数据。统计样品
是在感兴趣的群体中的一个子集的个体。上述个体可以是人、动物、组织、
细胞、其他生物样品(即,统计样品可以包括多种生物样品),以及其他
个别实体提供用于统计分析的数据点。
通常,连同验证集(validationset)一起来使用训练集。在本文中参照
在统计样品中的一组个体来使用术语“验证集”,所述个体的数据用来验证或
评价利用训练集确定的感兴趣的定量值。在一些实施方式中,例如,训练
集提供用于计算参比序列的掩码的数据,验证集提供用来验证或评价掩码
的数据。
“拷贝数的评价”在本文中用来指涉及到序列的拷贝数的基因序列的状
态的统计评价。例如,在一些实施方式中,评价包括确定基因序列的存在
或不存在。在一些实施方式中,评价包括确定基因序列的部分或完全非整
倍体。在其他实施方式中,评价包括基于基因序列的拷贝数来区别两个或
更多的样品。在一些实施方式中,评价包括基于基因序列的拷贝数的统计
分析,例如,归一化和比较。
术语“合格核酸”与“合格序列”互换使用,其是这样的序列,相对于其比
较测试序列或测试核酸的量。合格序列是在生物样品中存在的序列,其优
选具有已知的表示,即,合格序列的量是已知的。通常,合格序列是在“合
格样品”中存在的序列。“感兴趣的合格序列”是这样的合格序列,在合格样
品中其量是已知的,并且是这样的序列,其相关与在具有医学状况的个体
中序列表示的差异。
术语“感兴趣的序列”或“感兴趣的核酸序列”在本文中是指这样的核酸
序列,其相关与在健康与患病个体中序列表示的差异。感兴趣的序列可以
是在疾病或遗传病下在染色体上所表示的序列,即,过度表示或表示不足
的。感兴趣的序列可以是染色体的一部分,即,染色体片段,或全染色体。
例如,感兴趣的序列可以是在非整倍体的条件下过度表示的染色体,或在
癌症中表示不足的编码肿瘤抑制子的基因。感兴趣的序列包括在总群体、
或受试者细胞的亚群中过度表示或表示不足的序列。“感兴趣的合格序列”
是在合格样品中的感兴趣的序列。“感兴趣的测试序列”是在测试样品中的感
兴趣的序列。
术语“归一化序列”在本文中是指这样的序列,其用来归一化映射到相关
与归一化序列的感兴趣的序列的序列标签的数目。在一些实施方式中,归
一化序列包含鲁棒染色体。“鲁棒染色体”是一种染色体,其不可能是非整倍
体。在涉及人染色体的一些情况下,鲁棒染色体是不同于X染色体、Y染
色体、染色体13、染色体18、和染色体21的任何染色体。在一些实施方
式中,归一化序列显示在样品中映射到它的序列标签的数目的变异性以及
测序运行,其接近对其他用作归一化参数的感兴趣的序列的变异性。归一
化序列能够区分受影响的样品与一个或多个未受影响的样品。在一些实施
方式中,当相比于其他潜在的归一化序列如其他染色体时,归一化序列最

好或有效地区分受影响的样品与一个或多个未受影响的样品。在一些实施
方式中,归一化序列的变异性被计算为针对整个样品和测序运行的感兴趣
的序列的染色体剂量的变异性。在一些实施方式中,在一组不受影响的的
样品中确定归一化序列。
“归一化染色体”、“归一化分母染色体”、或“归一化染色体序列”是“归
一化序列”的实例。“归一化染色体序列”可以由单染色体或一组染色体组成。
在一些实施方式中,归一化序列包括两个或更多的鲁棒染色体。在某些实
施方式中,鲁棒染色体是不同于染色体X、Y、13、18、和21的所有常染
色体。“归一化片段”是“归一化序列”的另一个实例。“归一化片段序列”可以
由染色体的单片段组成,或它可以由相同或不同染色体的两个或更多片段
组成。在某些实施方式中,归一化序列旨在归一化变异性如过程相关的、
染色体间的(运行内)、和测序间的(运行间)变异性。
术语“可微性”在本文中是指归一化染色体的特性,其使得能够区分一个
或多个未受影响的,即,正常的,样品与一个或多个受影响的,即,非整
倍体,样品。显示最大“可微性”的归一化染色体是这样染色体或染色体组,
其提供在针对在一组合格样品中的感兴趣的染色体的染色体剂量和针对在
一个或多个受影响的样品中的在相应染色体中感兴趣的相同染色体的染色
体剂量的分布之间的最大的统计学差异。
术语“变异性”在本文中是指归一化染色体的另一特性,其使得能够区分
一个或多个未受影响的,即,正常的,样品与一个或多个受影响的,即,
非整倍体,样品。归一化染色体的变异性,其是在一组合格样品中加以测
量,是指被映射到它的序列标签的数目的变异性,其接近被映射到感兴趣
的染色体的序列标签的数目的变异性,对其他作为归一化参数。
术语“序列标签密度”在本文中是指被映射到参比基因组序列的序列读
数的数目,例如,针对染色体21的序列标签密度是通过测序方法产生的被
映射到参比基因组的染色体21的序列读数的数目。
术语“序列标签密度比”在本文中是指被映射到参比基因组的染色体,例
如,染色体21,的序列标签的数目与参比基因组染色体的长度的比率。
术语“序列剂量”在本文中是指这样的参数,其相关针对感兴趣的序列确
定的序列标签的数目和针对归一化序列确定的序列标签的数目。在一些情
况下,序列剂量是针对感兴趣的序列的序列标签覆盖度与针对归一化序列
的序列标签覆盖度的比率。在一些情况下,序列剂量是指这样的参数,其
使感兴趣的序列的序列标签密度相关与归一化序列的序列标签密度。“测试
序列剂量”是这样的参数,其使在测试样品中确定的感兴趣的序列,例如,
染色体21,的序列标签密度相关与归一化序列,例如,染色体9,的序列

标签密度。同样地,“合格序列剂量”是这样的参数,其使感兴趣的序列的序
列标签密度相关与在合格样品中确定的归一化序列的序列标签密度。
术语“覆盖度”是指映射到限定序列的序列标签的丰度。可以通过序列标
签密度(或序列标签的计数)、序列标签密度比、归一化覆盖度量、调节
的覆盖度值等来定量地表示覆盖度。
术语“覆盖度量”是原始覆盖度的修正并且经常表示在基因组的区如bin
中序列标签的相对量(有时被称为计数)。可以通过归一化、调节和/或修
正基因组的区的原始覆盖度或计数来获得覆盖度量。例如,可以通过映射
到一个区的序列标签计数除以映射到整个基因组的总数序列标签来获得针
对上述区的归一化覆盖度量。归一化覆盖度量允许比较整个不同样品的bin
的覆盖度,其可以具有不同深度的测序。它不同于序列剂量,因为后者通
常是通过除以映射到整个基因组的一个子集的标记计数来获得。上述子集
是归一化片段或染色体。覆盖度量,无论是否被归一化,可以针对在基因
组上的不同区的全局配置参数变化、G-C分数变化、在鲁棒染色体中的离
群等加以修正。
术语“下一代测序(NGS)”在本文中是指这样的测序方法,其允许克隆
扩增分子和单核酸分子的大规模平行测序。NGS的非限制性实例包括利用
可逆染料终止子的合成测序,以及连接测序。
术语“参数”在本文中是指表征物理性能的数值。经常地,参数数值上表
征定量数据集和/或在定量数据集之间的数值关系。例如,在映射到染色体
的序列标签的数目和上述标记对其映射的染色体的长度之间的比率(或比
率的函数)是一种参数。
术语“阈值”和“合格阈值”在本文中是指任何数字,其用作截止值来表征
样品如含有来自疑似具有医学状况的生物体的核酸的测试样品。阈值可以
相比于参数值,以确定引起这样的参数值的样品是否提示生物体具有医学
状况。在某些实施方式中,合格阈值是利用合格数据集加以计算并作为在
生物体中拷贝数变异的诊断的限制,例如,非整倍体。如果获自本文披露
的方法的结果超过阈值,由受试者可以被诊断为具有拷贝数变异,例如,
三体性21。可以通过分析针对样品的训练集计算的归一化值(例如染色体剂
量,NCV或NSV)来确定针对本文描述的方法的合适的阈值。可以利用在
包含合格(即,未受影响的)样品和受影响的样品的训练集中的合格(即,
未受影响的)样品来确定阈值。在已知具有染色体非整倍体的训练集中的
样品(即,受影响的样品)可以用来证实,选择的阈值可以用于区分在测
试组中的受影响的与未受影响的样品(见本文的实施例)。阈值的选择取
决于用户为进行分类所希望具有的置信水平。在一些实施方式中,用来识

别合适的阈值的训练集包含至少10、至少20、至少30、至少40、至少50、
至少60、至少70、至少80、至少90、至少100、至少200、至少300、至
少400、至少500、至少600、至少700、至少800、至少900、至少1000、
至少2000、至少3000、至少4000、或更多合格样品。可能有利的是,使用
较大集的合格样品来改善阈值的诊断效用。
术语“bin”是指序列的片段或基因组的片段。在一些实施方式中,bin是
彼此邻接并在基因组或染色体内通过位置分开。每个bin可以限定在参比基
因组中核苷酸的序列。bin的尺寸可以是1kb、100kb、1Mb等,其取决于
特定应用所需要的分析和序列标签密度。除它们在参比序列内的位置之外,
bin可以具有其他特性如样品覆盖度和序列结构特性如G-C分数。
术语“掩蔽阈值”在本文中用来指这样的量,相对于其来比较基于在序列
bin中的序列标签的数目的值,其中具有超过掩蔽阈值的值的bin被掩蔽。
在一些实施方式中,掩蔽阈值可以是百分等级、绝对计数、映射质量得分、
或其他合适的值。在一些实施方式中,掩蔽阈值可被定义为整个多个未受
影响的样品的变异系数的百分等级。在其他实施方式中,掩蔽阈值可被定
义为映射质量得分,例如,MapQ得分,其涉及到比对序列读数与参比基因
组的可靠性。注意,掩蔽阈值不同于拷贝数变异(CNV)阈值,后者是截
止值以表征这样的样品,其含有来自疑似具有涉及到CNV的医学状况的生
物体的核酸。在一些实施方式中,相对于在本文中别处描述的归一化染色
体值(NCV)或归一化片段值(NSV)来定义CNV阈值。
术语“归一化值”在本文中是指这样的数值,其使针对感兴趣的序列(例
如染色体或染色体片段)确定的序列标签的数目相关与针对归一化序列(例
如归一化染色体或归一化染色体片段)确定的序列标签的数目。例如,“归
一化值”可以是如在本文中别处描述的染色体剂量,或它可以是NCV,或它
可以是如在本文中别处描述的NSV。
术语“读数”是指来自一部分核酸样品的序列读数。通常,虽然不一定,
读数表示在样品中相邻碱基对的短序列。可以通过样品部分的碱基对序列
(用ATCG)来用符号表示读数。它可以被存储在存储器件中并酌情被处
理以确定它是否匹配参比序列或满足其他标准。读数可以直接获自测序仪
器或间接获自涉及样品的存储的序列信息。在一些情况下,读数是足够长
度(例如,至少约25个bp)的DNA序列,其可以用来确定较大序列或区,
例如,其可以被比对以及具体地指定于染色体或基因组区或基因。
术语“基因组读取”用来指在个体的整个基因组中任何片段的读数。
术语“序列标签”在本文中与术语“映射的序列标签”互换使用以指这样
的序列读数,通过比对,其已被具体地指定,即,映射至较大序列,例如,

参比基因组。映射的序列标签被独特映射到参比基因组,即,它们被指定
于到参比基因组的单个位置。除非另有规定,映射到在参比序列上的相同
序列的标记被计数一次。可以作为数据结构或数据的其他集合来提供标记。
在某些实施方式中,标记含有读数序列和上述读数的相关信息如序列在基
因组中的位置,例如,在染色体上的位置。在某些实施方式中,位置指向
正链方向。可以定义标记以在与参比基因组的比对中提供有限量的错配。
在一些实施方式中,可以被映射到在参比基因组上的一个以上的位置的标
记,即,并不独特映射的标记,可以不包括在分析中。
术语“非冗余序列标签”是指并不映射到同一位点的序列标签,其被计
数,借以在一些实施方式中确定归一化染色体值(NCV)。有时将多个序
列读数比对于在参比基因组上的同样位置,从而产生多余的或重复的序列
标签。在一些实施方式中,映射到同样位置的重复序列标签被省略或计数
为一个“非冗余序列标签”,借以确定NCV。在一些实施方式中,比对于未
排除的位点的非冗余序列标签被计数以产生用于确定NCV的“非排除位点
计数”(NES计数)。
术语“位点”是指在参比基因组上的独特位置(即,染色体ID、染色体位
置和方向)。在一些实施方式中,位点可以是在序列上残基、序列标签、
或片段的位置。
“排除的位点”是在参比基因组的区中发现的已被排除的位点,借以计数
序列标签。在一些实施方式中,排除的位点存在于含有重复序列的染色体
的区,例如,着丝粒和端粒,以及是一个以上的染色体共有的染色体的区,
例如,存在于Y染色体上的区,其还存在于X染色体上。
“未排除的位点”(NES)是在参比基因组中未排除的位点,借以计数序
列标签。
“非排除位点计数”(NES计数)是被映射到在参比基因组上的NES的
序列标签的数目。在一些实施方式中,NES计数是映射到NES的非冗余序
列标签的数目。在一些实施方式中,覆盖度和相关参数如归一化覆盖度量、
全局配置参数去除的覆盖度量、和染色体剂量是基于NES计数。在一个实
例中,染色体剂量被计算为针对感兴趣的染色体的NES计数的数目与针对
归一化染色体的NES计数的数目的比率。
归一化染色体值(NCV)使测试样品的覆盖度相关与一组训练/合格样品
的覆盖度。在一些实施方式中,NCV是基于染色体剂量。在一些实施方式
中,NCV涉及到在测试样品中感兴趣的染色体的染色体剂量和在一组合格
样品中相应染色体剂量的平均值之间的差异,其作为并可以被计算为:
NCVij=xij-μ^jσ^j]]>其中和分别是估计的平均值和标准偏差,其是针对在一组合格样品
中的第j个染色体剂量,以及xij是针对测试样品i所观测到的第j个染色体
比率(剂量)。
在一些实施方式中,可以通过使在测试样品中的感兴趣的染色体的染
色体剂量相关于在用同样的流通池测序的多重样品中的相应染色体剂量的
中位数来“在运行中”计算NCV,作为:
MCVij=xij-Mjσ^j]]>其中Mj是在用同样的流通池测序的一组多重样品中针对第j染色体剂
量的估计的中位数,是在用一个或多个流动池测序的一组或多组多重样
品中针对第j染色体剂量的标准偏差,以及xj是针对测试样品i的观测到的
第j染色体剂量。在此实施方式中,测试样品i是用同样的流通池测序的多
重样品之一,据其确定Mj。
例如,对于在测试样品A中的感兴趣的染色体21,其被测序为在一个
流动池上的64个多重样品之一,针对在测试样品A中的染色体21的NCV
被计算为在样品A中染色体21的剂量减去针对在64个多重样品中确定的
染色体21的剂量的中位数,除以针对染色体21对于64个多重样品用流动
池1、或另外的流动池例如20,确定的剂量的标准偏差。
如在本文中所使用的,术语“比对的”、“比对”、或“比对”是指比较读数
或标记与参比序列并从而确定参比序列是否含有读数序列的过程。如果参
比序列含有上述读数,则可以将上述读数映射到参比序列,或在某些实施
方式中,映射到在参比序列中的特定位置。在一些情况下,比对简单地告
诉,读数是否是特定参比序列的数目(即,在参比序列中读数是否是存在
或不存在)。例如,读数与人染色体13的参比序列的比对将告诉,读数是
否存在于染色体13的参比序列中。提供此信息的工具可被称为一组成员资
格测试仪。在一些情况下,比对另外指示在参比序列中其中读数或标记映
射到的位置。例如,如果参比序列是全人类基因组序列,则比对可以表明,
读数是存在于染色体13上,并且可以进一步指示,读数是在染色体13的
特定链和/或位点上。
比对的读数或标记是一个或多个序列,就它们的核酸分子的顺序而言,
其被确定为匹配于来自参比基因组的已知序列。可以手工完成比对,虽然

通常通过计算机算法来实施,因为在合理的时间期限内将不可能比对读数
以实施本文披露的方法。来自比对序列的算法的一个实例是核苷酸数据的
有效的局部比对(ELAND)计算机程序,其被分布为IlluminaGenomics
Analysis流水线的一部分。可替换地,布隆过滤器或类似的集合成员资格测
试仪可以用来比对读数与参比基因组。见2011年10月27日提交的美国专
利申请号61/552,374,其全部内容以引用方式结合于本文。在比对中序列读
数的匹配可以是100%序列匹配或小于100%(非完美匹配))。
术语“比对分布图”用来指比对于位置的序列标签的分布,其可以被确定
为在感兴趣的参比序列中的碱基对bin。
在本文中使用的术语“映射”是指,通过比对,将序列读数具体地指派给
较大序列,例如,参比基因组。
如在本文中所使用的,术语“参比基因组”或“参比序列”是指任何生物体
或病毒的任何特定的已知基因组序列(无论是部分的或完全的),其可以
用来提及来自受试者的确定的序列。例如,在国家生物技术信息中心
(ncbi.nlm.nih.gov)具有用于人受试者以及许多其他生物体的参比基因组。
“基因组”是指用核酸序列表达的生物体或病毒的完整的遗传信息。
在不同的实施方式中,参比序列显著大于待比对于它的读数。例如,
它可以是至少约100倍更大,或至少约1000倍更大,或至少约10,000倍更
大,或至少约105倍更大,或至少约106倍更大,或至少约107倍更大。
在一个实例中,参比序列是全长人类基因组的参比序列。这样的序列
可被称为基因组参比序列。在另一个实例中,参比序列限于具体的人染色
体如染色体13。在一些实施方式中,参比Y染色体是来自人类基因组版本
hg19的Y染色体序列。这样的序列可被称为染色体参比序列。参比序列的
其他实例包括其他物种的基因组、以及任何物种的染色体、亚染色体区(如
链)等。
在不同的实施方式中,参比序列是共有序列或来源于多个个体的其他
组合。然而,在某些应用中,参比序列可以取自特定个体。
术语“临床相关序列”在本文中是指已知或疑似关联或牵连于遗传或疾
病状态的核酸序列。确定临床相关序列的存在或不存在可以用于确定或确
认医学状况的诊断,或针对疾病的发展提供预后。
当在核酸或核酸的混合物的情况下使用时,术语“衍生的”在本文中是指
方式,借此核酸获自它们从其所产生的源。例如,在一种实施方式中,来
源于两个不同的基因组的核酸的混合物是指,核酸,例如,cfDNA,是由
细胞通过天然存在的过程如坏死或凋亡所自然释放。在另一种实施方式中,

来源于两种不同的基因组的核酸的混合物是指,核酸提取自受试者的两种
不同类型的细胞。
当在获得具体定量值的情况下使用时,术语“基于”在本文中是指利用另
一个量作为输入来计算作为输出的具体定量值。
术语“患者样品”在本文中是指这样的生物样品,其获自患者,即,医疗
照顾、护理或治疗的接受者。患者样品可以是本文描述的任何样品。在某
些实施方式中,通过非侵入性程序来获得患者样品,例如,外周血样品或
粪便样品。本文描述的方法不需限于人类。因此,设想各种兽医应用,在
这种情况下,患者样品可以是来自非人哺乳动物(例如,猫、猪、马、牛
等)的样品。
术语“混合样品”在本文中是指含有来源于不同的基因组的核酸的混合
物的样品。
术语“母体样品”在本文中是指这样的生物样品,其获自妊娠受试者,例
如,妇女。
术语“生物液体”在本文中是指取自生物源的液体并且包括,例如,血液、
血清、血浆、痰、灌洗液、脑脊液、尿、精液、汗液、眼泪、唾液等。如
在本文中所使用的,术语“血液”、“血浆”和“血清”明确地涵盖其部分或处理
的部分。同样地,在样品取自活检、拭子、涂片等的情况下,“样品”明确地
涵盖来源于活检、拭子、涂片等的处理过的部分。
术语“母体核酸”和“胎儿核酸”在本文中分别是指妊娠雌性受试者的核
酸和由妊娠雌性携带的胎儿的核酸。
如在本文中所使用的,术语“对应于”有时是指核酸序列,例如,基因或
染色体,其存在于不同受试者的基因组中,并且其在所有基因组中不一定
具有相同序列,但用来提供同一性而不是感兴趣的序列,例如,基因或染
色体,的遗传信息。
如在本文中所使用的,连同所希望的样品一起使用的术语“基本上无细
胞的”涵盖所希望的样品的制备,从其除去通常相关与样品的细胞成分。例
如,通过除去通常相关与它的血细胞,例如,红细胞,来使血浆样品成为
基本上无细胞的。在一些实施方式中,处理基本上无细胞的样品以除去否
则将有助于待测试CNV的所希望的遗传物质的细胞。
如在本文中所使用的,术语“胎儿分数”是指在包含胎儿和母体核酸的样
品中存在的胎儿核酸的分数。胎儿分数经常用来表征在母体血液中的
cfDNA。
如在本文中所使用的,术语“染色体”是指活细胞的承载遗传的基因载
体,其来源于染色质链,其包含DNA和蛋白质成分(尤其是组蛋白)。在
本文中采用了传统的国际公认的个体人类基因组染色体编号系统。
如在本文中所使用的,术语“多核苷酸长度”是指在序列中或在参比基因
组的区中核酸分子(核苷酸)的绝对数目。术语“染色体长度”是指以碱基对
给出的染色体的已知长度,例如,提供在人染色体的NCB136/hg18装配中,
见在万维网上的
|genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=。
术语“受试者”在本文中是指人受试者以及非人受试者如哺乳动物、无脊
椎动物、脊椎动物、真菌、酵母、细菌、和病毒。虽然本文的实施例关注
人类以及语言主要涉及人文关怀,但本文披露的概念适用于来自任何植物
或动物的基因组,并且可用于兽医领域、动物科学、研究实验室等等。
术语“状况”在本文中是指“医学状况”,作为广义的术语,其包括所有疾
病和病症,但可以包括[受伤]和正常的健康状况,如妊娠,其可能会影响人
的健康、来自医疗帮助的益处,或对于医学治疗有影响。
当参照染色体非整倍体使用时,术语“完全的”在本文中是指整个染色体
的增益或损失。
当参照染色体非整倍体使用时,术语“部分的”在本文中是指染色体的一
部分,即,片段,的增益或损失。
术语“嵌合(mosaic)”在本文中是指在已发育自单受精卵的一个个体中
存在具有不同核型的细胞的两个群体。嵌合性可能源于在发育过程中的突
变,其仅被传播到成体细胞的一个子集。
术语“非嵌合(non-mosaic)”在本文中是指生物体,例如,人胎儿,其
由一种核型的细胞组成。
当参照确定染色体剂量使用时,术语“使用染色体”在本文中是指使用针
对染色体获得的序列信息,即,针对染色体获得的序列标签的数目。
如在本文中所使用的,术语“灵敏度”等于真阳性的数目除以真阳性和假
阴性的总和。
如在本文中所使用的,术语“特异性”等于真阴性的数目除以真阴性和假
阳性的总和。
术语“富集”在本文中是指以下过程:扩增包含在部分母体样品中的多态
目标核酸,并结合扩增产物与从其除去部分的母体样品的剩余物。例如,
母体样品的剩余物可以是原始母体样品。
术语“原始母体样品”在本文中是指获自妊娠受试者的非富集的生物样
品,例如,妇女,其作为从其除去部分以扩增多态目标核酸的源。“原始样

品”可以是获自妊娠受试者的任何样品、以及其经处理的部分,例如,提取
自母体血浆样品的纯化的cfDNA样品。
如在本文中所使用的,术语“引物”是指分离的寡核苷酸,当放置在诱导
延伸产物的合成的条件下时(例如,上述条件包括核苷酸、诱导剂如DNA
聚合酶、以及适宜的温度和pH),其能够作为合成的引发点。引物优选是
单链,以获得最大扩增效率,但可以可替换地是双链。如果是双链,则首
先处理引物以在用来制备延伸产物之前分离其链。优选地,引物是寡脱氧
核苷酸。引物必须足够长以在诱导剂的存在下引发延伸产物的合成。引物
的确切长度将取决于许多因素,包括温度、引物源、方法的使用、以及用
于引物设计的参数。
短语“导致待给予”是指由医疗专业人士(例如,医师)或控制或指导受
试者的医疗保健的人采取的操作,其控制和/或允许将所考虑的剂/化合物给
予受试者。导致待给予可能涉及诊断和/或适当的治疗或预防方案的确定,
和/或为受试者规定特定剂/化合物。这样的规定可以包括,例如,起草处方
组成、注解医疗记录等。同样地,“导致待实施”,例如,对于诊断程序,是
指由医疗专业人士(例如,医师)或控制或指导受试者的医疗保健的人采
取的操作,其控制和/或允许对受试者执行一个或多个诊断方法方法。
引言本文披露了方法、装置、和系统,用于确定在测试样品中感兴趣的不
同序列的拷贝数和拷贝数变异(CNV),其中上述测试样品包含来源于两
个或更多个不同的基因组的核酸的混合物,并且其已知或被疑似在一个或
多个感兴趣的序列的量上有所不同。通过本文披露的方法和仪器确定的拷
贝数变异包括整个染色体的增益或损失,涉及显微镜下可见的非常大的染
色体片段的变化,以及DNA片段的亚微观拷贝数变异的丰度,在尺寸方面,
其范围为单核苷酸至千碱基(kb)、至兆碱基(Mb)。
在一些实施方式中,提供了利用含有母体和胎儿无细胞DNA的母体样
品来确定胎儿的拷贝数变异(CNV)的方法。本文披露的一些实施方式提
供了通过除去样品中GC含量偏差来改善序列数据分析的灵敏度和/或特异
性的方法。在一些实施方式中,样品中GC含量偏差的除去是基于针对通用
于不受影响的训练样品的系统性变化修正的序列数据。
披露的一些实施方式提供了低噪声和高信号地确定序列覆盖度量的方
法,从而提供数据来确定涉及到拷贝数和CNV的各种遗传病症,相对于通
过常规方法所获得的序列覆盖度量,其具有改善的灵敏度、选择性、和/或
效率。已发现上文描述的方法,在具有相对低分数的来自在考虑中的基因
组(例如,胎儿的基因组)的DNA的样品中,特别有效地改善信号。这样

的样品的一个实例是来自怀上假性双胞胎、三胎等的个体的母体血液样品,
其中所述方法评价在胎儿之一的基因组中的拷贝数变异。
所述方法适用于确定任何胎儿非整倍性的CNV,以及已知或疑似相关
与各种各样的医学状况的CNV。在涉及人受试者的一些实施方式中,根据
本方法可以确定的CNV包括任何一个或多个染色体1-22、X和Y的三体性
和单体性、其他染色体多体性、以及任何一个或多个染色体的片段的缺失
和/或复制,其可以通过测序测试样品的核酸仅一次加以检测。任何非整倍
体可以确定自通过测序测试样品的核酸仅一次所获得的测序信息。
在人类基因组中的CNV显著影响人类多样性和对疾病的易感性
(Redon等人,Nature23:444-454[2006],Shaikh等人,GenomeRes
19:1682-1690[2009])。CNV已经被知道通过不同的机制有助于遗传疾病,
从而导致基因剂量的失衡或基因破坏(在大多数情况下)。除它们直接相
关与遗传紊乱之外,已知CNV会调节可能是有害的表型改变。最近,若干
研究已报道了,当相比于正常对照时,在杂的疾病如自闭症、ADHD、和精
神分裂症中稀有或从头CNV的增加的负担,其强调了稀有或特有CNV的
潜在的致病性(Sebat等人,316:445-449[2007];Walsh等人,Science320:539
-543[2008])。CNV产生于基因组重排,其主要是由于缺失、复制、插入、
和不平衡的易位事件。
本文描述的方法和仪器可以采用下一代测序技术(NGS),其是大规
模平行测序。在某些实施方式中,在流动池内,以大规模平行方式来测序
克隆扩增的DNA模板或单个DNA分子(例如在Volkerding等人.ClinChem
55:641-658[2009];MetzkerMNatureRev11:31-46[2010]中所描述的)。除
高通量序列信息之外,NGS还提供定量信息,这是因为每个序列读数是表
示个体克隆DNA模板或单个DNA分子的可计数“序列标签”。NGS的测序
技术包括焦磷酸测序、借助于可逆染料终止子的合成测序、通过寡核苷酸
探针连接的测序、和离子半导体测序。在单测序运行中,可以单独测序(即,
单重测序)来自个体样品的DNA或可以汇集来自多个样品的DNA并测序
为索引基因组分子(即,多重测序),以产生DNA序列的高达数亿读数。
下文描述了根据本方法可以用来获得序列信息的测序技术的实例。
利用DNA样品的各种CNV分析涉及将来自测序仪的序列读数比对或
映射到参比序列。参比序列可以是全基因组的序列、染色体的序列、亚染
色体区的序列等。相比于常染色体,由于参比序列的特性,Y染色体的CNV
的诊断涉及高难度的技术挑战,这是因为Y染色体的覆盖度低于常染色体
的覆盖度,并且在Y染色体上的重复序列复杂化读数映射到它们的正确位
置。存在通过目前NGS技术可访问的约10Mb的独特的Y序列,但在胎儿

诊断中性别检测仍然是具有挑战性的任务,其中在母体样品中胎儿cfDNA
的量是至少数量级低于母体DNA的量,从而强调了非特异性映射的问题。
另外,目前一些测序方法利用超短读取如25聚体读取和标记。在测序
方法的方法中利用的超短测序产生短读数长度,其对于序列比对提出了技
术挑战,这是因为近一半的人类基因组被重复序列覆盖,其中它们中的许
多已经知道大约几十年。从计算的角度来看,在比对中重复序列产生歧义,
其转而甚至在全染色体计数水平下也可以产生偏差和差错。
评价CNV用于确定CNV的方法相对于利用通过常规方法获得的序列覆盖度值,利用通过本文披露的
方法提供的序列覆盖度值,可以确定涉及到序列、染色体、或染色体片段
的拷贝数和CNV的各种遗传病症,并具有改善的灵敏度、选择性、和/或效
率。例如,在一些实施方式中,掩蔽的参比序列用于在包含胎儿和母体核
酸分子的母体测试样品中确定任何两种或更多种不同的完整胎儿染色体非
整倍体的存在或不存在。以下提供的示例性方法比对读数与参比序列(包
括参比基因组)。可以对未掩蔽的或掩蔽的参比序列进行比对,从而产生
映射到参比序列的序列标签。在一些实施方式中,考虑到仅落在参比序列
的未掩蔽的片段上的序列标签来确定拷贝数变异。
在一些实施方式中,用于在母体测试样品中确定任何完整的胎儿染色
体非整倍体的存在或不存在的方法包括(a)在母体测试样品中获得胎儿和
母体核酸的序列信息;(b)利用上文描述的序列信息和方法来确定,针对
选自染色体1-22、X和Y的每个感兴趣的染色体,从其衍生的序列标签的
数目或序列覆盖度量,以及确定针对一个或多个归一化染色体序列的序列
标签的数目;(c)利用针对每个感兴趣的染色体确定的序列标签的数目和
针对每个归一化染色体确定的序列标签的数目来计算针对每个感兴趣的染
色体的单染色体剂量;以及(d)比较每个染色体剂量与阈值,并从而确定
在母体测试样品中任何完整的胎儿染色体非整倍体的存在或不存在。
在一些实施方式中,上面描述的步骤(a)可以包括测序测试样品的至
少一部分的核酸分子以获得关于测试样品的胎儿和母体核酸分子的所述序
列信息。在一些实施方式中,步骤(c)包括将每个感兴趣的染色体的单染色
体剂量计算为针对每个感兴趣的染色体确定的序列标签的数目和针对归一
化染色体序列确定的序列标签的数目的比率。在一些其他实施方式中,染
色体剂量是基于来源于序列标签的数目的处理的序列覆盖度量。在一些实
施方式中,仅独特的非冗余序列标签用来计算处理的序列覆盖度量。在一
些实施方式中,处理的序列覆盖度量是序列标签密度比,其是通过序列长

度加以归一化的序列标签的数目。在一些实施方式中,处理的序列覆盖度
量是归一化的序列标签,其是感兴趣的序列的序列标签的数目除以所有或
主要部分的基因组。在一些实施方式中,根据感兴趣的序列的全局配置参
数来调节处理的序列覆盖度量。在一些实施方式中,根据在针对待测试样
品的GC含量和序列覆盖度之间的在样品内相关性来调节处理的序列覆盖
度量。在一些实施方式中,处理的序列覆盖度量产生于这些过程的组合,
其在本文中别处进一步加以描述。
在一些实施方式中,染色体剂量被计算为针对每个感兴趣的染色体的
处理的序列覆盖度量和针对归一化染色体序列的处理的序列覆盖度量的比
率。
在上述任何一种实施方式中,完全染色体非整倍体选自完全染色体三
体性、完全染色体单体性和完全染色体多体性。完全染色体非整倍体选自
染色体1-22、X、和Y中的任一种的完全非整倍体。例如,所述不同的完
全胎儿染色体非整倍体选自三体性2、三体性8、三体性9、三体性20、三
体性21、三体性13、三体性16、三体性18、三体性22、47,XXX、47,XYY、
和单体性X。
在上述任何一种实施方式中,针对来自不同母体受试者的测试样品重
复步骤(a)-(d),以及所述方法包括确定在每个测试样品中任何两种或
更多种不同的完整胎儿染色体非整倍体的存在或不存在。
在上述任何一种实施方式中,所述方法可以进一步包括计算归一化染
色体值(NCV),其中NCV使染色体剂量相关与在一组合格样品中相应染
色体剂量的平均值,作为:
NCVij=xij-μ^jσ^j]]>其中和分别是针对在一组合格样品中的第j染色体剂量的估计的平
均值和标准偏差,以及xij是针对测试样品i的观测到的第j染色体剂量。
在一些实施方式中,通过使在测试样品中的感兴趣的染色体的染色体
剂量相关于在用同样的流通池测序的多重样品中相应染色体剂量的中位
数,可以“在运行中”计算NCV,作为:
NCVij=xij-Mjσ^j]]>其中Mj是在用同样的流通池测序的一组多重样品中第j染色体剂量的
估计的中位数;是在用一个或多个流动池测序的一组或多组多重样品中

第j染色体剂量的标准偏差;以及xi是针对测试样品i的所观测到第j染色
体剂量。在此实施方式中,测试样品i是用同样的流通池(从其确定Mj)测
序的多重样品之一。
在一些实施方式中,提供了用于确定在包含胎儿和母体核酸的母体测
试样品中不同的部分胎儿染色体非整倍体的存在或不存在的方法。所述方
法涉及类似于用于检测完全非整倍体(如上所述)的方法的程序。然而,
代替分析完整的染色体,分析染色体的片段。见美国专利申请公开号
2013/0029852,其以引用方式结合于本文。
图1示出了根据一些实施方式用于确定拷贝数变异的存在的方法。在
操作130和135中,确定合格序列标签覆盖度和测试序列标签覆盖度。本
公开内容提供了用来确定覆盖度量的过程,相对于常规方法,其提供了改
善的灵敏度和选择性。用星号来标示操作130和135并通过重线方框加以
强调以表示这些操作有助于相对于现有技术的改善。在一些实施方式中,
归一化、调节、修剪、和以其他方式处理序列标签覆盖度量以改善分析的
灵敏度和选择性。在本文中别处进一步描述这些过程。
从概观的角度看,所述方法在测试样品的CNV的确定中利用了合格训
练样品的归一化序列。在一些实施方式中,合格训练样品是未受影响的并
具有正常的拷贝数。归一化序列提供了机制来归一化用于运行内和运行间
变异性的测量。利用来自获自受试者的一组合格样品的序列信息来确定归
一化序列,其中上述受试者已知包含对于任何一个感兴趣的序列,例如,
染色体或其片段,具有正常的拷贝数的细胞。归一化序列的确定概述于在
图1中描述的方法的实施方式的步骤110、120、130、145和146。在一些
实施方式中,归一化序列用来计算针对测试序列的序列剂量。见步骤150。
在一些实施方式中,归一化序列还用来计算阈值,相对于其来比较测试序
列的序列剂量。见步骤150。获自归一化序列和测试序列的序列信息用于确
定在测试样品中染色体非整倍体的有统计学意义的识别(步骤160)。
转向根据一些实施方式用于确定拷贝数变异的存在的方法的细节,图
1提供了用于在生物样品中确定感兴趣的序列,例如,染色体或其片段,的
CNV的一种实施方式的流程图100。在一些实施方式中,生物样品获自受
试者并且包含由不同的基因组贡献的核酸的混合物。不同的基因组可以促
成两个个体的样品,例如,不同的基因组是由胎儿和携带胎儿的母体所贡
献。另外,不同的基因组可以促成三个或更多个体的样品,例如,不同的
基因组是由两个或更多胎儿和携带胎儿的母体所贡献。可替换地,基因组

有助于来自相同受试者的非整倍体癌细胞和正常整倍体细胞的样品,例如,
来自癌症患者的血浆样品。
除了分析患者的测试样品,一个或多个归一化染色体或一个或多个归
一化染色体片段被选择用于感兴趣的每种可能的染色体。以异步方式,归
一化染色体或片段确定自患者样品的正常测试,其可以发生在临床环境中。
换句话说,在测试患者样品之前,确定归一化染色体或片段。存储在归一
化染色体或片段和感兴趣的染色体或片段之间的关联,以在测试过程中使
用。如下面所解释的,通常在跨越许多样品的测试的一段时间内保持这样
的关联。下面的讨论涉及用于针对感兴趣的个体染色体或片段选择归一化
染色体或染色体片段的实施方式。
获得一组合格样品以识别合格归一化序列以及提供用于在测试样品中
确定CNV的有统计学意义的识别的方差值。在步骤110中,多个生物合格
样品获自多个受试者,其已知包含针对感兴趣的任何一个序列具有正常拷
贝数的细胞。在一种实施方式中,合格样品获自怀上胎儿的母体,利用细
胞遗传学方法,其已被证实具有染色体的正常拷贝数。生物合格样品可以
是生物液体,例如,血浆,或如下所述的任何合适的样品。在一些实施方
式中,合格样品含有核酸分子的混合物,例如,cfDNA分子。在一些实施
方式中,合格样品是母体血浆样品,其含有胎儿和母体cfDNA分子的混合
物。通过,利用任何已知的测序方法,测序至少一部分的核酸,例如,胎
儿和母体核酸,来获得针对归一化染色体和/或其片段的序列信息。优选地,
在本文中别处描述的下一代测序(NGS)方法的任何一种用来测序作为单
或克隆扩增分子的胎儿和母体核酸。在不同的实施方式中,如下文在测序
之前和期间所披露的,处理合格样品。可以利用如在本文中披露的仪器、
系统、和试剂盒来处理它们。
在步骤120中,测序包含在合格样品中的至少一部分的每个所有的合
格核酸以产生数以百万计的序列读数,例如,36bp的读数,其被比对于参
比基因组,例如,hg18。在一些实施方式中,序列读数包括约20bp、约25bp、
约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、、
约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、
约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、
约350bp、约400bp、约450bp、或约500bp。预期,当产生配对末端读数
时,技术进步将使得能够产生大于500bp的单端读数,从而使得能够产生
大于约1000bp的读数。在一种实施方式中,映射的序列读数包含36bp。在
另一种实施方式中,映射的序列读数包含25bp。
将序列读数比对于参比基因组,以及被独特映射到参比基因组的读数
被称为序列标签。对于CNV的分析,没有计数落在掩蔽的参比序列的掩
蔽片段上的序列标签。
在一种实施方式中,至少约3×106个合格序列标签、至少约5×106个合
格序列标签、至少约8×106合个格序列标签、至少约10×106个合格序列标
签、至少约15×106个合格序列标签、至少约20×106个合格序列标签、至少
约30×106个合格序列标签、至少约40×106个合格序列标签、或至少约50×106个合格序列标签(包含20至40bp读数)获自独特映射到参比基因组的读
数。
在步骤130中,计数获自测序在合格样品中的核酸的所有标记以获得
合格序列标签覆盖度。同样地,在操作135中,计数获自测试样品的所有
标记以获得测试序列标签覆盖度。本公开内容提供了方法来确定覆盖度量,
相对于常规方法,其提供改善的灵敏度和选择性。操作130和135是通过
星号加以标示并通过重线方框加以强调以表示这些操作有助于相对于现有
技术的改善。在一些实施方式中,归一化、调节、修剪、和以其他方式处
理序列标签覆盖度量,以改善分析的灵敏度和选择性。在本文中别处进一
步描述这些过程。
当在每个合格样品中映射和计数所有合格序列标签时,确定在合格样
品中的感兴趣的序列,例如,临床相关序列,的序列标签覆盖度,如确定
据其随后确定归一化序列的另外序列的序列标签覆盖度。
在一些实施方式中,感兴趣的序列是相关与完全染色体非整倍体的染
色体,例如,染色体21,以及合格归一化序列是完整的染色体,其并不相
关与染色体非整倍体并且其在序列标签覆盖度方面的变化接近感兴趣的序
列(即,染色体),例如,染色体21,的序列标签覆盖度变化。所选的归
一化染色体可以是最好接近感兴趣的序列的序列标签覆盖度的变化的一个
或一组。染色体1-22、X、和Y的任何一个或多个可以是感兴趣的序列,
并且一个或多个染色体可以确定为在合格样品中对于每个的任何一个染色
体1-22、X和Y的归一化序列。归一化染色体可以是个体染色体或它可以
是一组染色体(如在本文中别处描述的)。
在另一种实施方式中,感兴趣的序列是相关与部分非整倍体的染色体
的片段,例如,染色体缺失或插入,或不平衡的染色体易位,以及归一化
序列是不相关与部分非整倍体的染色体片段(或片段的组)并且其在序列
标签覆盖度方面的变化接近相关与部分非整倍体的染色体片段的序列标签
覆盖度变化。所选的归一化染色体片段可以是一种或多种归一化染色体片

段,其最好接近感兴趣的序列的序列标签覆盖度的变化。任何一个或多个
染色体1-22、X、和Y的任何一个或多个片段可以是感兴趣的序列。
在其他实施方式中,感兴趣的序列是相关与部分非整倍体的染色体的
片段以及归一化序列是全染色体或染色体。在另外的其他实施方式中,感
兴趣的序列是相关与非整倍体的全染色体以及归一化序列是不相关与非整
倍体的染色体片段。
在合格样品中,单个序列或一组序列被确定为针对感兴趣的任何一个
或多个序列的归一化序列,可以选择合格归一化序列以具有在序列标签覆
盖度方面的变化,其最好或有效地接近如在合格样品中确定的感兴趣的序
列的序列标签覆盖度变化。例如,合格归一化序列是这样的序列,当用来
归一化感兴趣的序列时,其产生整个合格样品的最小变异性,即,归一化
序列的变异性最靠近在合格样品中确定的感兴趣的序列的变异性。换句话
说,合格归一化序列是这样的序列,其选来产生整个合格样品的序列剂量
(对于感兴趣的序列)的最小变化。因此,所述方法选择这样的序列,当
用作归一化染色体时,对于感兴趣的序列,其预期产生在运行到运行染色
体剂量中的最小变异性。
在合格样品中针对任何一个或多个感兴趣的序列确定的归一化序列仍
然是在数天、数周、数月、并且可能数年内选择用于确定在测试样品中非
整倍体的存在或不存在的归一化序列,只要,为产生测序文库所需要的程
序以及测序样品随时间基本不变。如上面描述的,用于确定非整倍体的存
在的归一化序列被选择用于(可能还有其他原因)在样品中被映射到它的
序列标签的数目的变异性,例如,不同样品,以及测序运行,例如,发生
在同一天和/或不同天的测序运行,其最好接近对其他用作归一化参数的感
兴趣的序列的变异性。这些程序的实质性变化将影响被映射到所有序列的
标记的数目,其转而将确定序列的哪一个或哪一组将具有在相同和/或在不
同的测序运行中并在同一天或在不同天整个样品的变异性,其最紧密接近
感兴趣的序列的变异性,其将要求重新确定归一化序列的组。程序的实质
性变化包括用于制备测序文库的实验室方法的变化,其包括涉及到为多重
测序而不是单重测序而制备样品的变化,以及测序平台的变化,其包括用
于测序的化学作用的变化。
在一些实施方式中,选择用来归一化感兴趣的特定序列的归一化序列
是这样的序列,其最好区分一个或多个合格样品与一个或多个受影响的样
品,这意味着,归一化序列是这样的序列,其具有最大可微性
(differentiability),即,归一化序列的可微性是如此,以致它提供与在受
影响的测试样品中感兴趣的序列的最佳区别,从而容易区分受影响的测试

样品与其他未受影响的样品。在其他实施方式中,归一化序列是具有最小
变异性和最大可微性的组合的序列。
可微性的水平可以确定为在合格样品的群体中的序列剂量,例如,染
色体剂量或片段剂量,和在如下所述的和示于实施例中的一个或多个测试
样品中的染色体剂量之间的统计差异。例如,可微性可以数值表示为t检验
值,其表示在合格样品的群体中的染色体剂量和在一个或多个测试样品中
的染色体剂量之间的统计差异。同样地,可微性可以基于片段剂量而不是
染色体剂量。可替换地,可微性可以数值表示为归一化染色体值(NCV),
其是用于染色体剂量的z得分,只要NCV的分布是正常的。同样地,在其
中染色体片段是感兴趣的序列的情况下,片段剂量的可微性可以数值表示
为归一化片段值(NSV),其是用于染色体片段剂量的z得分,只要NSV
的分布是正常的。在确定z得分时,可以使用在一组合格样品中的染色体
或片段剂量的平均值和标准偏差。可替换地,可以使用在包含合格样品和
受影响的样品的训练集中的染色体或片段剂量的平均值和标准偏差。在其
他实施方式中,归一化序列是具有最小变异性和最大可微性或小变异性和
大可微性的最佳组合的序列。
所述方法确定这样的序列,其固有地具有类似特性并且其在样品和测
序运行中容易出现类似的变化,以及其可用于确定在测试样品中的序列剂
量。
序列剂量的确定在一些实施方式中,在所有合格样品中确定针对感兴趣的一个或多个
染色体或片段的染色体或片段剂量(如在示于图1的步骤146中所描述的),
以及在步骤145中确定归一化染色体或片段序列。在计算序列剂量之前,
提供一些归一化序列。然后根据如下文进一步描述的各种标准来确定一个
或多个归一化序列,见步骤145。在一些实施方式中,例如,确定的归一化
序列导致,对于整个所有合格样品的感兴趣的序列,序列剂量的最小变异
性。
在步骤146中,基于计算的合格标签密度,对于感兴趣的序列的合格
序列剂量,即,染色体剂量或片段剂量,被确定为用于感兴趣的序列的序
列标签覆盖度和用于另外的序列的合格序列标签覆盖度的比率,据此在步
骤145中随后确定归一化序列。确定的归一化序列随后用来确定在测试样
品中的序列剂量。
在一种实施方式中,在合格样品中的序列剂量是染色体剂量,其计算
为在合格样品中针对感兴趣的染色体的序列标签的数目和针对归一化染色
体序列的序列标签的数目的比率。归一化染色体序列可以是单染色体、一

组染色体、一个染色体的片段、或来自不同染色体的一组片段。因此,在
合格样品中对于感兴趣的染色体的染色体剂量被确定为针对感兴趣的染色
体的标记的数目和针对下述序列的标记的数目的比率:(i)由单染色体组
成的归一化染色体序列,(ii)由两个或两个以上的染色体组成的归一化染
色体序列,(iii)由染色体的单片段组成的归一化片段序列,(iv)由来自
一个染色体的两个或更多片段组成的归一化片段序列,或(v)由两个或两
个以上的染色体的两个或更多片段组成的归一化片段序列。用于根据(i)-
(v)来确定针对感兴趣的染色体21的染色体剂量的实施例是如下:针对
感兴趣的染色体,例如,染色体21,的染色体剂量被确定为染色体21的序
列标签覆盖度和以下序列标签覆盖度之一的比率:(i)每个所有剩余的染
色体,即,染色体1-20、染色体22、X染色体、和Y染色体;(ii)两个
或更多的剩余染色体的所有可能的组合;(iii)另一染色体的片段,例如,
染色体9;(iv)另一个染色体的两个片段,例如,染色体9的两个片段;
(v)两个不同的染色体的两个片段,例如,9号染色体的片段和14号染色
体的片段。
在另一种实施方式中,在合格样品中的序列剂量是片段剂量而不是染
色体剂量,上述片段剂量被计算为在合格样品中,对于感兴趣的片段,其
不是全染色体,的序列标签的数目和对于归一化片段序列的序列标签的数
目的比率。归一化片段序列可以是以上讨论的任何归一化染色体或片段序
列。
归一化序列的鉴定在步骤145中,针对感兴趣的序列,确定归一化序列。在一些实施方
式中,例如,归一化序列是基于计算的序列剂量的序列,例如,其导致对
于整个所有合格训练样品的感兴趣的序列的序列剂量的最小变异性。所述
方法确定这样的序列,其固有地具有类似特性并且在样品和测序运行中容
易出现类似的变化,以用其可用于确定在测试样品中的序列剂量。
可以在一组合格样品中确定针对一个或多个感兴趣的序列的归一化序
列,以及在合格样品中确定的序列随后用来计算针对在每个测试样品中的
一个或多个感兴趣的序列的序列剂量(步骤150),以确定在每个测试样品
中非整倍体的存在或不存在。当使用不同的测序平台时和/或当在待测序的
核酸的纯化和/或测序文库的制备中存在差异时,针对感兴趣的染色体或片
段确定的归一化序列可能不同。根据本文描述的方法的归一化序列的使用
提供了染色体或其片段的拷贝数的变化的特异性的和敏感性的度量,而不
论样品制备和/或所使用的测序平台。
在一些实施方式中,确定一个以上的归一化序列,即,针对一个感兴
趣的序列,可以确定不同的归一化序列,以及针对一个感兴趣的序列可以
确定多个序列剂量。例如,当使用14号染色体的序列标签覆盖度时,在针
对感兴趣的染色体21的染色体剂量中,变化,例如,变异系数(CV=标准
偏差/平均值),是最小的。然而,可以确定二、三、四、五、六、七、八
或更多的归一化序列,用于确定针对在测试样品中的感兴趣的序列的序列
剂量。作为例子,利用7号染色体、9号染色体、11号染色体或12号染色
体作为归一化染色体序列,可以确定在任何一个测试样品中针对染色体21
的第二剂量,因为这些染色体均具有接近14号染色体的CV的CV。
在一些实施方式中,当单染色体被选择为用于感兴趣的染色体的归一
化染色体序列时,归一化染色体序列将是这样的染色体,其导致用于感兴
趣的染色体的染色体剂量,其具有整个所有测试样品的最小变异性,例如,
合格样品。在一些情况下,最好的归一化染色体可以不具有最小变化,但
可以具有合格剂量的分布,其最好区分测试样品或来自合格样品的样品,
即,最好的归一化染色体可以不具有最低的变化,但可以具有最大可微性。
在一些实施方式中,归一化序列包括一个或多个鲁棒常染色体序列或
它们的片段。在一些实施方式中,鲁棒常染色体包括除感兴趣的染色体之
外的所有常染色体。在一些实施方式中,鲁棒常染色体包括除chrX、Y、
13、18、和21之外的所有常染色体。在一些实施方式中,鲁棒常染色体包
括除那些确定自将偏离自正常二倍体状态的样品的常染色体之外的所有常
染色体,其可以用于确定相对于正常二倍体基因组具有异常拷贝数的癌症
基因组。
在测试样品中非整倍体的确定基于在合格样品中归一化序列的鉴定,针对在测试样品中的感兴趣的
序列,确定序列剂量,其中上述测试样品包含来源于在一个或多个感兴趣
的序列方面有所不同的基因组的核酸的混合物。
在步骤115中,测试样品获自疑似或已知携带感兴趣的序列的临床相
关CNV的受试者。测试样品可以是生物液体,例如,血浆、或如下所述
的任何合适的样品。如所解释的,可以利用非侵入性程序如简单的抽血来
获得样品。在一些实施方式中,测试样品含有核酸分子的混合物,例如,
cfDNA分子。在一些实施方式中,测试样品是含有胎儿和母体cfDNA分子
的混合物的母体血浆样品。
在步骤125中,如针对合格样品所描述的,测序在测试样品中的至少
一部分的测试核酸,以产生数以百万计的序列读数,例如,36bp的读数。
如在步骤120中,产生自测序在测试样品中的核酸的读数被独特地映射或

比对于参比基因组以产生标记。如在步骤120中所描述的,至少约3×106个合格序列标签、至少约5×106个合格序列标签、至少约8×106个合格序列
标签、至少约10×106个合格序列标签、至少约15×106个合格序列标签、至
少约20×106个合格序列标签、至少约30×106个合格序列标签、至少约40×106个合格序列标签、或至少约50×106个合格序列标签(包含20至40bp读数)
获自独特映射到参比基因组的读数。在某些实施方式中,以电子格式提供
通过测序仪器产生的读数。利用如下文所讨论的计算仪器来完成比对。相
对于参比基因组来比较个别读数,其常常是庞大的(数以百万计碱基对),以
识别其中读数唯一地对应于参比基因组的位点。在一些实施方式中,比对
程序允许在读数和参比基因组之间的有限的错配。在一些情况下,允许在
读数中的1、2、或3个碱基对错配在参比基因组中的相应的碱基对,但依
然取得映射。
在步骤135中,利用如下所述的计算仪器,获自测序在测试样品中的
核酸的全部或大部分的标记被计数以确定测试序列标签覆盖度。在一些实
施方式中,使每个读数比对于参比基因组的特定区(染色体或片段,在大
多数情况下),并通过追加位点信息于读数,将读数转换为标记。当此过
程展开时,计算仪器可能保持映射到参比基因组的每个区(染色体或片段,
在大多数情况下)的标记读数的数目的运行计数。针对感兴趣的每个染色
体或片段以及每个相应的归一化染色体或片段存储计数。
在某些实施方式中,参比基因组具有一个或多个排除区,其是真正的
生物基因组的一部分但并不包括在参比基因组中。并不计数潜在比对于这
些排除区的读数。排除区的实例包括长重复序列的区、在X和Y染色体之
间具有相似性的区等。利用通过上面描述的掩蔽技术获得的掩蔽的参比序
列,仅在参比序列的未掩蔽的片段上的标记被考虑到用于CNV的分析。
在一些实施方式中,当多个读数比对于在参比基因组或序列上的同一
位点时,所述方法确定是否计数标记一次以上。可能存在这样的情况,其
时两个标记具有相同序列并因而比对于在参比序列上的相同位。用来计数
标记的方法,在某些情况下,可能从计数排除来自相同的测序样品的相同
标记。如果在给定样品中标记的不成比例的数目是相同的,则它提示,在
程序中存在强烈的偏差或其他缺陷。因此,依照某些实施方式,上述计数
方法不计数来自给定样品的标记,其是相同于来自被先前计数的样品的标
记。
当忽视来自单个样品的相同标记时,可以设定用于选择的各种标准。
在某些实施方式中,被计数的标记的定义的百分比必须是唯一的。如果比
此阈值更多的标记不是唯一的,则忽视它们。例如,如果定义的百分比需

要至少50%是独特的,则不计数相同标记,直到对于样品,独特标记的百
分比超过50%,在其他实施方式中,独特标记的阈值数目是至少约60%。
在其他实施方式中,独特标记的阈值百分比是至少约75%、或至少约90%、
或至少约95%、或至少约98%、或至少约99%。对于21号染色体,阈值可
以设定为90%。如果30M标记被比对于21号染色体,那么它们的至少27M
必须是唯一的。如果3M计数的标记不是唯一的以及3000万和第一标记不
是唯一的,则它不被计数。可以利用适当的统计分析来选择用来确定何时
不计数另外相同标记的特定阈值或其他标准。影响此阈值或其他标准的一
个因素是相对于标记可以与其比对的基因组的尺寸,测序样品的相对量。
其他因素包括读数的大小和类似的考虑。
在一种实施方式中,映射到感兴趣的序列的测试序列标签的数目被归
一化到它们被映射到的感兴趣的序列的已知长度,以提供测试序列标签密
度比。如针对合格样品所描述的,归一化到感兴趣的序列的已知长度是不
需要的,并且可以被包括为用来减少数目的位数的步骤,以简化它,从而
便于人解释。因为计数在测试样品中的所有映射的测试序列标签,所以确
定针对在测试样品中的感兴趣的序列,例如,临床相关序列,的序列标签
覆盖度,如确定针对对应于在合格样品中确定的至少一个归一化序列的另
外的序列的序列标签覆盖度。
在步骤150中,基于在合格样品中至少一个归一化序列的同一性,在
测试样品中确定针对感兴趣的序列的测试序列剂量。在不同的实施方式中,
利用感兴趣的序列和相应的归一化序列(如本文所描述的)的序列标签覆
盖度来计算确定测试序列剂量。负责这项工作的计算仪器将电子访问在感
兴趣的序列和它的相关的归一化序列之间的关联,其可以被存储在数据库、
表、图形中,或被包括为在程序指令中的代码。
如在本文中别处描述的,至少一个归一化序列可以是单个序列或一组
序列。对于在测试样品中的感兴趣的序列的序列剂量是针对在测试样品中
的感兴趣的序列确定的序列标签覆盖度和在测试样品中确定的至少一个归
一化序列的序列标签覆盖度的比率,其中在测试样品中的归一化序列对应
于在合格样品中针对感兴趣的特定序列确定的归一化序列。例如,如果在
合格样品中针对21号染色体确定的归一化序列被确定为染色体,例如,14
号染色体,那么对于21号染色体(感兴趣的序列)的测试序列剂量被确定
为各自在测试样品中确定的对于21号染色体的序列标签覆盖度和对于14
号染色体的序列标签覆盖度的比率。同样地,确定了针对染色体13、18、
X、Y、和相关与染色体非整倍体的其他染色体的染色体剂量。用于感兴趣
的染色体的归一化序列可以是一个或一组染色体、或一个或一组染色体片

段。如先前所描述的,感兴趣的序列可以是部分染色体,例如,染色体片
段。因此,染色体片段的剂量可以被确定为针对在测试样品中的片段确定
的序列标签覆盖度和在测试样品中的归一化染色体片段的序列标签覆盖度
的比率,其中在测试样品中的归一化片段对应于在合格样品中针对感兴趣
的特定片段确定的归一化片段(单个或一组片段)。在尺寸方面,染色体
片段可以为千碱基(kb)至兆碱基(Mb)(例如,约1kb至10kb、或约
10kb至100kb、或约100kb至1Mb)。
在步骤155中,阈值来源于标准偏差值,其是针对在多个合格样品中
确定的合格序列剂量和针对已知是感兴趣的序列的非整倍体的样品确定的
序列剂量所建立。注意,通常以异步方式并借助于患者测试样品的分析来
进行这种操作。它可以,例如,同时借助于自合格样品的归一化序列的选
择来进行。准确的分类取决于在不同类别,即,非整倍体的类型,的概率
分布之间的差异。在一些实施例中,阈值选自非整倍体的每个类型,例如,
三体性21,的经验分布。为分类三体性13、三体性18、三体性21、和单
体性X非整倍体(如在实施例中所描述的)所建立的可能的阈值,其描述
用于通过测序提取自包含胎儿和母体核酸的混合物的母体样品的cfDNA来
确定染色体非整倍体的方法的使用。被确定以用来区分受影响的样品的染
色体的非整倍体的阈值可以是相同于或可以是不同于用于不同非整倍体的
阈值。如在实施例中所示,针对感兴趣的每个染色体的阈值确定自整个样
品和测序运行的感兴趣的染色体的剂量变异性。针对感兴趣的任何染色体
的染色体剂量变化越小,则针对整个所有未受影响的样品的感兴趣的染色
体的剂量的范围越窄,其用来设定用于确定不同非整倍体的阈值。
回到相关与分类患者测试样品的工艺流程,在步骤160中,通过比较
针对感兴趣的序列的测试序列剂量和建立自合格序列剂量的至少一个阈值
来确定在测试样品中感兴趣的序列的拷贝数变异。可以通过用来测量序列
标签覆盖度和/或计算片段剂量的同样的计算仪器来进行这种操作。
在步骤160中,使针对感兴趣的测试序列的计算的剂量相比于设定为
阈值的剂量,其是根据用户自定义“可靠性的阈值”加以选择,以将样品分类
为“正常的”、“受影响的”、或“无调用的”。“无调用的”样品是这样的样品,
对其不能可靠地作出明确诊断。每种类型的受影响的样品(例如,三体性
21、部分三体性21、单体性X)具有它自己的阈值,一个用于调用正常的
(未受影响的)样品以及另一个调用受影响的样品(虽然在一些情况下,
上述两个阈值重合)。如在本文中别处描述的,在一些情形下,如果在测
试样品中核酸的胎儿分数是足够高,则可以将无调用的转换为调用(受影
响的或正常的)。可以通过在此过程流程的其他操作中采用的计算仪器来

报告测试序列的分类。在一些情况下,分类是以电子格式加以报告并且可
以可以被显示、发送电子邮件、发短信等给感兴趣的人。
在一些实施方式中,CNV的确定包括计算NCV或NSV,其使染色体
或片段剂量相关与在一组合格样品中相应的染色体或片段剂量的平均值
(如上面描述的)。然后,可能通过比较NCV/NSV与预定的拷贝数评价阈
值来确定CNV。
可以选择拷贝数评价阈值以优化假阳性与假阴性的比率。拷贝数评价
阈值越高,则越小可能发生假阳性。同样地,阈值越低,则越小可能发生
假阴性。因此,在第一理想阈值(高于其,仅真阳性被归类)和第二理想
阈值(低于其,仅真阴性被归类)之间存在权衡。
设定阈值,其很大程度上取决于针对感兴趣的特定染色体的染色体剂
量的变异性,如在一组不受影响的的样品中确定的。变异性取决于许多因
素,包括在样品中存在的胎儿cDNA的分数。通过对于整个未受影响的样
品的群体的染色体剂量的平均值或中位数和标准偏差来确定变异性(CV)。
因此,用于分类非整倍体的阈值使用NCV,并根据:
NCVij=xij-μ^jσ^j]]>(其中和分别是针对在一组合格样品中的第j染色体剂量的估计的
平均值和标准偏差,以及xij是针对测试样品i.所观测到的第j染色体剂量)
借助于相关的胎儿分数,为:
FFij=2×|NCVij×σ^jμ^j|=2×NCV×CV]]>因此,基于针对整个未受影响的样品的群体的感兴趣的染色体的染色
体比率的平均值和标准偏差,对于感兴趣的染色体的每个NCV,相关与给
定NCV值的预期胎儿分数可以计算自CV。
其后,基于在胎儿分数和NCV值之间的关系,可以选择判别边界,高
于其,样品被确定为阳性(受影响的)(基于正态分布分位数)。如上面
描述的,设定阈值,用于获得在真阳性的检测和假阴性结果的比率之间的
最佳权衡。因此,选择设定的阈值以优化假阳性和假阴性。
某些实施方式提供了用于在包含胎儿和母体核酸分子的生物样品中提
供胎儿染色体非整倍体的产前诊断的方法。进行上述诊断,其基于:从来
源于生物测试样品,例如,母体血浆样品,的胎儿和母体核酸分子的混合
物的至少一部分获得序列信息;依据测序数据,计算用于感兴趣的一个或
多个染色体的归一化染色体剂量和/或用于感兴趣的一个或多个片段的归一

化片段剂量;以及在测试样品中确定在分别用于感兴趣的染色体的染色体
剂量和/或用于感兴趣的片段的片段剂量和在多个合格(正常)样品中建立
的阈值之间的统计学显着差异;以及基于统计差异来提供产前诊断。如在
方法的步骤160中描述的,进行正常的或受影响的诊断。在不能有信心地
对正常的或受影响的进行诊断的情况下,提供“无调用的”。
在一些实施方式中,可以选择两个阈值。选择第一阈值以最小化假阳
性率,高于其,样品将被分类为“受影响的”,以及选择第二阈值以最小化假
阴性率,低于其,样品将被分类为“未受影响的”。具有高于第二阈值但低
于第一阈值的NCV的样品可以被分类为“疑似的非整倍体”或“无调用的”样
品,对于其,可以通过独立的方式来证实非整倍体的存在或不存在。在第
一和第二阈值之间的区可被称为“无调用的”区。
在一些实施方式中,疑似的和无调用的阈值示于表2。如可以看到的,
NCV的阈值随不同的染色体而变化。在一些实施方式中,对于如以上所解
释的样品,阈值根据FF而变化。在一些实施方式中,在这里应用的阈值技
术有助于改善的灵敏度和选择性。
表2:包括无调用的范围的疑似的和受影响的NCV阈值疑似的
受影响的
Chr13
3.5
4.0
Chr18
3.5
4.5
Chr21
3.5
4.0
ChTX(XO,XXX)
4.0
4.0
ChrY(XXvsXY)
6.0
6.0
确定序列覆盖度用于确定序列覆盖度的一般过程披露的一些实施方式提供了用来具有低噪声和高信号地确定序列覆盖
度量的方法,从而提供数据来确定涉及到拷贝数和CNV的各种遗传病症,
相对于通过常规方法获得的序列覆盖度量,其具有改善的敏度、选择性、
和/或效率。在某些实施方式中,对来自测试样品的序列加以处理以获得序
列覆盖度量。
上述过程利用了可获自其他来源的某些信息。在一些实施方式中,所
有的这种信息获自已知是未受影响的(例如,不是非整倍体)样品的训练
集。在其他实施方式中,一些或所有的信息获自其他测试样品,当在同一
过程中分析多个样品时,其可以被“即时”提供。
在某些实施方式中,序列掩码用来降低数据噪声。在一些实施方式中,
感兴趣的序列和它的归一化序列均被掩蔽。在一些实施方式中,当考虑感
兴趣的不同染色体或片段时,可以采用不同的掩码。例如,当13号染色体

是感兴趣的染色体时,可以采用一个掩码(或掩码组)以及当21号染色体
是感兴趣的染色体时可以采用不同的掩码(或掩码组)。在某些实施方式
中,以bin的分辨率来定义掩码。因此,在一个实例中,掩码分辨率是100
kb。在一些实施方式中,不同的掩码可应用于Y染色体。可以以比用于其
他感兴趣的染色体更加精细的分辨率(1kb)来提供用于Y染色体的掩蔽的
排除区,如在于2013年6月17日提交的美国临时专利申请号61/836,057[代
理人卷号ARTEP008P]中所描述的。以确定排除的基因组区的文件的形式来
提供掩码。
在某些实施方式中,上述过程利用归一化覆盖度的期望值以在感兴趣
的序列的分布图中除去bin-到-bin变化,上述变化不提供用于确定测试样品
的CNV的信息。上述过程,根据针对整个整个基因组的每个bin、或在参
比基因组中的至少鲁棒染色体的bin的归一化覆盖度的期望值,来调节归一
化覆盖度量(用于以下的操作317)。期望值可以确定自未受影响的样品的
训练集。作为例子,期望值可以是整个训练集样品的中位数值。样品的预
期覆盖度值可以被确定为比对于bin的独特的非冗余标记的数目除以比对
于在参比基因组的鲁棒染色体中的所有bin的独特的非冗余标记的总数。
图2描述了用于确定感兴趣的序列的覆盖度的过程200的流程图,其
用来在方框214中评价在测试样品中感兴趣的序列的拷贝数。此过程除去
通用于不受影响的训练样品的系统性变化,上述变化会增加在用于CNV评
价的分析中的噪声。它还消除测试样品特有的GC偏差,从而增加在数据分
析中的信噪比。
上述过程开始于提供测试样品的序列读数,如在方框202中所示。在
一些实施方式中,通过测序获自孕妇的血液的DNA片段,包括母体和胎
儿的cfDNA,来获得序列读数。上述过程进行以将序列读数比对于包括感
兴趣的序列的参比基因组,从而提供测试序列标签。方框204。测试在参比
序列上的每个bin中的序列标签计数定义了bin的覆盖度。方框206。在一
些实施方式中,比对于一个以上位点的读数被排除。在一些实施方式中,
比对于同一位点的多个读数被排除或减少到单读数计数。在一些实施方式
中,比对于排除的位点的读数也被排除。因此,在一些实施方式中,仅计
数比对于未排除的位点的唯一对齐的、非冗余标记,以提供用于确定每个
bin的覆盖度的未排除的位点计数(NES计数)。在一些实施方式中,每个
bin的覆盖度除以在同一样品中归一化序列的覆盖度,从而提供归一化覆盖
度量。
然后过程200提供感兴趣的序列的全局配置参数。全局配置参数包括
在获自未受影响的训练样品的训练集的每个bin中的预期覆盖度。方框208。

通过调节测试序列标签的归一化覆盖度量并根据预期覆盖度,过程200除
去常见于训练样品的变化,以获得全局配置参数修正的覆盖度。方框210。
在一些实施方式中,获自在方框208中提供的训练集的预期覆盖度是整个
训练样品的中位数。在一些实施方式中。通过从归一化覆盖度减去预期覆
盖度,操作2010调节归一化覆盖度量。在其他实施方式中,操作2010使
归一化覆盖度量除以每个bin的预期覆盖度,以提供全局配置参数修正的覆
盖度。
此外,通过进一步调节已被调节的覆盖度量,过程200除去测试样品
特有的GC偏差,以除去全局配置参数。如在方框212中所示,基于在GC
含量水平和在测试样品中存在的全局配置参数修正的覆盖度之间的关系,
上述过程调节全局配置参数修正的覆盖度,从而获得样品-GC-修正的覆盖
度。在调节常见于未受影响的训练样品的系统性变化和受试者内GC偏差之
后,上述过程提供覆盖度量来具有改善的灵敏度和特异性地评价样品的
CNV。
用于确定序列覆盖度的示例性过程的细节图3A提供了用于减少在来自测试样品的序列数据中的噪声的过程301
的一个实施例。图3B-3J显示了在过程的不同阶段的数据分析。如在图3A
中所示,描述的方法首先从一个或多个样品提取cfDNA。见方框303。在
本文中别处描述了适宜的提取过程和仪器。在一些实施方式中,在2013年
3月15日提交的美国专利申请号61/801,126(以引用方式将其全部内容结
合于本文)中描述的过程提取cfDNA。在一些实施方式中,上述仪器一起
处理来自多个样品的cfDNA以提供复用文库和序列数据。见在图3A中的
方框305和307。在一些实施方式中,上述仪器平行处理来自八个或更多测
试样品的cfDNA。如在本文中别处描述的,测序系统可以处理提取的cfDNA
以产生编码的(例如,带条形码的)cfDNA片段的文库。测序仪测序cfDNA
的文库以产生非常大量的序列读数。每个样品编码允许多路分解在多重样
品中的读数。八个或更多样品的每一个可以具有几十万或上百万的读数。
在图3A中的另外的操作之前,上述过程可以过滤读数。在一些实施方式中,
读数过滤是能够通过在测序仪中实施的软件程序加以操作的质量过滤过程
以过滤掉错误的和低质量的读数。例如,通过将由测序反应产生的原始图
像数据转换成强度得分、基本调用(basecall)、质量得分比对、和另外的
格式,Illumina的测序控制软件(SequencingControlSoftware,SCS)和序
列和变化的一致评价软件程序过滤掉错误的和低质量的读数,以提供用于
下游分析的生物学相关信息。
在测序仪或其他仪器产生针对样品的读数之后,系统的元件将读数计
算上对齐于参比基因组。见方框309。在本文中别处描述对齐。上述对齐产
生标记,其含有读数序列,并具有带注释的位置信息,其指定在参比基因
组上的独特位置。在某些实施方式中,上述系统进行第一通过对齐,而不
考虑重复读数(具有相同序列的两个或更多读数),以及随后除去重复读
数或将重复读数计数为单个读数,以提供非重复序列标签。在其他实施方
式中,上述系统并不消除重复读数。在一些实施方式中,上述过程不考虑
对齐于在基因组上的多个位置的读数,以产生唯一对齐的标记。在一些实
施方式中,考虑映射到未排除的位点(NES)的唯一对齐的非冗余序列标签,
以产生未排除的位点计数(NES计数),其提供数据来估计覆盖度。
如在别处解释的,排除的位点是在已被排除的参比基因组的区中发现
的位点,借以计数序列标签。在一些实施方式中,排除的位点存在于染色
体的区,其含有重复序列,例如,着丝粒和端粒,以及染色体的区,其是
一个以上的染色体共有的,例如,在Y染色体上存在的区,其还存在在X
染色体上。未排除的位点(NES)是在参比基因组中未排除的位点,借以计
数序列标签。
其次,上述系统将比对标记分为在参比基因组上的bin。见方框311。
沿着参比基因组的长度,隔开bin。在一些实施方式中,整个参比基因组被
分成连续bin,其可以具有定义的同等大小(例如,100kb)。可替换地,bin
可以具有动态确定的长度(可能基于每个样品)。测序深度影响最佳bin
尺寸选择。动态确定大小的bin可以具有由文库大小确定的它们的大小。例
如,bin尺寸可以被确定为是为容纳1000个标记所需要有序列长度(平均
而言)。
每个bin具有来自在考虑中的样品的若干标记。标记的数目,其反映了
比对序列的“覆盖度”,作为起点,用于过滤以及以其他方式清除样品数据,
以可靠地确定在样品中的拷贝数变异。图3A示出在方框313至321中的清
除操作。
在图3A中描述的实施方式中,上述过程施加掩码于参比基因组的bin。
见方框313。考虑到一些或所有以下处理操作,上述系统可以排除掩蔽bin
中的覆盖度。在许多情况下,在图3A中的任何剩余的操作不考虑来自掩蔽
bin的覆盖度值。
在各种实施方式中,针对发现从样品到样品表现出高变异性的基因组
的区,一个或多个掩码用来清除bin。提供这样的掩码,用于感兴趣的染色
体(例如,chr13、18、和21)和其他染色体。如在别处解释的,感兴趣的
染色体是在考虑中的可能藏匿拷贝数变异或其他畸变的染色体。
在一些实施方式中,使用以下方法,掩码被确定自合格样品的训练集。
最初,根据在图3A中的操作315至319,处理和过滤每个训练集样品。然
后针对每个bin,指出归一化的和修正的覆盖度量,以及针对每个bin,计
算统计数据如标准偏差、中位数绝对偏差、和/或变异系数。可以针对感兴
趣的每个染色体,评价各种过滤组合。过滤程序组合提供一个过滤程序,
用于感兴趣的染色体的bin,以及不同的过滤程序,用于所有其他染色体的
bin。
在一些实施方式中,在获得掩码(例如,通过选择针对如上面描述的
感兴趣的染色体的截止)之后,重新考虑归一化染色体(或染色体组)的
选择。在施加序列掩码之后,可以进行选择归一化染色体的过程(如在本
文中别处描述的)。例如,染色体的所有可能的组合被评价为归一化染色
体并根据它们区别受影响的和未受影响的样品的能力加以排列。此过程可
能(或不可能)发现不同的最佳归一化染色体或染色体组。在其他实施方
式中,归一化染色体是那些染色体,其导致在针对整个所有合格样品的感
兴趣的序列的序列剂量的最小变异性。如果不同的归一化染色体或染色体
组被确定,则上述过程可选地执行bin到过滤程序的上述鉴定。可能地,新
的归一化染色体导致不同的截止。
在某些实施方式中,不同的掩码应用于Y染色体。适宜的Y染色体掩
码的实例描述于2013年6月17日提交的美国临时专利申请号61/836,057
[代理人档案号ARTEP008P],其以引用方式结合于本文。
在上述系统计算上掩蔽bin之后,它计算上归一化在未由掩码排除的
bin中的覆盖度值。见方框315。在某些实施方式中,上述系统,相对于在
参比基因组中的大多数或所有的覆盖度或它们的一部分(例如,在参比基
因组的鲁棒染色体中的覆盖度),归一化在每个bin中的测试样品覆盖度值
(例如,NES计数/bin)。在一些情况下,通过针对在考虑中的bin的计数
除以比对于在参比基因组中的所有鲁棒染色体的所有未排除的位点的总
数,上述系统归一化测试样品覆盖度值(每bin)。在一些实施方式中,通
过进行线性回归,上述系统归一化测试样品覆盖度值(每bin)。例如,上
述系统首先将针对在鲁棒染色体中的bin子集的覆盖度计算为ya=截距
+斜率*gwpa,其中ya是针对bina的覆盖度,以及gwpa是针对同样bin
的全局配置参数。然后上述系统计算归一化覆盖度zb作为:zb=yb/(截距+
斜率*gwpb)-1。
如上文中所解释的,鲁棒染色体是一种不可能是非整倍体的染色体。
在某些实施方式中,鲁棒染色体是不同于染色体13、18、和21的所有常染

色体。在一些实施方式中,鲁棒染色体是不同于被确定为偏离自正常二倍
体基因组的染色体的所有常染色体。
bin的转化计数值或覆盖度被称为用于进一步处理的“归一化覆盖度
量”。利用每个样品独有的信息进行归一化。通常,不使用来自训练集的信
息。归一化允许在平等的基础上处理来自具有不同的文库大小(因而不同
数目的读数和标记)的样品的覆盖度量。一些随后的处理操作使用来源于
训练样品的覆盖度量,其可以被测序自大于或小于用于在考虑中的测试样
品的文库的文库。在一些实施方式中,没有基于比对于整个参比基因组(或
至少鲁棒染色体)的读数数目的归一化,利用来源于训练集的参数进行的
处理可能不是可靠的或一般化的。
图3B示出对于许多样品整个染色体21、13、和18上的覆盖度。彼此
不同地处理一些样品。作为结果,可以看到在任何给定的基因组位置处的
宽的样品到样品的变化。归一化除去一些样品到样品的变化。图3C的左图
描述整个整个基因组的归一化覆盖度量。
在图3A的实施方式中,上述系统消除或减小来自在操作315中产生
的归一化覆盖度量的“全局配置参数”。见方框317。这种操作除去归一化覆
盖度量的系统性偏差,其产生自基因组的结构、文库产生过程、和测序过
程。此外,这种操作旨在修正在任何给定样品中与预期分布图的任何系统
线性偏差。
在一些实施方式中,全局配置参数除去涉及每个bin的归一化覆盖度量
除以每个bin的相应预期值。在其他实施方式中,全局配置参数除去涉及从
每个bin的归一化覆盖度量减去每个bin的预期值。预期值可以获自训练集
的未受影响的样品(或针对X染色体,未受影响的雌性样品)。未受影响
的样品是来自已知不具有针对感兴趣的染色体的非整倍体的个体的样品。
在一些实施方式中,全局配置参数除去涉及从每个bin的归一化覆盖度量减
去每个bin的预期值(获自训练集)。在一些实施方式中,上述过程使用用
于每个bin的归一化覆盖度量的中位数值(如使用训练集所确定的)。换句
话说,中位数值是预期值。
在一些实施方式中,利用对于样品覆盖度对全局配置参数的依赖的线
性修正,来实施全局配置参数除去。如所示,全局配置参数是对于每个bin
的预期值,如确定自训练集(例如对于每个bin的中位数值)。这些实施方
式可以采用通过相对于针对每个bin获得的全局中位数分布图来拟合测试
样品的归一化覆盖度量以获得鲁棒线性模型。在一些实施方式中,通过相
对于全局中位数(或其他期望值)分布图,回归样品的观测到的归一化覆
盖度量来获得线性模型。
线性模型是基于以下假设:样品覆盖度量具有与全局配置参数值的线
性关系,上述线性关系应适用于鲁棒染色体/区和感兴趣的序列。见图3D。
在这种情况下,样品归一化覆盖度量对全局配置参数的预期覆盖度量的回
归将产生具有斜率和截距的线。在某些实施方式中,上述线的斜率和截距
用来依据对于bin的全局配置参数值来计算“预测的”覆盖度量。在一些实施
方式中,全局配置参数修正涉及通过对于bin的预测的覆盖度量来建模每个
bin的归一化覆盖度量。在一些实施方式中,调节测试序列标签的覆盖度,
其是通过:(i)在一个或多个强大染色体或区域中的多个bin中,获得在
测试序列标签的覆盖度与预期覆盖度之间的数学关系,以及(ii)将上述数
学关系应用于在感兴趣的序列中的bin。在一些实施方式中,利用在鲁棒染
色体或基因组的其他稳健区中在来自未受影响的训练样品的预期覆盖度值
和测试样品的覆盖度值之间的线性关系来修正在测试样品中覆盖度的变
化。上述调节导致全局配置参数修正的覆盖度。在一些情况下,上述调节
涉及在鲁棒染色体或区中获得针对bin子集的测试样品的覆盖度,具体如
下:
ya=截距+斜率*gwpa其中ya是在一个或多个强大染色体或区域中测试样品的bina的覆盖
度,以及gwpa是针对未受影响的训练样品的bina的全局配置参数。然后上
述过程计算针对感兴趣的序列或区的全局配置参数修正的覆盖度zb,作为:
zb=yb/(截距+斜率*gwpb)-1
其中yb是在感兴趣的序列(其可以位于鲁棒染色体或区之外)中针对测
试样品的binb的观测覆盖度,以及gwpb是针对未受影响的训练样品的bin
b的全局配置参数。分母(截距+斜率*gwpb)是binb的覆盖度,基于
估计自基因组的强大区的关系,其被预测在未受影响的测试样品中被观测
到。在感兴趣的序列藏匿拷贝数变异的情况下,观测覆盖度,因而binb的
全局配置参数修正的覆盖度值将显著偏离未受影响的样品的覆盖度。例如,
在在受影响的染色体上的bin的三体样品的情况下,修正的覆盖度zb将正
比于胎儿分数。通过对鲁棒染色体计算截距和斜率,此过程在样品内归一
化,然后评价感兴趣的基因组区如何偏离适用于在同一样品中的鲁棒染色
体的关系(如由斜率和截距所描述的)。
上述斜率和截距获自如在图3D中所示的线。全局配置参数除去的一个
实例描述于图3C。左图示出整个许多样品的归一化覆盖度的量的高bin-到
-bin变化。右图示出在如上面描述的全局配置参数除去之后的同样的归一化
覆盖度的量。
在上述系统在方框317处消除或减小全局配置参数变化之后,它修正
样品中GC(鸟嘌呤-胞嘧啶)含量变化。见方框319。每个bin具有它自己
的来自GC的分数贡献。上述分数是通过在bin中的G和C核苷酸的数目
除以在bin中核苷酸的总数(例如,100,000)来确定。一些bin将具有比其
他bin更大的GC分数。如在图3E和3F中所示,不同样品表现出不同的
GC偏差。下文将进一步解释这些差异和它们的修正。图3E-图3G示出全
局配置参数修正的归一化覆盖度量(每bin),其是作为GC分数(每个bin)
的函数。出人意料的是,不同样品表现出不同的GC依赖。一些样品显示单
调递减的依赖(如在图3E中),而其他样品则呈现逗号形状的依赖(如在
图3F和图3G中)。由于这些分布图对于每个样品可以是唯一的,所以对
于每个样品单独地并唯一地进行在此步骤中描述的修正。
在一些实施方式中,基于如在图3E-图3G描述的GC分数,所述系统
在计算上安排bin。然后,利用来自具有类似的GC含量的其他bin的信息,
它修正bin的全局配置参数修正的归一化覆盖度量。将这种修正应用于每个
未掩蔽bin。
在一些方法中,以以下方式,修正每个bin的GC含量。上述系统在计
算上选择具有类似于在考虑中的bin的GC分数的bin,然后依据在所选的
bin中的信息来确定修正参数。在一些实施方式中,利用相似性的任意定义
的截止值来选择那些具有类似的GC分数的bin。在一个实例中,选择所有
bin的2%。这些bin是上述2%,其具有最类似于在考虑中的bin的GC含
量bin。例如,选择1%的具有稍微更大GC含量的bin和1%的具有稍微更
小GC含量的bin。
利用所选的bin,上述系统在计算上确定修正参数。在一个实例中,上
述修正参数是在所选的bin中归一化覆盖度量(在全局配置参数除去之后)
的代表性值。这样的代表性值的实例包括在所选的bin中归一化覆盖度量的
中位数或均值。上述系统将用于在考虑中的bin的计算的修正参数应用于用
于在考虑中的bin的归一化覆盖度量(在全局配置参数除去之后)。在一些
实施方式中,从在考虑中的bin的归一化覆盖度量减去代表性值(例如,中
位数值)。在一些实施方式中,仅利用针对鲁棒常染色体(不同于染色体
13、18、和21的所有常染色体)的覆盖度量来选择归一化覆盖度量的中位
数值(或其他代表性值)。
在使用例如100kbbin的一个实例中,每个bin将具有GC分数的唯一
值,以及基于它们的GC分数含量将bin分为组。例如,将bin分为50组,
其中组边界对应于%GC分布的(0,2,4,6,...,和100)分位数。依据映射
到相同GC组(在样品中)的鲁棒常染色体,对bin的每个组,计算中位数

归一化覆盖度量,然后从归一化覆盖度量减去中位数值(对于在相同GC组
中,整个整个基因组的所有bin)。这使估计自在任何给定样品内的鲁棒染
色体的GC修正适用于在同一样品中的潜在受影响的染色体。例如,一起分
组在鲁棒染色体上的具有0.338660至0.344720的GC含量的所有bin,对
于此组计算中位数并从在此GC范围内的bin的归一化覆盖度减去,可以在
基因组(排除染色体13、18、21、和X)上的任意处发现上述bin。在某些
实施方式中,从这种GC修正过程排除Y染色体。
图3G示出GC修正的应用,其中利用中位数归一化覆盖度量作为修正
参数(如刚刚描述的)。左图示出未修正的覆盖度量与GC分数分布图。如
图所示,上述分布图具有非线性形状。右图示出修正的覆盖度量。图3H示
出对于许多样品在GC分数修正之前(左图)以及在GC分数修正之后(右
图)的归一化覆盖度。图3I示出对于许多测试样品在GC分数修正之前(红
色)和在GC分数修正之后(绿色)的归一化覆盖度的变异系数(CV),
其中GC修正导致归一化覆盖度的显著更小的变化。
所述方法GC修正的相对简单的实施。用来修正GC偏差的替代方法采
用样条或其他非线性拟合技术,其可以应用于连续GC空间并且不涉及通过
GC含量来分级覆盖度量。适宜的技术的实例包括连续黄土修正和光滑样条
修正。对于在考虑中的样品,拟合函数可以来源于bin-bin归一化覆盖度量
与GC含量。通过将对于在考虑中的bin的GC含量施加于拟合函数来计算
对于每个bin的修正。例如,可以通过减去在考虑中的bin的GC含量下样
均被涵盖的预期覆盖度值来调节归一化覆盖度量。可替换地,可以根据样
均被涵盖拟合并通过划分预期覆盖度值来实现调节。
在操作319中修正GC依赖之后,上述系统在计算上除去在考虑中的样
品中的离群bin,见方框321。这种操作可被称为单个样品过滤或修剪。图
3J示出,甚至在GC修正之后,覆盖度仍然具有在小区域内的样品特有的
变化。见例如在12号染色体上在位置1.1e8处的覆盖度,其中发生出乎意
料的与预期值的高偏差。可能的是,这种偏差产生于在母体基因组中的小
拷贝数变异。可替换地,这可能是由于在测序中不相关于拷贝数变异的技
术原因。通常,这种操作仅适用于鲁棒染色体。
作为一个实例,上述系统在计算上过滤任何bin,其具有离整个在染色
体(藏匿在考虑中的用于过滤的bin)中的所有bin的GC修正的归一化覆
盖度量的中位数大于3个中位数绝对偏差的GC修正的归一化覆盖度量。在
一个实例中,截止值被定义为3个中位数绝对偏差,其被调节以一致与标
准偏差,所以实际上截止是离中位数1.4826*中位数绝对偏差。在某些实施

方式中,这种操作应用于在样品中的所有染色体,包括鲁棒染色体和可疑
具有非整倍体的染色体。
在某些实施方式中,进行另外的操作,其可以被表征为质量控制。见
方框323。在一些实施方式中,质量控制度量涉及检测是否任何潜在的分母
染色体,即“归一化染色体”或“鲁棒染色体”,是非整倍体,或以其他方式不
适用于确定是否测试样品具有在感兴趣的序列中的拷贝数变异。当所述方
法确定鲁棒染色体是不合适的时,所述方法可以忽视测试样品并使得无调
用的。可替换地,这种QC度量的失效可以触发替代组的归一化染色体用于
调用。在一个实例中,质量控制方法比较鲁棒染色体的实际的归一化覆盖
度值与鲁棒常染色体的期望值。可以通过将多元正规模型拟合于未受影响
的训练样品的归一化的分布图,根据数据的似然或贝叶斯准则来选择最好
的模型结构(例如,利用AIC准则或可能地贝叶斯信息准则来选择模型),
以及固定用于QC的最佳模型,来获得期望值。可以通过,例如,利用聚类
技术,其识别针对在正常样品中的染色体覆盖度具有平均值和标准偏差的
概率函数,来获得鲁棒染色体的正规模型。当然,可以使用其他的模型形
式。鉴于固定的模型参数,所述方法评价在任何进入的测试样品中观测的
归一化覆盖度的似然。可以通过借助于模型来记分每个进入的测试样品来
做到这一点,以获得似然并从而确定相对于正常样品集的离群。测试样品
的似然与训练样品的似然的偏差可能提示,在归一化染色体或样品处理/分
析处理伪像中的异常,其可能导致不正确的样品分类。这种QC度量可以用
来在相关与任何一个这些样品伪像的分类中减少差错。图3K,右图,示出
在x轴上的染色体数目以及y轴示出归一化染色体覆盖度,其是基于与如
上面描述的获得的QC模型的比较。图形显示针对2号染色体具有过度覆盖
度的一个样品以及针对20号染色体具有过度覆盖度的其他样品。将利用这
里描述的QC度量来消除这些样品,或改用替代组的归一化染色体。图3K
的左图示出针对染色体的NCV与似然。
在图3A中描述的序列可以用于在基因组中的所有染色体的所有bin。
在某些实施方式中,不同的过程应用于Y染色体。为了计算染色体或片段
剂量、NCV、和/或NSV,使用来自在剂量、NCV、和/或NSV的表达中使
用的染色体或片段的bin的修正的归一化覆盖度量(如在图3A中确定的)。
见方框325。在某些实施方式中,平均归一化覆盖度量计算自在感兴趣的染
色体中的所有bin,归一化染色体、感兴趣的片段、和/或归一化片段用来计
算序列剂量、NCV、和/或NSV(如在本文中别处描述的)。
在某些实施方式中,不同地处理Y染色体。它可以掩蔽Y染色体独有
的一组bin加以过滤。在一些实施方式中,根据在美国临时专利申请号

61/836,057(先前以引用方式结合于本文)的方法来确定Y染色体过滤。在
一些实施方式中,上述过滤掩蔽这样的bin,其小于那些在其他染色体的过
滤中的bin。例如,Y染色体掩码可以在1kb水平下过滤,而其他染色体掩
码可以在100kb水平下过滤。然而,可以在同样bin尺寸下将Y染色体归
一化为其他染色体(例如,100kb)。
在某些实施方式中,如上面在图3A的操作315中描述的来归一化过滤
的Y染色体。然而,以其他方式,并不进一步修正Y染色体。因此,Y染
色体bin并不经受全局配置参数除去。同样地,Y染色体bin并不经受其后
进行的GC修正或其他过滤步骤。这是因为,当处理样品时,所述方法并不
知道样品是男性或女性。雌性样品不应具有比对于Y参比染色体的读数。
产生序列掩码本文披露的一些实施方式采用利用序列掩码来过滤掉(或掩蔽)在感
兴趣的序列上的非判别序列读数的策略,在用于CNV评价的覆盖度值方面,
相对于通过常规方法计算的值,其导致更高的信号和更低的噪声。可以通
过各种技术来确定这样的掩码。在一种实施方式中,利用图4A-4B所示的
技术来确定掩码(如下面进一步详细解释的)。
在一些实施方式中,利用训练集的已知具有感兴趣的序列的正常拷贝
数的代表性样品来确定掩码。可以利用一种技术,其首先归一化训练集样
品,然后修正整个一系列序列(例如,分布图)的系统性变化,接着修正
GC变异性(如下所述的),来确定掩码。对来自训练集的样品,而不对测
试样品,进行归一化和修正。掩码被确定一次,然后应用于许多测试样品。
图4A示出用于产生这样的序列掩码的过程400的流程图,其可以应用
于一个或多个测试样品以除去在拷贝数的评价中考虑到的感兴趣的序列上
的bin。上述过程开始于提供训练集,其包括来自多个未受影响的训练样品
的序列读数。方框402。上述过程然后将训练集的序列读数比对于包含感兴
趣的序列的参比基因组,从而提供用于训练样品的训练序列标签。方框404。
在一些实施方式中,仅映射到未排除的位点的唯一对齐的非冗余标记用于
进一步分析。上述过程涉及将参比基因组分成多个bin并针对每个未受影响
的训练样品确定在对于每个训练样品的每个bin中训练序列标签的覆盖度。
方框406。上述过程还对所有训练样品并针对每个bin确定训练序列标签的
预期覆盖度。方框408。在一些实施方式中,每个bin的预期覆盖度是整个
训练样品的中位数或均值。预期覆盖度构成全局配置参数。然后对于每个
训练样品上述过程调节在每个bin中训练序列标签的覆盖度:通过除去在全
局配置参数中的变化,从而对于每个训练样品获得在bin中训练序列标签的
全局配置参数修正的覆盖度。上述过程然后产生包含整个参比基因组的未

掩蔽和掩蔽bin的序列掩码。每个掩蔽bin具有超过掩蔽阈值的分布特征。
上述分布特征提供了在跨整个训练样品的bin中训练序列标签的调节的覆
盖度。在一些实施方式中,掩蔽阈值可能涉及到在跨整个训练样品的bin
内归一化覆盖度的观察到的变化。可以基于相应度量的经验分布来确定具
有整个样品的归一化覆盖度的高变化系数或中位数绝对偏差的bin。在一些
替代的实施方式中,掩蔽阈值可能涉及到在跨整个训练样品的bin内归一化
覆盖度的观察到的变化。可以基于相应度量的经验分布来掩蔽具有整个样
品的归一化覆盖度的高变化系数或中位数绝对偏差的bin。
在一些实施方式中,用于确定掩蔽bin的分开的截止,即,掩蔽阈值,
是针对感兴趣的染色体和针对所有其他染色体所定义。另外,分开的掩蔽
阈值可以分别地针对感兴趣的每个染色体加以定义,以及单掩蔽阈值可以
针对所有非受影响的染色体的集合加以定义。作为例子,基于一定掩蔽阈
值的掩码是针对13号染色体所定义以及另一个掩蔽阈值用来定义用于其他
染色体的掩码。非受影响的染色体还可以具有它们的依照染色体加以定义
的掩蔽阈值。
可以针对感兴趣的每个染色体来评价各种掩蔽阈值组合。掩蔽阈值组
合提供用于感兴趣的染色体的bin的一种掩码和用于所有其他染色体的bin
的不同的掩码。
在一种方式中,对于变异系数(CV)的一系列值或样品分布截止的度
量被定义为binCV值的经验分布的百分位数(例如,95、96、97、98、99)
以及这些截止值应用于所有常染色体(排除感兴趣的染色体)。另外,用
于CV的一系列的百分位数截止值是针对经验CV分布所定义并且这些截止
值应用于感兴趣的染色体(例如,chr21)。在一些实施方式中,感兴趣的
染色体是X染色体以及染色体13、18、和21。当然,可以考虑其他方式,
例如,可以针对每个染色体进行单独的优化。一起,待平行优化的范围(例
如,一个范围用于在考虑中的感兴趣的染色体以及另一个范围用于所有其
他染色体)定义CV截止组合的网格。见图4B。整个上述两个截止(一个
用于归一化染色体(或不同于感兴趣的染色体的常染色体)和一个用于感
兴趣的染色体)来评价上述系统对训练集的性能以及选择表现最好的组合
用于最终配置。对于每个感兴趣的染色体,此组合可以是不同的。在某些
实施方式中,对验证集而不是训练集来评价性能,即,交叉验证用来评价
性能。
在一些实施方式中,被优化以确定截止范围的性能是染色体剂量的变
异系数(基于归一化染色体的试探性选择)。上述过程选择截止的组合,
利用目前所选的归一化染色体,其最小化感兴趣的染色体的染色体剂量(例

如,比率)的CV。在一种方式中,上述过程测试在网格中的截止的每个组
合的性能,具体如下:(1)应用截止的组合以定义对于所有染色体的掩码
发及应用那些掩码来过滤训练集的标记;(2)通过将图3A的过程应用于
过滤的标记,来计算整个未受影响的样品的训练集的归一化覆盖度;(3)
通过,例如,求和针对在考虑中的染色体的bin的归一化覆盖度来确定代表
性归一化覆盖度/染色体;(4)利用目前的归一化染色体来计算染色体剂量;
以及(5)确定染色体剂量的CV。通过将它们应用于分离自训练集的原始
部分的一组测试样品,上述过程可以评价所选过滤的性能。即,和述过程
将原始训练集分成训练和测试子集。上述训练子集用来定义掩码截止(如
上面描述的)。
在可替代的实施方式中,代替基于覆盖度的CV来定义掩码,掩码可以
由来自跨整个训练样品在bin内的比对结果的映射质量得分的分布来定义。
映射质量得分反映了借其读数被映射到参比基因组的独特性。换句话说,
映射质量得分量化读数被错比对的可能性。低映射质量得分是相关的低独
特性(错比对的高可能性)。独特性引起在读数序列中的一个或多个误差
(如由测序仪产生的)。映射质量得分的详细描述提供于LiH,RuanJ,
DurbinR.(2008)MappingshortDNAsequencingreadsandcallingvariants
usingmappingqualityscores.GenomeResearch18:1851-8,其全部内容以引用
方式结合于本文。在一些实现方式中,映射质量得分在本文中被称为MapQ
得分。图4B示出,MapQ得分具有与处理的覆盖度的CV的单调的强相关
性。例如,具有CV高于0.4的bin几乎完全群集在图4B中的绘图的左侧,
其具有低于约4的MapQ得分。因此,掩蔽具有小MapQ的bin可以产生相
当类似于由掩蔽具有高CV的bin所定义的掩码。
样品和样品处理样品用于确定CNV,例如,染色体非整倍体、部分非整倍体等,的样品可
以包括取自任何细胞、组织、或器官的样品,其中针对一个或多个感兴趣
的序列的拷贝数变异待被确定。期望地,上述样品含有存在于细胞中的核
酸和/或为“无细胞”的核酸(例如,cfDNA)。
在一些实施方式中,有利的是,获得无细胞核酸,例如,无细胞DNA
(cfDNA)。无细胞核酸,包括无细胞DNA,可以通过本领域中已知的各
种方法,获自生物样品,包括但不限于血浆、血清、和尿(参见,例如,
Fan等人,ProcNatlAcadSci105:16266-16271[2008];Koide等人,Prenatal
Diagnosis25:604-607[2005];Chen等人,NatureMed.2:1033-1035[1996];Lo
等人,Lancet350:485-487[1997];Botezatu等人,ClinChem.46:1078-1084,

2000;和Su等人,JMol.Diagn.6:101-107[2004])。为了从样品中的细胞
分离无细胞DNA,可以使用各种方法,包括但不限于分级分离、离心(例
如,密度梯度离心)、DNA的特异性沉淀、或高通量细胞分选和/或其他分
离方法。用于cfDNA的手动和自动分离的市售试剂盒是可获得的(Roche
Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,
DE)。通过测序分析,其可以检测染色体非整倍体和/或各种多态性,包含
cfDNA的生物样品已用于测定来确定染色体异常,例如,三体性21,的存
在或不存在。
在不同的实施方式中,可以在使用之前(例如,在制备测序文库之前),
特异性地或非特异性地富集在样品中存在的cfDNA。样品DNA的非特异性
富集是指样品的基因组DNA片段的全基因组扩增,其可以用来在制备
cfDNA测序文库之前增加样品DNA的水平。非特异性富集可以是在包含一
种以上的基因组的样品中存在的两种基因组之一的选择性富集。例如,非
特异性富集对在母体样品中的胎儿基因组可以选择性的,其可以通过已知
方法来获得以增加在样品中胎儿与母体DNA的相对比例。可替换地,非特
异性富集可以是在样品中存在的两种基因组的非选择性扩增。例如,非特
异性扩增可以是在包含来自胎儿和母体基因组的DNA的混合物的样品中
胎儿和母体DNA的扩增。用于全基因组扩增的方法在本领域中是已知的。
简并寡核苷酸引发PCR(DOP)、引物延伸PCR技术(PEP)和多重置换
扩增(MDA)是全基因组扩增方法的实例。在一些实施方式中,包含来自
不同的基因组的cfDNA的混合物的样品对于在混合物中存在的基因组的
cfDNA来说是非富集的。在其他实施方式中,包含来自不同的基因组的
cfDNA的混合物的样品对于在样品中存在的基因组的任何一种来说是非特
异性发富集的。
对其应用本文描述的方法的包含核酸的样品通常包括生物样品(“测试
样品”),例如,如上面描述的。在一些实施方式中,通过若干众所周知的
方法的任何一种来纯化或分离待针对一个或多个CNV加以筛选的核酸。
因此,在某些实施方式中,样品包含或组成自纯化的或分离的多核苷
酸,或它可以包括样品如组织样品、生物液体样品、细胞样品等。适宜的
生物液体样品包括但不限于血液、血浆、血清、汗液、眼泪、痰、尿、痰、
耳流出物(earflow)、淋巴液、唾液、脑脊液、灌洗液(ravages)、骨髓
悬浮液、阴道流出物、经宫颈灌洗液、脑液、腹水、乳液、呼吸道、肠道
和生殖泌尿道的分泌物、羊水、乳液、和白细胞分离术样品。在一些实施
方式中,样品是通过非侵入性程序容易得到的样品,例如,血液、血浆、
血清、汗液、眼泪、痰、尿、痰、耳流、唾液或粪便。在某些实施方式中,

样品是外周血样品、或外周血样品的血浆和/或血清部分。在其他实施方式
中,生物样品是拭子或涂片、活检样品、或细胞培养物。在另一种实施方
式中,样品是两种或更多种生物样品的混合物,例如,生物样品可以包括
生物液体样品、组织样品、和细胞培养样品的两种或更多种。如在本文中
所使用的,术语“血液”、“血浆”和“血清”明确地涵盖其部分或处理的部分。
同样地,当样品取自活检、拭子、涂片等时,“样品”明确地涵盖来源于活检、
拭子、涂片等的处理过的部分。
在某些实施方式中,样品可以获自来源,包括但不限于来自不同个体
的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体
(例如,患有癌症或疑似具有遗传紊乱的个体)的样品、来自正常个体的
样品、在个体中在疾病的不同阶段获得的样品、获自对于疾病经受不同治
疗的个体的样品、来自经受不同的环境因素的个体的样品、来自具有对病
变的素质的个体的样品、来自暴露于传染病病原体(例如,HIV)的个体的
样品等。
在一种说明性的但非限制性的实施方式中,样品是获自妊娠雌性,例
如孕妇,的母体样品。在这种情况下,可以利用本文描述的方法来分析样
品以提供在胎儿中潜在染色体异常的产前诊断。母体样品可以是组织样品、
生物液体样品、或细胞样品。生物液体包括,作为非限制性实例,血液、
血浆、血清、汗液、眼泪、痰、尿、痰、耳流、淋巴样液、唾液、脑脊液、
灌洗液、骨髓悬浮液、阴道流出物、经宫颈灌洗液、脑液、腹水、乳液、
呼吸道、肠道和生殖泌尿道的分泌物、以及白细胞分离术样品。
在另一种说明性的但非限制性的实施方式中,母体样品是两种或更多
种生物样品的混合物,例如,生物样品可以包括生物液体样品、组织样品、
和细胞培养样品的两种或更多种。在一些实施方式中,样品是通过非侵入
性程序容易得到的样品,例如,血液、血浆、血清、汗液、眼泪、痰、尿、
乳汁、痰、耳流出物、唾液和粪便。在一些实施方式中,生物样品是外周
血样品、和/或其血浆和血清部分。在其他实施方式中,生物样品是拭子或
涂片、活检样品、或细胞培养物的样品。如上文所披露的,术语“血液”、“血
浆”和“血清”明确地涵盖其部分或处理的部分。同样地,当样品取自活检、
拭子、涂片等时,“样品”明确地涵盖来源于活检、拭子、涂片等的处理过的
部分。
在某些实施方式中,样品还可以获自体外培养组织、细胞、或其他含
有多核苷酸的来源。培养的样品可以取自来源,包括但不限于维持在不同
培养基和均被涵盖件(例如,pH、压力、或温度)下的培养物(例如,组
织或细胞)、维持不同时期的长度的培养物(例如,组织或细胞)、用不

同因子或试剂(例如,候选药物、或调节剂)处理的培养物(例如,组织
或细胞)、或不同类型的组织和/或细胞的培养物。
从生物源分离核酸的方法是众所周知的并且将会有所不同,其取决于
来源的特性。根据本文描述的方法的需要,本领域的技术人员可以容易地
从来源分离核酸。在一些情况下,可以是有利的是,片段化在核酸样品中
的核酸分子。如实现的,片段化可以是无规的,或者它可以是特定的,例
如,利用限制性内切核酸酶消化。用于随机片段化的方法在本领域中是众
所周知的,并且包括,例如,有限DNA酶消化、碱处理和物理剪切。在一
种实施方式中,获得样品核酸,作为cfDNA,其未经受片段化。
在其他说明性实施方式中,获得样品核酸,作为基因组DNA,将其片
段化成大约300或更多、大约400或更多、或大约500或更多碱基对的片
段,并且对其可以容易地应用NGS方法。
测序文库的制备在一种实施方式中,本文描述的方法可以利用下一代测序技术(NGS),
其允许在单测序运行中单独测序多个样品,作为基因组分子(即,单重测
序)或作为包含索引基因组分子的汇集样品(例如,多重测序)。这些方
法可以产生高达数亿读数的DNA序列。在不同的实施方式中,可以利用,
例如,本文描述的下一代测序技术(NGS),来确定基因组核酸、和/或索
引基因组核酸的序列。在不同的实施方式中,可以利用如本文所描述的一
个或多个处理器来分析利用NGS获得的大量的序列数据。
在不同的实施方式中,上述测序技术的应用不涉及测序文库的制备。
然而,在某些实施方式中,本文中设想的测序方法涉及测序文库的制
备。在一种说明性方式中,测序文库制备涉及准备好加以测序的衔接子修
饰DNA片段(例如,多核苷酸)的随机收集的生产。多核苷酸的测序文库
可以制备自DNA或RNA,包括DNA或cDNA的等同物、类似物,例如,
DNA或cDNA,其是通过逆转录酶的作用产生自RNA模板的互补的或拷贝
DNA。多核苷酸可能来源于双链形式(例如,dsDNA如基因组DNA片段、
cDNA、PCR扩增产物等),或在某些实施方式中,多核苷酸可能来源于单
链形式(例如,ssDNA、RNA等)并已转为dsDNA形式。通过说明的方式,
在某些实施方式中,单链mRNA分子可被复制到适用于制备测序文库的双
链cDNA。对于文库制备的方法来说,初级多核苷酸分子的精确序列一般不
是实质性的,并且可以是已知或未知的。在一种实施方式中,多核苷酸分
子是DNA分子。更特别地,在某些实施方式中,多核苷酸分子表示生物体
的全部遗传补体或基本上生物体的全部遗传补体,以及是基因组DNA分子
(例如,细胞DNA、无细胞DNA(cfDNA)等),其通常包括内含子序列

和外显子序列(编码序列)、以及非编码调节序列如启动子和增强子序列。
在某些实施方式中,初级多核苷酸分子包括在妊娠受试者的外周血中存在
的人类基因组DNA分子,例如,cfDNA分子。
通过使用包括特定范围的片段尺寸的多核苷酸来促进用于一些NGS测
序平台的测序文库的制备。上述文库的制备通常涉及较大多核苷酸(例如,
细胞基因组DNA)的片段化以获得在所期望的尺寸范围内的多核苷酸。
可以通过本领域技术人员已知的若干方法的任何一种来实现片段化。
例如,可以通过机械方式,包括但不限于雾化、超声处理和水剪切,来实
现片段化。然而,机械片段化通常在C-O、P-O和C-C键处切割DNA主链,
从而导致平端以及3’-和5’-突出端(具有被打断的C-O、P-O和C-C键)的
异质混合物(参见,例如,Alnemri和Liwack,JBiol.Chem265:17323-17333
[1990];Richards和Boyer,JMolBiol11:327-240[1965]),其可能需要被修
复,因为它们可能缺乏用于随后的酶促反应的必要的5’-磷酸,例如,测序
衔接子的连接,其是为制备用于测序的DNA所需要的。
相比之下,cfDNA,通常存在为小于约300个碱基对的片段,因而,
为了利用cfDNA样品来产生测序文库,片段化通常不是必要的。
通常,不管多核苷酸被强制片段化(例如,体外被片段化)或天然存
在为片段,它们被转化为具有5’-磷酸和3’-羟基的平端DNA。标准方法,
例如,用于利用,例如,如在本文中别处描述的Illumina平台来测序的方法,
指导用户末端修复样品DNA,以在dA-尾之前纯化末端修复的产物,以及
在文库制备的衔接子连接步骤之前纯化dA-尾产物。
本文描述的序列文库制备的方法的各种实施方式不需要进行由标准方
法通常要求的一个或多个步骤来获得可以通过NGS加以测序的修饰DNA
产物。简略方法(ABB方法)、一步法、和两步法是用于制备测序文库的
方法的实例,其可以见于2012年7月20日提交的专利申请13/555,037,其
全部内容以引用方式结合于本文。
用于跟踪和确认样品完整性的标志物核酸(markernucleicacid)在不同的实施方式中,可以通过测序样品基因组核酸,例如,cfDNA,
的混合物,以及补充,例如,在处理之前,已被引入样品的标志物核酸,
来完成样品完整性的确认和样品跟踪。
标志物核酸可以与测试样品(例如,生物来源样品)结合并经历如下
处理,包括,例如,分馏生物来源样品的一个或多个步骤,例如,从全血
样品获得基本上无细胞血浆部分,从分馏的,例如,血浆,或未分馏的生
物源样品,例如,组织样品,纯化核酸,以及测序。在一些实施方式中,
测序包括制备测序文库。选择结合与源样品的标记分子的序列或序列的组

合,以是源样品独有的。在一些实施方式中,在样品中的独特的标记分子
均具有相同序列。在其他实施方式中,在样品中的独特的标记分子是多个
序列,例如,两种、三种、四种、五种、六种、七种、八种、九种、十种、
十五种、二十种、或更多种不同序列的组合。在一种实施方式中,可以利
用具有相同序列的多种标志物核酸分子来证实样品的完整性。可替换地,
可以利用具有至少两种、至少三种、至少四种、至少五种、至少六种、至
少七种、至少八种、至少九种、至少十种、至少11种、至少12种、至少
13种、至少14种、至少15种、至少16种、至少17种、至少18种、至少
19种、至少20种、至少25种、至少30种、至少35种、至少40种、至少
50种、或更多种不同序列的多种标志物核酸分子来证实样品的同一性。多
种生物的样品,即,两种或更多种生物样品,的完整性的确认需要,用标
志物核酸(其具有待标示的多种测试样品的每一种独有的序列)来标示两
种或更多种样品的每一种。例如,可以用具有序列A的标志物核酸来标示
第一样品,以及可以用具有序列B的标志物核酸来标示第二样品。可替换
地,可以用均具有序列A的标志物核酸分子来标示第一样品,以及可以用
序列B和C的混合物来标示第二样品,其中序列A、B和C是具有不同序
列的标记分子。
可以在样品制备的任何阶段将标志物核酸加入样品,其发生在文库制
备(如果要制备文库)和测序之前。在一种实施方式中,标记分子可以结合
与未经处理的源样品。例如,可以在用来收集血液样品的收集管中提供标
志物核酸。可替换地,可以在抽血之后将标志物核酸加入血液样品。在一
种实施方式中,将标志物核酸加入用来收集生物液体样品的容器,例如,
将标志物核酸加入用来收集血液样品的血液收集管。在另一种实施方式中,
将标志物核酸加入生物液体样品的一部分。例如,将标志物核酸加入血液
样品的血浆和/或血清部分,例如,母体血浆样品。在又一种实施方式中,
将标记分子加入纯化样品,例如,已纯化自生物样品的核酸样品。例如,
将标志物核酸加入经纯化的母体和胎儿cfDNA的样品。同样地,可以在处
理样品之前将标志物核酸加入活检样品。在一些实施方式中,标志物核酸
可以结合与将标记分子递送进入生物样品的细胞的载体。细胞递送载体包
括pH敏感的和阳离子脂质体。
在不同的实施方式中,标记分子具有反基因组序列,其是缺失自生物
源样品的基因组的序列。在一种示例性实施方式中,用来验证人生物源样
品的完整性的标记分子具有缺失自人类基因组的序列。在一种可替换的实
施方式中,标记分子具有这样的序列,其缺失自源样品和任何一种或多种
其他已知的基因组。例如,用来验证人生物源样品的完整性的标记分子具

有这样的序列,其缺失自人类基因组和小鼠基因组。上述替代允许确认包
含两种或更多种基因组的测试样品的完整性。例如,可以利用具有缺失自
人类基因组和影响细菌的基因组的序列的标记分子来证实获自受病原体例
如细菌影响的受试者的人无细胞DNA样品的完整性。许多病原体,例如,
细菌、病毒、酵母、真菌、原生动物等,的基因组的序列是在万维网上在
ncbi.nlm.nih.gov/genomes处可公开获得的。在另一种实施方式中,标记分子
是这样的核酸,其具有缺失自任何已知基因组的序列。可以在算法上随机
产生标记分子的序列。
在不同的实施方式中,标记分子可以是天然存在的脱氧核糖核酸
(DNA)、核糖核酸或人工核酸类似物(核酸模拟物),包括肽核酸(PNA)、
吗啉代核酸、锁核酸、二醇核酸(glycolnucleicacid)、和苏糖核酸,其区
别于天然存在的DNA或RNA(通过分子主链的变化)或DNA模拟物(其
并不具有磷酸二酯主链)。脱氧核糖核酸可以来自天然存在的基因组或可
以在实验室中通过使用酶或通过固相化学合成来产生。化学方法还可以用
来产生未在自然界中发现的DNA模拟物。DNA的衍生物是可获得的衍生
物,其中磷酸二酯键已被替换但其中脱氧核糖被保留,包括但不限于具有
通过硫代甲缩醛或甲酰胺键形成的主链的DNA模拟物,其已被表明是良好
的结构DNA模拟物。其他DNA模拟物包括吗啉代衍生物和肽核酸(PNA),
其含有基于N-(2-氨基乙基)甘氨酸的假肽主链(AnnRevBiophysBiomol
Struct24:167-183[1995])。PNA是DNA(或核糖核酸[RNA])的非常良好
的结构模拟物,以及PNA寡聚体能够与沃森-克里克互补DNA和RNA(或
PNA)低聚体形成非常稳定的双螺旋结构,并且通过螺旋侵入,它们还可
以结合于在双螺旋DNA中的靶(MolBiotechnol26:233-248[2004]。可以用
作标记分子的DNA类似物的另一种良好的结构模拟物/类似物是硫代磷酸
DNA,其中非桥连氧之一被硫替换。这种修饰降低了内切和外切核酸酶2
的作用,包括5’至3’和3’至5’DNAPOL1外切核酸酶、核酸酶S1和P1、
核糖核酸酶、血清核酸酶以及蛇毒素磷酸二酯酶。
标记分子的长度与样品核酸的长度可以是不同的或模糊的,即,标记
分子的长度可以类似于样品基因组分子的长度,或它可以大于或小于样品
基因组分子的长度。借助于构成标记分子的核苷酸或核苷酸类似物碱基的
数目来测量标记分子的长度。利用本领域中已知的分离方法,长度不同于
样品基因组分子的标记分子可以区别于源核酸。例如,可以通过电泳分离,
例如,毛细管电泳,来确定标记物和样品核酸分子在长度方面的差异。尺
寸差异可以有利于量化和评价标记物和样品核酸的质量。优选地,标志物
核酸短于基因组核酸,并具有足够长度以使它们不能被映射到样品的基因

组。例如,需要30个碱基人序列以独特地将它映射到人类基因组。因此,
在某些实施方式中,在人样品的测序生物测定中使用的标记分子的长度应
是至少30bp。
主要通过用来确认源样品的完整性的测序技术来确定标记分子的长度
的选择。还可以考虑待测序的样品基因组核酸的长度。例如,一些测序技
术采用多核苷酸的克隆扩增,其可能需要,待克隆扩增的基因组多核苷酸
具有最小长度。例如,利用IlluminaGAII序列分析仪的测序包括通过多核
苷酸的桥接PCR所进行的体外克隆扩增(还被称为群集扩增),其中多核
苷酸具有110bp的最小长度,对其连接衔接子以提供至少200bp并且小于
600bp的可以被克隆扩增和测序的核酸。在一些实施方式中,衔接子-连接
的标记分子的长度是约200bp至约600bp、约250bp至550bp、约300bp至
500bp、或约350至450。在其他实施方式中,衔接子-连接的标记分子的长
度是约200bp。例如,当测序在母体样品中存在的胎儿cfDNA时,标记分
子的长度可被选择为类似于胎儿cfDNA分子的长度。因此,在一种实施方
式中,在包括大规模平行测序在母体样品中的cfDNA以确定胎儿染色体非
整倍体的存在或不存在的测定中使用的标记分子的长度可以是约150bp、
约160bp、约170bp、约180bp、约190bp或约200bp,优选地,标记分子
是约170pp。其他测序方式,例如,SOLiD测序、Polony测序和454测序
使用乳液PCR来克隆扩增用于测序的DNA分子,以及每种技术指定待扩
增的分子的最小和最大长度。待测序为克隆扩增核酸的标记分子的长度可
以高达约600bp。在一些实施方式中,待测序的标记分子的长度可以大于
600bp。
单分子测序技术,其并不采用分子的克隆扩增,并且能够在模板长度
的非常广泛的范围内测序核酸,在大多数情况下并不要求,待测序的分子
具有任何特定长度。然而,序列产率/单位质量取决于3’端羟基的数目,因
而具有用于测序的相对较短模板是比具有长模板更加有效的。如果开始于
长于1000nt的核酸,则通常可取的是,将核酸剪切到100至200nt的平均
长度,以致更多的序列信息可以产生自同样质量的核酸。因此,标记分子
的长度可以为几十碱基至数千碱基。用于单分子测序的标记分子的长度可
以高达约25bp、高达约50bp、高达约75bp、高达约100bp、高达约200bp、
高达约300bp、高达约400bp、高达约500bp、高达约600bp、高达约700bp、
高达约800bp、高达约900bp、高达约1000bp、或更大的长度。
还通过待测序的基因组核酸的长度来确定为标记分子选择的长度。例
如,作为细胞基因组DNA的基因组片段,cfDNA在人血流中循环。在孕妇
的血浆中发现的胎儿cfDNA分子通常短于母体cfDNA分子(Chan等人,Clin

Chem50:8892[2004])。循环胎儿DNA的尺寸分级分离已证实,循环胎儿
DNA片段的平均长度是<300bp,而母体DNA已被估计为约0.5至1Kb(Li
等人,ClinChem,50:1002-1011[2004])。这些发现是一致与Fan等人的那
些发现,其利用NGS确定了胎儿cfDNA很少>340bp(Fan等人,ClinChem
56:1279-1286[2010])。借助于标准的基于二氧化硅的方法分离自尿的DNA
由两个部分组成:高分子量DNA,其来源于脱落的细胞;以及低分子量
(150-250个碱基对)部分的经肾DNA(Tr-DNA)(Botezatu等人,ClinChem.
46:1078-1084,2000;和Su等人,JMol.Diagn.6:101-107,2004)。用于从体
液分离无细胞核酸的新开发的技术应用于经肾核酸的分离已揭示了在尿中
DNA和RNA片段(远短于150个碱基对)的存在(美国专利申请公开号
20080139801)。在实施方式中,其中cfDNA是待测序的基因组核酸,选
择的标记分子可以高达约cfDNA的长度。例如,在母体DNA样品中使用
的待测序为单核酸分子或为克隆扩增核酸的标记分子的长度可以是约100
bp至600。在其他实施方式中,样品基因组核酸是较大分子的片段。例如,
被测序的样品基因组核酸是片段化细胞DNA。在实施方式中,当测序片段
化细胞DNA时,标记分子的长度可以高达DNA片段的长度。在一些实施
方式中,标记分子的长度至少是为独特地将序列读数映射到适当的参比基
因组所需要的最小长度。在其他实施方式中,标记分子的长度是为排除标
记分子被映射到样品参比基因组所需要的最小长度。
此外,标记分子可以用来确认这样的样品,其没有通过核酸测序加以
测定,以及其可以通过不同于测序的常见的生物技术,例如,实时PCR,
加以证实。
样品对照(例如,在用于测序和/或分析的过程阳性对照中)在不同的实施方式中,引入样品的标记序列,例如,如上面描述的,
可以作为阳性对照来证实测序以及随后的处理和分析的准确性和有效性。
因此,提供了成分和方法,其用来提供用于测序在样品中的DNA的处
理中阳性对照(IPC)。在某些实施方式中,提供了阳性对照,其用于测序在
包含基因组的混合物的样品中的cfDNA。IPC可以用来关联在获自不同组
样品的序列信息中的基线位移,例如,在不同时间在不同的测序运行中测
序的样品。因此,例如IPC可以使针对母体测试样品获得的序列信息相关
与获自一组合格样品的在不同时间测序的序列信息。
同样地,在片段分析的情况下,IPC可以使获自受试者的并针对特定片
段的序列信息相关与获自(类似序列的)一组合格样品并在不同时间测序
的序列。在某些实施方式中,IPC可以使获自受试者并针对特定癌症相关基

因座的序列信息相关与获自一组合格样品(例如,来自已知的扩增/缺失等)
的序列信息。
此外,IPC可以用作标记物来追踪样品(通过测序过程)。IPC还可以
提供定性阳性序列剂量值,例如,NCV,用于感兴趣的染色体的一种或多
种非整倍体,例如,三体性21、三体性13、三体性18,以提供适当的解释,
以及确保数据的可信性和准确性。在某些实施方式中,可以产生IPC以比
较来自雄性和雌性基因组的核酸,进而提供针对在母体样品中的染色体X
和Y的剂量,以确定胎儿是否是雄性(男性)的。
过程中对照的类型和数目取决于所需测试的类型或特性。例如,对于
测试,其需要测序来自包含基因组的混合物的样品的DNA以确定染色体非
整倍体是否存在,过程中对照可以包含获自样品(已知包含待测试的同样
的染色体非整倍体)的DNA。在一些实施方式中,IPC包括这样的DNA,
其来自已知包含感兴趣的染色体的非整倍体的样品。例如,用于确定在母
体样品中胎儿三体性,例如,三体性21,的存在或不存在的测试的IPC包
含获自具有三体性21的个体的DNA。在一些实施方式中,IPC包含获自具
有不同非整倍体的两个或更多个个体的DNA的混合物。例如,对于用来确
定三体性13、三体性18、三体性21、和单体性X的存在或不存在的测试,
IPC包含获自孕妇(各携带具有待测试的三体性之一的胎儿)的DNA样品
的组合。除完全染色体非整倍体之外,还可以产生IPC以提供这样的阳性
对照,其用于用来确定部分非整倍体的存在或不存在的测试。
可以利用获自两个受试者(一个是非整倍体基因组的贡献者)的细胞
基因组DNA的混合物来产生作为用于检测单非整倍体的对照的IPC。例如,
可以通过结合来自携带三体染色体的雄性或雌性受试者的基因组DNA与
已知不携带三体染色体的雌性受试者的基因组DNA,来产生这样的IPC,
其被产生为用于用来确定胎儿三体性,例如,三体性21,的测试的对照。
基因组DNA可以提取自两个受试者的细胞,并被剪切以提供约100-400bp、
约150-350bp、或约200-300bp的片段,从而模拟在母体样品中的循环
cfDNA片段。选择来自携带非整倍体,例如,三体性21,的受试者的片段
化DNA的比例,以模拟在母体样品中发现的循环胎儿cfDNA的比例,从
而提供这样的IPC,其包含片段化DNA的混合物,其中包含来自携带非整
倍体的受试者的约5%、约10%、约15%、约20%、约25%、约30%的DNA。
上述IPC可以包含来自各携带不同非整倍体的不同受试者的DNA。例如,
IPC可以包含约80%的未受影响的雌性DNA,以及剩余20%可以是来自各
携带三体染色体21、三体染色体13、和三体染色体18的三个不同受试者
的DNA。制备用于测序的片段化DNA的混合物。片段化DNA的混合物的

处理可以包括制备测序文库,其可以利用任何大规模平行方法并以单重或
多重方式加以测序。可以存储基因组IPC的储备溶液并用于多个诊断测试。
可替换地,可以利用获自已知携带具有已知染色体非整倍体的胎儿的
母体的cfDNA来产生IPC。例如,cfDNA可以获自携带具有三体性21的
胎儿的孕妇。cfDNA提取自母体样品,并被克隆入细菌载体且在细菌中生
长,以提供IPC的持续源。利用限制酶,DNA可以提取自细菌载体。可替
换地,可以通过,例如,PCR,来扩增克隆cfDNA。可以处理IPCDNA,
用于在和来自测试样品的cfDNA相同的运行中加以测序,其中将分析测试
样品中染色体非整倍体的存在或不存在。
虽然上文参照三体性描述了IPC的产生,但是应当理解的是,可以产
生IPC来反映其他部分非整倍体,包括,例如,各种片段扩增和/或缺失。
因此,例如,在各种癌症已知是相关与特定扩增(例如,乳癌相关与20Q13)
的情况下,可以产生IPC,其结合那些已知的扩增。
测序方法如上文所指出的,作为用于确定拷贝数变异的程序的一部分,测序制
备的样品(例如,测序文库)。可以利用若干测序技术的任何一种。
一些测序技术是市售的,如来自AffymetrixInc.(Sunnyvale,CA)的杂
交测序平台和来自454LifeSciences(Bradford,CT)、Illumina/Solexa
(Hayward,CA)和HelicosBiosciences(Cambridge,MA)的合成测序平台、
以及来自AppliedBiosystems(FosterCity,CA)的连接测序平台(如下所述)。
除利用HelicosBiosciences的合成测序进行的单分子测序之外,其他单分子
测序技术包括但不限于PacificBiosciences的SMRTTM技术、ION
TORRENTTM技术、和例如,由OxfordNanoporeTechnologies开发的纳米
孔测序。
虽然自动化桑格方法被看作‘第一代’技术,但桑格测序(包括自动化桑
格测序)还可以用于本文描述的方法。另外合适的测序方法包括但不限于
核酸成像技术,例如,原子力显微法(AFM)或透射电子显微术(TEM)。
下文更详细地描述说明性测序技术。
在一种说明性的但非限制性的实施方式中,本文描述的方法包括获得
在测试样品中核酸的序列信息,例如,在母体样品中的cfDNA,在被筛查
癌症的受试者中的cfDNA或细胞DNA等,其中利用HelicosTrue单分子测
序(tSMS)技术的单分子测序技术(例如,如在HarrisT.D.等人,Science
320:106-109[2008]中所描述的)。在tSMS技术中,将DNA样品切割成大
约100至200个核苷酸的链,以及将多聚腺苷酸序列加入每个DNA链的
3’端。通过添加荧光标记腺苷核苷酸来标记每均被涵盖链。然后将DNA链

杂交于流动池,上述流动池含有数百万的寡T俘获位点,其被固定于流动
池表面。在某些实施方式中,模板可以是在约亿个模板/cm2的密度下。然
后将流动池装入仪器,例如,HeliScopeTM测序仪,以及激光照射流动池的
表面,从而揭示了每个模板的位置。CCD照相机可以映射模板在流动池表
面上的位置。然后切割和冲走模板荧光标记。通过引入DNA聚合酶和荧光
标记核苷酸来开始测序反应。寡T核酸作为引物。以模板引导方式,聚合
酶将标记核苷酸并入引物。除去聚合酶和未并入的核苷酸。通过成像流动
池表面来辨别已指导荧光标记核苷酸的并入的模板。在成像之后,切割步
骤除去荧光标记,然后借助于其他荧光标记核苷酸来重复上述过程,直至
达到所期望的读数长度。借助于每个核苷酸添加步骤来收集序列信息。在
测序文库的制备中,通过单分子测序技术的全基因组测序排除或通常避免
基于PCR的扩增,以及所述方法允许直接测量样品,而不是测量上述样品
的拷贝。
在另一种说明性的但非限制性的实施方式中,本文描述的方法包括获
得在测试样品中核酸的序列信息,例如,在母体测试样品中的cfDNA,在
被筛查癌症的受试者中的cfDNA或细胞DNA等,其中利用454测序
(Roche)(例如在Margulies,M.等人Nature437:376-380[2005]中所描述
的)。454测序通常涉及两个步骤。在第一步骤中,将DNA剪切成大约
300-800个碱基对的片段,以及平端片段。然后将寡核苷酸衔接子连接于片
段的末端。衔接子充当用于片段的扩增和测序的引物。利用,例如,衔接
子B,其含有5’-生物素标记,可以将片段附着于DNA俘获珠,例如,链
霉亲和素涂层珠。在油水乳液的液滴内PCR扩增附着于珠的片段。结果是
在每个珠上多个拷贝的克隆扩增DNA片段。在第二步骤中,在孔(例如,
皮升尺寸孔)中俘获珠。对每个DNA片段平行进行焦磷酸测序。一个或多
个核苷酸的加成产生由测序仪中的CCD照相机所记录的光信号。信号强度
正比于并入的核苷酸的数目。焦磷酸测序利用了焦磷酸(PPi),其是在核
苷酸加成之后被释放。在腺苷5’磷酸硫酸的存在下通过ATP硫酸化酶将PPi
转化为ATP。荧光素酶使用ATP来将荧光素转化成氧化萤光素,以及此反
应产生被测量和分析的光。
在另一种说明性但非限制性的实施方式中,本文描述的方法包括利用
SOLiDTM技术(AppliedBiosystems)来获得在测试样品中核酸的序列信息,
例如,在母体测试样品中的cfDNA,在被筛查癌症的受试者中的cfDNA或
细胞DNA等。在SOLiDTM连接测序中,将基因组DNA剪切成片段,并将
衔接子附着于片段的5’和3’端,以产生片段文库。可替换地,可以引入内
部衔接子:通过将衔接子连接于片段的5’和3’端,环化片段,消化环化的

片段以产生内部衔接子,然后将衔接子附着于得到的片段的5’和3’端,以
产生伴侣配对文库。其次,在含有珠、引物、模板、和PCR成分的微反应
器中制备克隆珠群体。在PCR之后,使模板变性并富集珠以分离珠与延伸
的模板。可以对在所选珠上的模板进行3’修饰,其允许结合于载玻片。可
以通过部分随机寡核苷酸与通过特定荧光团确定的中央确定的碱基(或碱
基对)的连续杂交和连接来确定序列。在记录颜色之后,切割并除去连接
的寡核苷酸,然后重复上述过程。
在另一种说明性但非限制性的实施方式中,本文描述的方法包括利用
PacificBiosciences的单分子实时(SMRTTM)测序技术来获得在测试样品中
核酸的序列信息,例如,在母体测试样品中的cfDNA,在被筛查癌症的受
试者中的cfDNA或细胞DNA等。在SMRT测序中,在DNA合成过程中
成像染料标记核苷酸的连续并入。将单DNA聚合酶分子附着于获得序列信
息的个别零模式波长检测器(ZMW检测器)的底表面,同时将磷酸联核苷
酸并入不断增长的引物链。ZMW检测器包括约束结构,该结构使得能够相
对于荧光核苷酸(其在ZMW之外迅速扩散(例如,在数微秒内))的背
景来观察单核苷酸的并入(通过DNA聚合酶)。通常需要几毫秒来将核苷
酸并入不断增长的链。在这段时间期间,荧光标记被激发并产生荧光信号,
然后切割掉荧光标记。染料的相应荧光的测量指示哪个碱基被并入。重复
上述过程以提供序列。
在另一种说明性的但非限制性的实施方式中,本文描述的方法包括利
用纳米孔测序(例如,在SoniGV和MellerA.ClinChem53:1996-2001[2007]
中所描述的)来获得在测试样品中核酸的序列信息,例如,在母体测试样
品中的cfDNA,在被筛查癌症的受试者中的cfDNA或细胞DNA等。纳米
孔测序DNA分析技术是由若干公司所开发,包括,例如,OxfordNanopore
Technologies(Oxford,UnitedKingdom)、Sequenom、NABsys等。纳米孔
测序是单分子测序技术,借此,当它经过纳米孔时,直接测序DNA的单分
子。纳米孔是小孔,直径通常大约为1纳米。纳米孔在导电流体中的浸没
和整个它电势(电压)的应用导致轻微的电流,这是由于离子通过纳米孔
的传导。流动的电流量是对纳米孔的尺寸和形状敏感的。当DNA分子经过
纳米孔时,在DNA分子上的每个核苷酸在不同的程度上阻塞纳米孔,从而
在不同的程度上改变通过纳米孔的电流的大小。因此,当DNA分子经过纳
米孔时,电流的这种变化会提供DNA序列的读数。
在另一种说明性但非限制性的实施方式中,本文描述的方法包括利用
化学敏感的场效应晶体管(chemFET)阵列(例如,如在美国专利申请公
开号2009/0026082中所描述的)来获得在测试样品中核酸的序列信息,例

如,在母体测试样品中的cfDNA,在被筛查癌症的受试者中的cfDNA或细
胞DNA等。在这种技术的一个实施例中,可以将DNA分子放入反应室,
并且可以将模板分子杂交于结合于聚合酶的测序引物。通过chemFET,在
测序引物的3’端处一个或多个三磷酸到新核酸链的并入可以被辨别为电流
的变化。阵列可以具有多个chemFET传感器。在另一个实例中,可以将单
核酸附着于珠,并可以在珠上扩增核酸,然后可以将单个珠转移到在
chemFET阵列上的单个反应室,其中每个室具有chemFET传感器,接着可
以测序核酸。
在另一种实施方式中,本方法包括利用HalcyonMolecular技术,其使
用透射电子显微术(TEM),来获得在测试样品中核酸的序列信息,例如,
在母体测试样品中的cfDNA。被称为单分子位置快速纳米转移(IMPRNT)
的方法包括利用用重原子标记选择性地标记的高分子量(150kb或更大)
DNA的单原子分辨率透射电子显微镜成像以及以具有一致的碱基-碱基间
距的超密集的(3nm链到链)的平行阵列在超薄膜上安排这些分子。电子
显微镜用来成像在薄膜上的分子以确定重原子标记的位置以及从DNA析
取碱基序列信息。所述方法进一步描述于PCT专利公开WO2009/046445
。所述方法允许在不到十分钟内测序完全人类基因组。
在另一种实施方式中,DNA测序技术是IonTorrent单分子测序,其使
半导体技术和简单测序化学成对以直接在半导体芯片上将化学编码信息
(A、C、G、T)转换成数字信息(0、1)。在自然界中,当通过聚合酶将
核苷酸并入DNA的链时,释放氢离子作为副产物。IonTorrent使用微机械
加工孔的高密度阵列,从而以大规模平行方式来进行此生化过程。各个孔
包含不同的DNA分子。在孔下方是离子敏感层以及在其下方是离子传感
器。当将核苷酸,例如C,加入DNA模板然后并入DNA的链时,将释放
氢离子。来自上述离子的电荷将改变溶液的pH,其可以通过IonTorrent离
子传感器加以检测。测序仪,基本上是世界上最小的固态pH计,调用碱基,
从而直接从化学信息转到数字信息。然后Ion个人类基因组机(PGMTM)
测序仪用一个接一个的核苷酸依次充斥芯片。如果充斥芯片的下一核苷酸
不是匹配,则将记录不到电压变化并且将不调用碱基。如果在DNA链上存
在两个相同的碱基,则电压将是双倍,并且芯片将记录调用的两个相同的
碱基。直接检测允许记录核苷酸并入(在几秒钟内)。
在另一种实施方式中,本方法包括利用杂交测序来获得在测试样品中
核酸的序列信息,例如,在母体测试样品中的cfDNA。杂交测序包括使多
种多核苷酸序列接触多种多核苷酸探针,其中多种多核苷酸探针的每一种
可以被可选地束缚于基板。基板可以具有包含已知核苷酸序列的阵列的平

整表面。杂交于阵列的模式可以用来确定在样品中存在的多核苷酸序列。
在其他实施方式中,将每个探针束缚于珠,例如,磁珠等。于珠的杂交可
以被确定并且用来识别在样品内的多种多核苷酸序列。
在另一种实施方式中,本方法包括通过数百万的DNA片段的大规模平
行测序并利用Illumina合成测序和基于可逆终止子的测序化学(例如,如在
Bentley等人,Nature6:53-59[2009]中所描述的)来获得在测试样品中核酸的
序列信息,例如,在母体测试样品中的cfDNA。模板DNA可以是基因组
DNA,例如,cfDNA。在一些实施方式中,来自分离细胞的基因组DNA用
作模板,并且它被片段化成数百碱基对的长度。在其他实施方式中,cfDNA
用作模板,并且不需要片段化,因为cfDNA存在为短片段。例如胎儿cfDNA
在血流中循环,作为长度为大约170个碱基对(bp)的片段(Fan等人,Clin
Chem56:1279-1286[2010]),以及在测序之前不需要DNA的片段化。
Illumina测序技术依赖于片段化基因组DNA附着于其上结合寡核苷酸锚形
体的平面的光学透明表面。末端修复模板DNA以产生5’-磷酸化平端,以
及Klenow片段的聚合酶活性用来将单A碱基加入平整的磷酸化DNA片段
的3’端。这种加成可制备DNA片段,用于连接于寡核苷酸衔接子,其在它
们的3’端处具有单T碱基的突出端,以增加连接效率。衔接子寡核苷酸互
补于流动池锚形物。在限制稀释均被涵盖件下,将衔接子修饰的单链模板
DNA加入流动池并通过杂交于锚形物加以固定。延伸和桥接扩增附着的
DNA片段以产生具有数以亿计簇的超高密度测序流动池,各自包含相同模
板的~1,000个拷贝。在一种实施方式中,在经受群集扩增之前,利用PCR
来扩增随机片段化基因组DNA,例如,cfDNA。可替换地,使用无扩增基
因组文库制备,并利用单独的群集扩增来富集随机片段化基因组DNA,例
如,cfDNA(Kozarewa等人,NatureMethods6:291-295[2009])。利用鲁棒
四色DNA合成测序技术,其采用可逆终止子并借助于可除去的荧光染料,
来测序模板。利用激光激发和全内反射光学元件来实现高灵敏度荧光检测。
将约20-40bp,例如,36bp,的短序列读数比对于重复掩蔽的参比基因组
并利用专门开发的数据分析流水线软件来确定短序列读数到参比基因组的
独特映射。还可以使用非重复掩蔽的参比基因组。不论使用重复掩蔽的或
非重复掩蔽的参比基因组,仅计数独特映射到参比基因组的读数。在第一
读取的完成之后,可以原位再生模板以使得能够从片段的相反端进行第二
次读取。因此,可以使用DNA片段的单端或成对端测序。进行在样品中存
在的DNA片段的部分测序,以及将包含预定长度,例如,36bp,的读数
的序列标签映射到已知参比基因组,并加以计数。在一种实施方式中,参
比基因组序列是NCBI36/hg18序列,其可以在万维网上并在

genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=16626010
5)处获得。可替换地,参比基因组序列是GRCh37/hg19,其可以在万维网
上并在genome.ucsc.edu/cgi-bin/hgGateway处获得。公开序列信息的其他来
源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)、和
DDBJ(日本的DNA数据库)。若干计算机算法可用于比对序列,包括但
不限于BLAST(Altschul等人,1990)、BLITZ(MPsrch)(Sturrock&Collins,
1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等人,Genome
Biology10:R25.1-R25.10[2009])、或ELAND(Illumina,Inc.,SanDiego,CA,
USA)。在一种实施方式中,测序血浆cfDNA分子的克隆扩增拷贝的一端
并通过针对Illumina基因组分析仪,其使用核苷酸数据库的有效的大规模比
对(ELAND)软件,的生物信息学比对分析,加以处理。
在本文描述的方法的一些实施方式中,映射的序列标签包含约20bp、
约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、
约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、
约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、
约300bp、约350bp、约400bp、约450bp、或约500bp的序列读数。预期,
技术进步将使得能够产生大于500bp的单端读数,从而当产生配对末端读
数时使得能够获得大于约1000bp的读数。在一种实施方式中,映射的序列
标签包含为36bp的序列读数。通过比较标记的序列与参比的序列来实现序
列标签的映射,以确定测列的核酸(例如cfDNA)分子的染色体起源,以
及不需要特定基因序列信息。可以允许小程度的错配(0-2个错配/序列标签)
以说明在参比基因组和在混合样品中的基因组之间可能存在的次要多态
性。
对于每个样品,通常获得多个序列标签。在一些实施方式中,对于每
个样品,至少约3×106个序列标签、至少约5×106个序列标签、至少约8×106个序列标签、至少约10×106个序列标签、至少约15×106个序列标签、至少
约20×106个序列标签、至少约30×106个序列标签、至少约40×106个序列标
签、或至少约50×106个序列标签(其包含20至40bp读数,例如,36bp)
获自将读数映射到参比基因组。在一种实施方式中,将所有序列读数映射
到参比基因组的所有区。在一种实施方式中,计数已映射到参比基因组的
所有区,例如,所有染色体,的标记,并在混合DNA样品中确定CNV,
即,感兴趣的序列,例如,染色体或其部分,的过高或过低表示。所述方
法不需要在两个基因组之间的区分。
基于在测序运行内映射到在样品中中的参比基因组的序列标签的数目
的变化(染色体间变异性)、和在不同测序运行中映射到参比基因组的序

列标签的数目的变化(测序间的变异性),来预测为正确确定是否CNV,
例如,非整倍体,在样品中存在或不存在所需要的准确性。例如,对于映
射到富含GC或GC贫乏的参比序列的标记,变化可能是特别明显的。其他
变体可能来自对于核酸的提取和纯化、测序文库的制备、和不同测序平台
的使用,使用了不同方法。基于归一化序列(归一化染色体序列或归一化
片段序列)的知识,本方法使用序列剂量(染色体剂量、或片段剂量),
以本质上说明起源于染色体间的(运行内)、和测序间的(运行间)的累
计变异性以及依赖于平台的变异性。染色体剂量是基于归一化染色体序列
的知识,其可以组成自单染色体,或两个或两个以上的染色体,其选自染
色体1-22、X、和Y。可替换地,归一化染色体序列可以组成自单染色体片
段,或一个染色体或两个或两个以上的染色体的两个或更多片段。片段剂
量是基于归一化片段序列的知识,其可以组成自任何一个染色体的单片段,
或染色体1-22、X、和Y的任何两个或更多的两个或更多片段。
CNV和产前诊断在母体血液中循环的无细胞胎儿DNA和RNA可以用于越来越多的遗
传性疾病的早期非侵入性产前诊断(NIPD),用于妊娠管理和生殖决策。
已经知道在血流中循环的无细胞DNA的存在超过50年。最近,发现在妊
娠期间的母体血流中存在少量循环胎儿DNA(Lo等人,Lancet350:485-487
[1997])。认为来源于垂死的胎盘细胞,无细胞胎儿DNA(cfDNA)已经
表明,由长度小于200bp的短片段组成(Chan等人,ClinChem50:88-92
[2004]),其可以早在4周妊娠加以辨别(Illanes等人,EarlyHumanDev
83:563-566[2007]),并且已知在递送数小时内被清除自母体循环(Lo等人,
AmJHumGenet64:218-224[1999])。除cfDNA之外,在母体血流中还可
以辨别无细胞胎儿RNA(cfRNA)的片段,其来自在胎儿或胎盘中被转录
的基因。来自母体血液样品的这些胎儿遗传元件的提取和随后的分析提供
了用于NIPD的新机会。
本方法是不依赖多态性的方法,其用于NIPD并且其不需要胎儿cfDNA
区别于母体cfDNA来能够确定胎儿非整倍性。在一些实施方式中,非整倍
体是完全染色体三体性或单体性、或部分三体性或单体性。部分非整倍体
起因于部分染色体的损失或收益,以及涵盖染色体失衡,其来自不平衡的
易位、不平衡的倒置、缺失和插入。到目前为止,相容于生命的最常见的
已知的非整倍体是三体性21,即,唐氏综合征(DS),其起因于部分或全
部的21号染色体的存在。很少地,DS可能起因于遗传性或散发性缺陷,
借此全部或部分的21号染色体的额外拷贝变成附着于另一染色体(通常14
号染色体)以形成单异常染色体。DS相关与智能缺陷、严重的学习困难和

死亡率过高,其起因于长期健康问题如心脏病。具有已知临床意义的其他
非整倍体包括爱德华综合征(三体性18)和帕陶综合征(三体性13),在
生命的最初几个月内,其经常是致命的。相关与性染色体的数目的异常也
是已知的并且包括单体性X,例如,特纳综合征(XO)、和在女婴中的三
X染色体综合征(XXX)以及在男婴中的克兰费尔特综合征(XXY)和XYY
综合征,其均相关与各种表型,包括不育性和智力技能的降低。单体性X[45,
X]是妊娠早期流产的常见原因,其占约7%的自然流产。基于1-2/10,000的
45,X(还称为特纳综合征)的活产率,估计,小于1%的45,X受孕将生存
至足月。约30%的特纳综合征患者嵌合有45,X细胞系和46,XX细胞系或含
有重排X染色体的一种细胞系(Hook和Warburton1983)。考虑到高胎儿
致死率,在活产婴儿中的表型是相对温和的,并且已假设,患有特纳综合
征的所有活产女婴可能携带含有两个性染色体的细胞系。单体性X在雌性
中可能发生为45,X或45,X/46XX,以及在雄性中可能发生为45,X/46XY。
通常认为在人中的常染色体单体性不相容于生命;然而,有相当多的细胞
遗传学报告,其描述了在活产儿童中一个21号染色体的全单体性
(VosranovaI等人,MolecularCytogen.1:13[2008];Joosten等人,Prenatal
Diagn.17:271-5[1997]。本文描述的方法可以用来产前诊断这些和其他染色
体异常。
根据一些实施方式,本文披露的方法可以确定染色体1-22、X和Y中
的任一种的染色体三体性的存在或不存在。可以根据本方法加以检测的染
色体三体性的实例包括但不限于三体性21(T21;唐氏综合征)、三体性
18(T18;爱德华综合征)、三体性16(T16)、三体性20(T20)、三体
性22(T22;猫眼综合征)、三体性15(T15;普拉德-威利综合征)、三体
性13(T13;帕陶综合征)、三体性8(T8;Warkany综合征)、三体性9、
以及XXY(克兰费尔特综合征)、XYY、或XXX三体性。以非嵌合状态
存在的其他常染色体的完全三体性是致命的,但当以嵌合状态存在时,可
以相容于生命。应当理解的是,根据本文中提供的教导,可以在胎儿cfDNA
中确定各种完全三体性,不论以嵌合或非嵌合状态存在,以及部分三体性。
可以通过本方法来确定的部分三体性的非限制性实例包括但不限于部
分三体性1q32-44、三体性9p、三体性4嵌合性、三体性17p、部分三体性
4q26-qter、部分2p三体性、部分三体性1q、和/或部分三体性6p/单体性6q。
本文披露的方法还可以用来确定染色体单体性X、染色体单体性21、
和部分单体性如,单体性13、单体性15、单体性16、单体性21、和单体
性22,其已知涉及妊娠流产。还可以通过本文描述的方法来确定通常涉及
完全非整倍体的染色体的部分单体性。可以根据本方法来确定的缺失综合

征的非限制性实例包括由染色体的部分缺失引起的综合征。可以根据本文
描述的方法来确定的部分缺失的实例包括但不限于染色体1、4、5、7、11、
18、15、13、17、22和10的部分缺失,其在下文中描述。
1q21.1缺失综合征或1q21.1(复发性)微缺失是1号染色体的罕见畸
变。紧邻缺失综合征,还存在1q21.1重复综合征。虽然在患有缺失综合征
的情况下,在特定点上存在一部分的DNA丢失,但在患有重复综合征的情
况下,在相同点上存在DNA的类似部分的两个或三个拷贝。文献提到缺失
和重复作为1q21.1拷贝数变异(CNV)。1q21.1缺失可能相关与TAR综合
征(具有Absent半径的血小板减少)。
沃-希综合征(WHS)(OMIN#194190)是相邻基因缺失综合征,其
相关与染色体4p16.3的半纯合子缺失。沃-希综合征是先天性畸形综合征,
其特征是产前和产后生长不足、不同程度的发育性残疾、特征性颅面特点
(鼻子的‘希腊武士头盔’外貌、高额、突出的眉间、距离过宽、高拱形眉、
突出的眼睛、内眦赘皮、短人中、具有向下的角的截然不同的嘴、和小颌)、
和癫痫症。
5号染色体的部分缺失,还被称为5p-或5p减,并且命名为猫叫综合征
(CrisduChatsyndrome)(OMIN#123450),起因于5号染色体
(5p15.3-p15.2)的短臂(p臂)的缺失。患有这种病症的婴儿经常具有高
亢的叫声,其听上去像猫的叫声。上述疾病的特征是智力残疾和延迟发育、
小头尺寸(小头畸形)、低出生体重、和弱肌张力(张力过低)(在婴儿
期中)、独特的面部特征以及可能的心脏缺陷。
威-布综合征(Williams-BeurenSyndrome),也被称为染色体7q11.23
缺失综合征(OMIN194050),是相邻基因缺失综合征,其导致起因于在
染色体7q11.23,其含有大约28个基因,上的1.5至1.8Mb的半纯合子缺
失的多系统疾病。
雅各布森综合征(JacobsenSyndrome),也被称为11q缺失疾病,是
罕见的先天性疾病,其来自11号染色体(其包括带11q24.1)的末端区的
缺失。它可以引起智力残疾、独特的面部外观、和各种各样的身体问题,
包括心脏缺陷和出血性疾病。
18号染色体的部分单体性,被称为单体性18p,是罕见的染色体异常,
其中18号染色体的全部或部分的短臂(p)被删除(单体的)。上述疾病
是通常特征是身材矮小、不同程度的智力低下、语音延迟、头骨和面部(颅
面)区域的畸形、和/或另外的身体异常。相关的颅面缺陷在范围和严重程
度上可能因病例不同而相差很大。
起因于15号染色体的拷贝的结构或数目的变化的病症包括安格尔曼综
合征(AngelmanSyndrome)和普拉德-威利综合征(Prader-WilliSyndrome),
其涉及在15号染色体的相同部分,15q11-q13区,中基因活性的丧失。应
当理解的是,在载体亲本中若干易位和微缺失可以是无症状的,但可能在
后代中会造成重大遗传疾病。例如,携带15q11-q13微缺失的健康母亲能生
出患有安格尔曼综合征,一种严重的神经变性疾病,的孩子。因此,本文
描述的方法、仪器和系统可以用来鉴定在胎儿中的这样的部分缺失和其他
缺失。
部分单体性13q是当丢失13号染色体的一均被涵盖长臂(q)(单体
的)时导致的罕见的染色体异常。天生具有部分单体性13q的婴儿可能表
现出低出生体重、头部和脸部(颅面区)的畸形、骨骼异常(尤其是手和
脚的骨骼异常)、和其他身体异常。智力低下是这种病症的特性。在婴儿
期期间在天生患有这种疾病的个体中死亡率是高的。部分单体性13q的几
乎所有病例是随机发生而没有明显的理由(散发的)。
史密斯-马吉利综合征(Smith-Magenissyndrome)(SMS-OMIM
#182290)起因于在17号染色体的一个拷贝上遗传物质的缺失、或丢失。
这种众所周知的综合征相关与发育延迟、智力低下、先天性异常如心脏和
肾脏缺陷、和神经行为异常如严重的睡眠障碍和自伤行为。在大多数情况
下(90%),史密斯-马盖尼斯综合征(SMS)起因于在17号染色体p11.2
中的3.7-Mb中间缺失。
22q11.2缺失综合征,还被称为迪格奥尔格综合征(DiGeorge
syndrome),是起因于22号染色体的小部分的缺失的综合征。上述缺失(22
q11.2)发生在靠近染色体的中间并在染色体对的长臂上。这种综合征的特
征有很大的不同,甚至在同一家族的成员中,并且影响身体的许多部分。
特征性体征和症状可以包括出生缺陷如先天性心脏疾病、腭缺陷,最常涉
及到关于闭合的神经肌肉问题(腭咽关闭不全)、学习障碍、面部特征的
温和差异、和复发性感染。在染色体区22q11.2中的微缺失相关与精神分裂
症的20至30倍增加的风险。
在10号染色体的短臂上的缺失相关与迪格奥尔格综合征(DiGeorge
Syndrome)样表型。10号染色体p的部分单体性是罕见的,但已在显示迪
格奥尔格综合征的特征的一部分患者中观测到。
在一种实施方式中,本文描述的方法、装置、和系统用来确定部分单
体性,包括但不限于染色体1、4、5、7、11、18、15、13、17、22和10
的部分单体性,例如,利用所述方法还可以确定部分单体性1q21.11、部分
单体性4p16.3、部分单体性5p15.3-p15.2、部分单体性7q11.23、部分单体

性11q24.1、部分单体性18p、15号染色体的部分单体性(15q11-q13)、部
分单体性13q、部分单体性17p11.2、22号染色体的部分单体性(22q11.2)、
以及部分单体性10p。
根据本文描述的方法可以确定的其他部分单体性包括不平衡的易位t
(8;11)(p23.2;p15.5);11q23微缺失;17p11.2缺失;22q13.3缺失;Xp22.3
微缺失;10p14缺失;20p微缺失,[del(22)(q11.2q11.23)],7q11.23和
7q36缺失;1p36缺失;2p微缺失;1型神经纤维瘤病(17q11.2微缺失),
Yq缺失;4p16.3微缺失;1p36.2微缺失;11q14缺失;19q13.2微缺失;鲁
-泰综合症(16p13.3微缺失);7p21微缺失;米-迪综合征(17p13.3);
和2q37微缺失。部分缺失可以是部分染色体的小缺失,或它们可以是染色
体的微缺失,其中可以发生单基因的缺失。
已确定起因于部分的染色体臂的重复的一些重复综合征(参见
OMIN[OnlineMendelianInheritanceinManviewedonlineat
ncbi.nlm.nih.gov/omim])。在一种实施方式中,本方法可以用来确定染色体
1-22、X和Y中的任一种的片段的复制和/或扩增的存在或不存在。可以根
据本方法加以确定的重复综合征的非限制性实例包括染色体8、15、12、和
17的部分的重复,其在下文中描述。
8p23.1重复综合征是罕见的遗传紊乱,其起因于来自人8号染色体的
区的重复。这种重复综合征具有在64,000个出生中有一例的估计流行率并
且互相关联与8p23.1缺失综合征。8p23.1重复相关与可变表型,包括语音
延迟、发育延迟、轻度畸形、具有突出的额和拱形眉、和先天性心脏疾病
(CHD)的一种或多种。
15号染色体q重复综合征(Chromosome15qDuplicationSyndrome)
(Dup15q)是临床上可识别的综合征,其产生于15号染色体q11-13.1的重
复。具有Dup15q的婴通常具有张力过低(不良的肌张力)、生长迟缓;他
们可能天生具有裂唇和/或腭或心脏、肾脏或其他器官的畸形;他们显示出
一定程度的认知迟缓/残疾(智力低下)、言语和语言延迟、以及感觉处理
障碍。
帕里斯特基利安综合征(PallisterKilliansyndrome)是额外的第12号
染色体材料的结果。通常存在细胞的混合物(嵌合性),一些具有额外的
第12号材料,以及一些是正常的(46均被涵盖染色体而没有额外的第12
号材料)。患有这种综合征的婴儿具有许多问题,包括重度智力低下、不
良的肌张力、“粗糙的”面部特征、和突出的额头。他们倾向于具有非常薄的
上唇、较厚的下唇和短鼻。其他健康问题包括癫痫发作、喂养困难、关节

僵硬、在成年期白内障、听力丧失、和心脏缺陷。患有帕里斯特基利安综
合征的人具有缩短的寿命。
患有遗传性疾病,被指定为dup(17)(p11.2p11.2)或dup17p,的个
体携带在17号染色体的短臂上的额外的遗传信息(被称为重复)。17号染
色体p11.2的重复构成波托茨基-Lupski综合征(Potocki-Lupskisyndrome)
(PTLS)的基础,其是是在医学文献中仅报告有几十病例的新认定的遗传
性疾病。具有这种重复的患者经常具有低肌张力、喂养困难、和在婴儿期
期间不能生长发育、以及还存在有运动和言语方面的延迟发育。患有PTLS
的许多个体在发音和语言处理方面具有困难。此外,患者可以具有这样的
行为特征,其类似于在患有自闭症或自闭症-谱群疾病的人中看到的那些行
为特征。患有PTLS的个体可以具有心脏缺陷和睡眠呼吸暂停。在包括基因
PMP22的17号染色体p12中较大区的重复已知会导致沙-马-图病。
CNV已经与死产相关联。然而,由于常规细胞遗传学的固有局限性,
CNV对死产的贡献被认为是代表性不足的(Harris等人,PrenatalDiagn
31:932-944[2011])。如在实施例中所示和在本文中别处描述的,本方法能
够确定部分非整倍体的存在,例如,染色体片段的缺失和扩增,并且可以
用来鉴定和确定相关与死产的CNV的存在或不存在。
用于确定CNV的仪器和系统通常利用各种计算机执行的算法和程序来进行测序数据的分析和从其
衍生的诊断。因此,某些实施方式采用这样的过程,其涉及存储在一个或
多个计算机系统或其他处理系统中的数据或通过一个或多个计算机系统或
其他处理系统传输的数据。本文披露的实施方式还涉及用于执行这些操作
的仪器。这种仪器可以是为所需目的而专门构建,或它可以是通用计算机
(或一组计算机),其由计算机程序和/或存储在计算机中的数据结构所选
择性地激活或重新配置。在一些实施方式中,一组处理器协作地(例如,
经由网络或云计算)和/或平行地执行一些或所有的列举的分析操作。用于
执行本文描述的方法的处理器或处理器组可以是各种类型,包括微控制器
和微处理器如可编程器件(例如,CPLD和FPGA)以及不可编程器件如门
阵列ASIC或通用微处理器。
此外,某些实施方式涉及有形的和/或非暂时性计算机可读媒体或计算
机程序产品,其包括用于执行各种计算机执行操作的程序指令和/或数据(包
括数据结构)。计算机可读媒体的实例包括但不限于半导体存储器件,磁
介质如磁盘驱动器、磁带,光学介质如CD、磁光介质,和硬件器件,其被
特别配置以存储和执行程序指令,如只读存储器件(ROM)和随机存储器
(RAM)。计算机可读媒体可以由最终用户来直接控制或可以由最终用户

来间接控制。直接控制的媒体的实例包括位于用户设施处的媒体和/或并不
与其他实体共享的媒体。间接控制的媒体的实例包括通过外部网络和/或通
过提供共享资源的服务如“云”,用户间接可访问的媒体。程序指令的实例包
括机器码,如由编译器产生的,和包含更高级别的代码的文件,其可以利
用解释程序由计算机来执行。
在不同的实施方式中,在所披露的方法和仪器中采用的数据或信息是
以电子格式来提供。这样的数据或信息可以包括来源于核酸样品的读数和
标记,比对与参比序列的特定区的标记(例如,其比对于染色体或染色体
片段)的计数或密度,参比序列(包括唯一或主要地提供多态性的参比序
列),染色体和片段剂量,调用如非整倍体调用,归一化染色体和片段值,
染色体或片段和相应的归一化染色体或片段的对,咨询建议,诊断等。如
在本文中所使用的,以电子格式提供的数据或其他信息可用于在机器上的
存储以及在机器之间的传输。传统上,数字地提供电子格式的数据并且可
以以各种数据结构。列表、数据库等被存储为位和/或字节。可以以电子方
式、以光学方式等来体现数据。
一种实施方式提供了一种计算机程序产品,用于产生输出,其指示在
测试样品中非整倍体,例如,胎儿非整倍性或癌症,的存在或不存在。计
算机产品可以包含指令,用于执行用来确定染色体异常的任何一种或多种
所述方法。如所解释的,上述计算机产品可以包括非暂时性和/或有形的计
算机可读介质,其具有记录在其上的计算机可执行的或可编译的逻辑(例
如,指令),用于使处理器能够确定染色体剂量以及,在一些情况下,确
定是否胎儿非整倍性是存在或不存在的。在一个实例中,上述计算机产品
包含计算机可读介质,其具有记录在其上的计算机可执行的或可编译的逻
辑(例如,指令),用于使处理器能够诊断胎儿非整倍性,包括:接收程
序,用于接收来自母体生物样品的至少一部分的核酸分子的测序数据,其
中所述测序数据包括计算的染色体和/或片段剂量;计算机辅助逻辑,用于
依据所述接收的数据来分析胎儿非整倍性;以及输出程序,用于产生输出,
其指示所述胎儿非整倍性的存在、不存在或种类。
可以将来自在考虑中的样品的序列信息映射到染色体参比序列以识别
针对感兴趣的任何一个或多个的染色体的每一个的若干序列标签以及识别
针对感兴趣的所述任何一个或多个的染色体的每一个的归一化片段序列的
若干序列标签。在不同的实施方式中,将参比序列存储在数据库中如例如
关系或对象数据库。
应当理解的是,不实际的是,或在大多数情况下甚至不可能的是,独
立的人执行本文披露的方法的计算操作。例如,在没有计算仪器的帮助下,

将来自样品的单30bp的读数映射到人染色体的任何之一可能需要几年的
努力。当然,上述问题是复杂的,因为可靠的非整倍体调用通常需要将数
千(例如,至少约10,000)或甚至数百万的读数映射到一个或多个染色体。
可以利用用于在测试样品中感兴趣的基因序列的拷贝数的评价的系统
来进行本文披露的方法。上述系统包括:(a)测序仪,用于接收来自测试样
品的核酸,从而提供来自样品的核酸序列信息;(b)处理器;以及(c)
一个或多个计算机可读存储介质,其具有存储在其上的用于在所述处理器
上执行的指令,以进行用于确定任何CNV,例如,染色体或部分非整倍体,
的方法。
在一些实施方式中,通过计算机可读介质来指示所述方法,其中上述
计算机可读介质具有存储在其上的用于实施用来确定任何CNV,例如,染
色体或部分非整倍体,的方法的计算机可读指令。因此,一种实施方式提
供了计算机程序产品,其包括一个或多个计算机可读非临时性存储介质,
其具有存储在其上的计算机可执行指令,当由计算机系统的一个或多个处
理器执行时其引起计算机系统实施用来对在包含胎儿和母体无细胞核酸的
测试样品中的感兴趣的序列进行拷贝数的评价的方法。所述方法包括:(a)
提供测试样品的序列读数;(b)将测试样品的序列读数比对与包含感兴趣
的序列的参比基因组,从而提供测试序列标签;(c)确定位于每个bin中
的测试序列标签的覆盖度,其中参比基因组被分成多个bin;(d)提供用
于感兴趣的序列的全局配置参数,其中全局配置参数包含在每个bin中的预
期覆盖度,以及其中预期覆盖度获自训练集的未受影响的训练样品,其以
和测试样品基本相同的方式加以测序和比对,预期覆盖度呈现bin之间的变
化;(e)根据在每个bin中的预期覆盖度,调节测试序列标签的覆盖度,
从而获得在测试序列标签的每个bin中的全局配置参数修正的覆盖度;(f)
针对测试序列标签的bin,基于在GC含量水平和全局配置参数修正的覆盖
度之间的关系,来调节全局配置参数修正的覆盖度,从而获得在感兴趣的
序列上的测试序列标签的样品-GC-修正的覆盖度;以及(g)基于样品-GC-
修正的覆盖度来评价在测试样品中感兴趣的序列的拷贝数。在一些实施方
式中,归一化在步骤(c)中确定的覆盖度。上述归一化可能涉及将覆盖度
除以映射到鲁棒染色体的读数的总数或依据映射到鲁棒染色体的读数的总
数来建模覆盖度(有时还被称为文库深度归一化)。
在一些实施方式中,上述指令可以进一步包括自动记录有关与所述方
法的信息如染色体剂量和在提供母体测试样品的人受试者的患者医疗记录
中胎儿染色体非整倍体的存在或不存在。患者医疗记录可以由,例如,实
验室、医生办公室、医院、健康维护组织、保险公司、或个人医疗记录万

维网站来保留。另外,基于处理器实施的分析的结果,所述方法可以进一
步涉及规定、开始、和/或改变从其取得母体测试样品的人受试者的治疗。
这可能涉及对取自受试者的另外的样品进行一个或多个另外的测试或分
析。
还可以利用计算机处理系统,其被适应或配置以实施用于确定任何
CNV,例如,染色体或部分非整倍体,的方法,来进行披露的方法。一种
实施方式提供了计算机处理系统,其被适应或配置以实施如本文所描述的
方法。在一种实施方式中,上述仪器包括测序装置,其被调整或配置用于
测序在样品中的至少一部分的核酸分子以获得在本文中别处描述的序列信
息的类型。上述仪器还可以包括用于处理样品的部件。这样的部件是在本
文中别处描述的。
可以将序列或其他数据直接或间接地输入计算机或存储在计算机可读
介质上。在一种实施方式中,将计算机系统直接耦合到测序装置,其读取
和/或分析来自样品的核酸的序列。通过在计算机系统中的接口来提供来自
上述工具的序列或其他信息。可替换地,由系统处理的序列提供自序列存
储源如数据库或其他存储库。在处理仪器可获得之后,存储器件或大容量
存储器至少暂时地缓冲或存储核酸序列。此外,存储器件可以存储针对各
种染色体或基因组等的标记计数。上述存储器还可以存储用于分析呈递序
列或映射的数据的各种例程和/或程序。这样的程序/例程可以包括用于执行
统计分析等的程序。
在一个实例中,用户将样品提供到测序仪器。通过连接于计算机的测
序仪器来收集和/或分析数据。在计算机上的软件允许数据收集和/或分析。
可以对数据进行存储,显示(通过监视器或其他类似的装置),和/或发送
到另一个位置。可以将计算机连接到互联网,其用来将数据发送到由远程
用户(例如,医师、科学家或分析师)使用的手持装置。可以理解的是,
在发送之前,可以存储和/或分析数据。在一些实施方式中,收集原始数据
并发送到远程用户或仪器,其将分析和/或存储数据。可以通过互联网,但
也可以通过卫星或其他连接来进行发送。可替代地,可以将数据存储在计
算机可读介质上,并且可以将上述介质运送到最终用户(例如,通过邮件)。
远程用户可以处于相同或不同的地理位置,包括但不限于建筑物、城市、
州、国家或大陆。
在一些实施方式中,所述方法还包括收集关于多个多核苷酸序列的数
据(例如,读数、标记和/或参比染色体序列)并将数据发送到计算机或其
他计算系统。例如,可以将计算机连接到实验室设备,例如,样品收集仪
器、核苷酸扩增仪器、核苷酸测序仪器、或杂交仪器。然后计算机可以收

集由实验室装置收集的可适用的数据。可以在任何步骤中将数据存储在计
算机上,例如,当实时收集时,在发送之前,在发送期间或连同发送一起,
或在发送之后。可以将数据存储在计算机可读介质上,其可以析取自计算
机。可以将收集或存储的数据从计算机发送到远程位置,例如,通过局部
网络或广域网如互联网。在远程位置处,可以对发送的数据进行各种操作
(如下所述)。
在本文披露的系统、仪器、和方法中可以存储、发送、分析、和/或操
作的电子格式数据中有如下:
通过测序在测试样品中的核酸所获得的读数
通过比对读数于参比基因组或其他参比序列所获得的标记
参比基因组或序列
序列标签密度-针对参比基因组或其他参比序列的两个或更多区(通
常染色体或染色体片段)的每一个的标记的计数或数目
针对感兴趣的特定染色体或染色体片段的归一化染色体或染色体片段
的标识
获自感兴趣的染色体或片段和相应的归一化染色体或片段的染色体或
染色体片段(或其他区)的剂量
用于调用染色体剂量作为受影响的、非受影响的、或无调用的的阈值
染色体剂量的实际调用
诊断(相关与调用的临床状况)
来源于调用和/或诊断的用于进一步测试的建议
来源于调用和/或诊断的治疗和/或监测计划
不同的仪器,在一个或多个位置处,可以获得,存储,发送,分析,
和/或操作这些各种类型的数据。处理选项跨越广泛的范围。在范围的一端,
在处理测试样品的位置处,例如,医生办公室或其他临床环境,存储和使
用全部或很多这种信息。在另一端,在一个位置处获得样品,在不同的位
置处处理它并可选地测序,在一个或多个不同的位置处比对读数和进行调
用,以及在又一个位置处(其可以是获得样品的位置)准备诊断、建议、
和/或计划。
在不同的实施方式中,借助于测序仪器来产生读数,然后发送到其中
处理它们的远程站点,以产生非整倍体调用。在此远程位置,作为例子,
使读数比对于参比序列以产生标记,其被计数并指定于感兴趣的染色体或
片段。此外,在远程位置处,利用相关的归一化染色体或片段,将计数转
化为剂量。再进一步,在远程位置处,剂量用来产生非整倍体调用。
在不同的位置处可以采用的处理操作中有以下几种:
样品收集
在测序之前的样品处理
测序
分析序列数据和导出非整倍体调用
诊断
向患者或健康护理提供者报告诊断和/或调用
制定用于进一步治疗、测试、和/或监测的计划
执行上述计划
咨询服务
可以自动化任何一种或多种的这些操作(如在本文中别处描述的)。
通常,将计算上进行序列数据的测序和分析以及导出非整倍体调用。可以
手动或自动地进行其他操作。
可以进行样品收集的位置的实例包括保健医生办公室、诊所、患者家
(其中提供样品收集工具或试剂盒)、和移动医疗保健车。可以在样品处
理之前进行测序的位置的实例包括保健医生办公室、诊所、患者家(其中
提供样品处理仪器或试剂盒)、移动医疗保健车、和非整倍体分析提供者
的设备。可以进行测序的位置的实例包括保健医生办公室、诊所、保健医
生办公室、诊所、患者家里(其中提供样品测序仪器和/或试剂盒)、移动
医疗保健车、和非整倍体分析提供者的设备。其中测序发生有位置可以拥
有专用网络连接,用于发送电子格式的序列数据(通常为读数)。这样的
连接可以是有线或无线的并且已经和可以被配置来将数据发送到可以处理
和/或在传输到处理站点之前聚集数据的站点。可以由保健组织如健康维护
组织(HMO)来保留数据聚集器。
可以在任何前述位置处或可替换地在另外远程站点处,其专用于计算
和/或分析核酸序列数据的服务,来进行分析和/或导出操作。这样的位置包
括例如,群集如通用服务器群、非整倍体分析服务业务的设备等。在一些
实施方式中,租用或租借用来进行分析的计算仪器。计算资源可以是处理
器的互联网可存取收集的一部分如通俗地被称为云的处理资源。在一些情
况下,通过彼此关联或无关联的处理器的并行或大规模并行组来进行计算。
可以利用分布式处理如群集计算、网格计算等来完成处理。在这样的实施
方式中,计算资源的群集或网格共同形成超级虚拟计算机,该计算机组成
自多个处理器或计算机,其一起用来进行本文描述的分析和/或导出。这些
技术以及更常规的超级计算机可以用来处理序列数据(如本文所描述的)。
每一种是一种形式的并行计算,其依赖于处理器或计算机。在网格计算的
情况下,通过网络(专用网络、公共网络、或互联网)并根据常规的网络

方法如以太网来连接这些处理器(通常整个计算机)。相比之下,超级计
算机具有通过局部高速计算机总线加以连接的许多处理器。
在某些实施方式中,在和分析操作相同的位置处产生诊断(例如,胎
儿具有唐氏综合征或患者患有特定类型的癌症)。在其他实施方式中,在
不同的位置处进行它。在一些实施例中,在取得样品的位置处报告诊断,
虽然不必如此。可以产生或报告诊断和/或制定计划的位置的实例包括保健
医生办公室、诊所、通过计算机可访问的互联网站点、和手持装置如手机、
图形输入板、智能手机等,其具有与网络的有线或无线连接。进行咨询服
务的位置的实例包括保健医生办公室、诊所、通过计算机可访问的互联网
站点、手持装置等。
在一些实施方式中,在第一位置处进行样品收集、样品处理、和测序
操作以及在第二位置处进行分析和导出操作。然而,在一些情况下,在一
个位置(例如,保健工作者办公室或诊所)处进行样品收集并在不同的位
置(其可选地是发生分析和导出的同样位置)处进行样品处理和测序。
在不同的实施方式中,可以由启动样品收集、样品处理和/或测序的用
户或实体来触发一系列的以上所列操作。在一个或多个这些操作已经开始
执行之后,其他操作会自然跟随。例如,测序操作可能引起自动收集读数
并发送到处理仪器,其然后,经常自动地并且可能无需进一步的用户干预,
进行非整倍体操作的序列分析和导出。在一些实施方式中,这种处理操作
的结果然后被自动交付,可能重新格式化为诊断,到系统部件或实体,其
处理信息并报告给健康专业人员和/或患者。如所解释的,还可以自动处理
这样的信息以产生治疗、测试、和/或监测计划,可能连同咨询信息。因此,
启动前期操作可以触发端到端的序列,其中健康专业人员、患者或其他相
关方拥有诊断、计划、咨询服务和/或可用于作用于身体状况的其他信息。
即使整个系统的部分被物理分离并且可能远离例如样品和序列仪器的位
置,这也可以被完成。
图5示出用于从测试样品来产生调用或诊断的分散系统的一种实施方
式。样品收集位置01用于获得来自患者如妊娠雌性或假定的癌症患者的测
试样品。然后将样品提供到处理和测序位置03,此处可以处理和测序测试
样品(如上文描述的)。位置03包括用于处理样品的仪器以及用于测序经
处理的样品的仪器。测序的结果,如在本文中别处描述的,是读数的收集,
其通常是以电子格式加以提供并提供到网络如互联网,在图5中其是由参
考数字05来表示。
序列数据被提供到远程位置07,此处进行分析和调用产生。此位置可
以包括一个或多个鲁棒计算装置如计算机或处理器。在位置07处的计算资

源已完成它们的分析并产生来自接收到的序列信息的调用之后,调用被中
继回到网络05。在一些实施方式中,在位置07处不仅产生调用而且还产生
相关的诊断。然后将调用和/或诊断发送整个网络并回到样品收集位置01,
如在图5中所示。如所解释的,这仅仅只是关于相关与产生调用或诊断的
各种操作可以如何在各种位置之间划分的许多变化的一种。一个常见的变
通例涉及在单个位置处提供样品收集以及处理和测序。另一种变化涉及在
和分析和调用产生相同的位置处提供处理和测序。
图6详细说明用于在不同的位置处进行各种操作的选项。在图6中描
述的最精细意义上,在分开的位置处进行以下每个操作:样品收集、样品
处理、测序、读数比对、调用、诊断、和报告和/或计划制定。
在聚集这些操作的一些操作的一种实施方式中,在一个位置处进行样
品处理和测序以及在分开的位置处进行读数比对,调用,和诊断。见由参
考字符A确定的图6的部分。在另一种实施方式中,其是由图6中的字符
B所确定,样品收集、样品处理、和测序均在同样位置处进行。在此实施
方式中,读数比对和调用在是第二位置处进行。最后,诊断和报告和/或计
划制定是在第三位置处进行。在由图6中的字符C描述的实施方式中,在
第一位置处进行样品收集,在第二位置处一起进行样品处理、测序、读数
比对、调用、和诊断,以及在第三位置处进行报告和/或计划制定。最后,
在图6中标记为D的实施方式中,在第一位置处进行样品收集,在第二位
置处进行样品处理、测序、读数比对、和调用,以及在第三位置处进行诊
断和报告和/或计划管理。
一种实施方式提供了用于在包含胎儿和母体核酸的母体测试样品中确
定任何一种或多种不同的完全胎儿染色体非整倍体的存在或不存在的系
统,上述系统包括用于接收核酸样品和提供来自样品的胎儿和母体核酸序
列信息的测序仪;处理器;以及机器可读存储介质,其包含用于在所述处
理器上执行的指令,上述指令包括:
(a)用于获得在样品中所述胎儿和母体核酸的序列信息的代码;
(b)这样的代码,其用于利用所述序列信息来针对感兴趣的任何一个
或多个的染色体(选自染色体1-22、X、和Y)的每一个计算上鉴定来自胎
儿和母体核酸的序列标签的数目,以及针对感兴趣的所述任何一个或多个
染色体的每一个确定至少一个归一化染色体序列或归一化染色体片段序列
的序列标签的数目;
(c)这样的代码,其用于利用针对感兴趣的所述任何一个或多个的染
色体的每一个所确定的序列标签的所述数目和针对每个归一化染色体序列

或归一化染色体片段序列所确定的序列标签的所述数目,来计算对于感兴
趣的任何一个或多个染色体的每一个的单染色体剂量;以及
(d)这样的代码,其用于比较对于感兴趣的染色体的任何一个或多个
的每一个的每个单染色体剂量与对于感兴趣的一个或多个染色体的每一个
的相应的阈值,并从而确定在样品中任何一个或多个完全不同的胎儿染色
体非整倍体的存在或不存在。
在一些实施方式中,用于计算对于每个感兴趣的任何一个或多个染色
体的单染色体剂量的代码包括这样的代码,其用于计算感兴趣的染色体的
所选一种的染色体剂量为针对所选的感兴趣的染色体确定的序列标签的数
目和针对所选的感兴趣的染色体的相应的至少一个归一化染色体序列或归
一化染色体片段序列所确定的序列标签的数目的比率。
在一些实施方式中,上述系统进一步包括这样的代码,其用于重复计
算感兴趣的任何一个或多个染色体的任何一个或多个片段的每个的任何剩
余染色体片段的染色体剂量。
在一些实施方式中,选自染色体1-22、X、和Y的感兴趣的一个或多
个染色体包括选自染色体1-22、X、和Y的至少二十均被涵盖染色体,以
及其中指令包括用于确定至少二十种不同的完全胎儿染色体非整倍体的存
在或不存在的指令。
在一些实施方式中,上述至少一种归一化染色体序列是一组染色体,
其选自染色体1-22、X、和Y。在其他实施方式中,上述至少一种归一化染
色体序列是选自染色体1-22、X、和Y的单染色体。
另一种实施方式提供了用于在包含胎儿和母体核酸的母体测试样品中
确定任何一种或多种不同的部分胎儿染色体非整倍体的存在或不存在的系
统,上述系统包括:测序仪,其用于接收核酸样品并提供来自样品的胎儿
和母体核酸序列信息;处理器;以及机器可读存储介质,其包含用于在所
述处理器上执行的指令,上述指令包括:
(a)代码,用于获得关于在所述样品中所述胎儿和母体核酸的序列信
息;
(b)这样的代码,其用于利用所述序列信息来针对感兴趣的任何一个
或多个的染色体(选自染色体1-22、X、和Y)的任何一个或多个片段的每
一个计算上鉴定来自胎儿和母体核酸的序列标签的数目,以及针对感兴趣
的任何一个或多个染色体的所述任何一个或多个片段的每一个确定至少一
个归一化片段序列的序列标签的数目;
(c)这样的代码,其利用针对感兴趣的任何一个或多个染色体的每一
个所述任何一个或多个片段所确定的序列标签的所述数目和针对所述归一

化片段序列所确定的序列标签的所述数目,来计算对于感兴趣的任何一个
或多个染色体的每一个的所述任何一个或多个片段的单染色体片段剂量;
以及
(d)这样的代码,其用于比较对于感兴趣的任何一个或多个染色体的
每个所述任何一个或多个片段的每个所述单染色体剂量与对于感兴趣的任
何一个或多个染色体的每个所述任何一个或多个染色体片段的相应的阈
值,并从而确定在所述样品中一个或多个不同的部分胎儿染色体非整倍体
的存在或不存在。
在一些实施方式中,用于计算单染色体片段剂量的代码包括这样的代
码,其用于计算染色体片段的所选一种的染色体片段剂量为针对所选的染
色体片段确定的序列标签的数目与针对所选的染色体片段的相应的归一化
片段序列确定的序列标签的数目的比率。
在一些实施方式中,上述系统进一步包括这样的代码,其用于重复计
算感兴趣的任何一个或多个染色体的任何一个或多个片段的任何剩余染色
体片段的每一个的染色体片段剂量。
在一些实施方式中,上述系统进一步包括(i)这样的代码,其用于针对
来自不同母体受试者的测试样品重复(a)-(d);以及(ii)这样的代码,其用于确
定在每个所述样品中任何一种或多种不同的部分胎儿染色体非整倍体的存
在或不存在。
在本文中提供的任何系统的其他实施方式中,上述代码进一步包括这
样的代码,其用于自动记录胎儿染色体非整倍体的存在或不存在,如在针
对提供母体测试样品的人受试者的患者医疗记录中确定的(d),其中利用
处理器来进行记录。
在本文中提供的任何系统的一些实施方式中,测序仪被配置以进行下
一代测序(NGS)。在一些实施方式中,测序仪被配置以进行大规模平行
测序,其中利用合成测序并借助于可逆染料终止子。在其他实施方式中,
测序仪被配置以进行连接测序。在其他实施方式中,测序仪被配置以进行
单分子测序。
实验实施例1原始和富集测序文库的制备和测序a.测序文库的制备-简化方法(ABB)所有测序文库,即,原始和富集文库,制备自大约2ng纯化cfDNA,
其提取自母体血浆。利用NEBNextTMDNASamplePrepDNAReagentSet1
(产品号E6000L;NewEnglandBiolabs,Ipswich,MA)的试剂进行文库制

备,对于如下。由于无细胞血浆DNA在自然界中被片段化,所
以没有通过雾化或超声处理对血浆DNA样品进行进一步片段化。根据
EndRepairModule,在20℃下,通过在1.5ml微离心管中,并
借助于5μl10X磷酸化缓冲液、2μl脱氧核苷酸溶液混合物(每种dNTP为
10mM)、1μl的1∶5稀度的DNA聚合酶I、1μl的T4DNA聚合酶和1μl
T4多核苷酸激酶,其提供在NEBNextTMDNASamplePrepDNAReagentSet
1中,温育cfDNA15分钟,将包含在40μl中的大约2ng纯化cfDNA片段
的突出端转化为磷酸化平端。然后通过在75℃下温育反应混合物5分钟来
热灭活上述酶。将混合物冷却至4℃,以及利用10μl的含有Klenow片段(3’
至5’外减)(NEBNextTMDNASamplePrepDNAReagentSet1)的dA拖尾
主要混合物,并在37℃下温育15分钟,来完成平端DNA的dA拖尾。其
后,通过在75℃下温育反应混合物5分钟来热灭活Klenow片段。在Klenow
片段的灭活之后,1μl的1∶5稀度的IlluminaGenomicAdaptorOligoMix(产
品号1000521;IlluminaInc.,Hayward,CA)用来将Illumina衔接子(非索引
Y衔接子)连接于dA拖尾DNA,其中利用4μl的T4DNA连接酶,其提
供在NEBNextTMDNASamplePrepDNAReagentSet1中,并通过在25℃
下温育反应混合物15分钟。将混合物冷却至4℃,以及衔接子连接的cfDNA
纯化自未连接的衔接子、衔接子二聚体、和其他试剂,其中利用在Agencourt
AMPureXPPCR纯化系统(产品号A63881;BeckmanCoulterGenomics,
Danvers,MA)中提供的磁珠。进行PCR的十八个循环以选择性地富集衔接
子连接的cfDNA(25μl),其中使用High-FidelityMasterMix(25μl;
Finnzymes,Woburn,MA)和Illumina的PCR引物(各自0.5μM),其互补
于衔接子(产品号1000537和1000537)。根据制造商的说明,使用Illumina
GenomicPCR引物(产品号100537和1000538)和在NEBNextTMDNA
SamplePrepDNAReagentSet1中提供的PhusionHFPCRMasterMix,使衔
接子连接的DNA经受PCR(98℃下30秒,98℃下10秒、65℃下30秒、
和72℃下30秒的18个循环,在72℃下最后延伸5分钟,然后保持在4℃
下)。根据在
www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.Ddf.处
可获得的制造商的说明,使用AgencourtAMPureXPPCR纯化系统
(AgencourtBioscienceCorporation,Beverly,MA)来纯化扩增产物。在40μl
的QiagenEBBuffer中洗脱纯化的扩增产物,然后利用用于2100Bioanalyzer
(AgilenttechnologiesInc.,SantaClara,CA)的AgilentDNA1000Kit来分析
扩增文库的浓度和尺寸分布。
b.测序文库的制备-全长方法这里描述的全长方法基本上是由Illumina提供的标准方法,并且仅在扩
增文库的纯化方面不同于Illumina方法。Illumina方法指示,利用凝胶电泳
来纯化扩增文库,而本文描述的方法则是磁珠用于同样的纯化步骤。基本
上根据制造商的说明,利用用于的NEBNextTMDNASamplePrep
DNAReagentSet1(产品号E6000L;NewEnglandBiolabs,Ipswich,MA),
大约2ng的提取自母体血浆的纯化cfDNA用来制备原始测序文库。除衔接
子连接的产物的最后纯化(其是利用Agencourt磁珠和试剂而不是纯化柱来
进行)之外的所有步骤是根据上述方法并伴随NEBNextTM试剂(其用于基
因组DNA文库,其是利用GAII加以测序,的样品制备)来进行。
NEBNextTM方法基本上遵循由Illumina提供的方法,其是在
grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf.处可获得的。
根据EndRepairModule,在热循环仪中的200μl微离心管
中,在20℃下。通过用5μl10X磷酸化缓冲液、2μl脱氧核苷酸溶液混合
物(每种dNTP为10mM)、1μl的1∶5稀度的DNA聚合酶I、1μlT4DNA
聚合酶和1μlT4多核苷酸激酶,其提供在NEBNextTMDNASamplePrep
DNAReagentSet1中,温育40μl的cfDNA30分钟,将包含在40μl中的大
约2ng纯化cfDNA片段的突出端转化为磷酸化平端。将样品冷却至4℃,
然后利用在QIAQuickPCR纯化试剂盒(QIAGENInc.,Valencia,CA)中提
供的QIAQuick柱加以纯化如下。将50μl反应混合物转移到1.5ml微离心
管,然后添加250μl的QiagenBufferPB。将得到的300μl转移到QIAquick
柱,其在微型离心机中在13,000RPM下被离心1分钟。用750μl的Qiagen
BufferPE洗涤上述柱,并再次离心。通过在13,000RPM下另外离心5分钟
来除去残余乙醇。通过离心,在39μl的QiagenBufferEB中洗脱DNA。利
用16μl的含有Klenow片段(3’至5’外减)(NEBNextTMDNASamplePrep
DNAReagentSet1)的dA拖尾主要混合物,并根据制造商的dA-TailingModule在37℃下温育30分钟,来完成34μl平端DNA的dA
拖尾。将样品冷却至4℃,然后利用在MinElutePCR纯化试剂盒(QIAGEN
Inc.,Valencia,CA)中提供的柱加以纯化如下。将50μl反应混合物转移到
1.5ml微离心管,并添加250μl的QiagenBufferPB。将300μl转移到
MinElute柱,在微型离心机中并在13,000RPM下其被离心1分钟。用750μl
QiagenBufferPE洗涤上述柱,然后再次离心。通过在下13,000RPM下另
外离心5分钟来除去残余乙醇。在15μlQiagenBufferEB中通过离心来洗
脱DNA。根据QuickLigationModule,在25℃下,用1μl的
1∶5稀度的IlluminaGenomicAdapterOligoMix(产品号1000521)、15μl
的2XQuickLigationReactionBuffer、和4μlQuickT4DNA连接酶,来温

育10微升DNA洗脱液15分钟。将样品冷却至4℃,然后利用MinElute
柱加以纯化如下。将一百五十微升的QiagenBufferPE加入30μl反应混合
物,并将整个容积转移到MinElute柱,在微型离心机中并在13,000RPM下
其被离心1分钟。用750μlQiagenBufferPE洗涤上述柱,并再次离心。通
过在13,000RPM下另外离心5分钟来除去残余乙醇。在28μlQiagenBuffer
EB中通过离心来洗脱DNA。根据制造商的说明,利用IlluminaGenomicPCR
引物(产品号100537和1000538)和PhusionHFPCRMasterMix,其提供在
NEBNextTMDNASamplePrepDNAReagentSet1中,对二十三分微升的衔
接子连接的DNA洗脱液进行18个循环的PCR(98℃下30秒;98℃下10
秒、65℃下30秒、和72℃下30秒的18次循环;在72℃下最后延伸5
分钟,并保持在4℃下)。根据在
www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处
可获得的制造商的说明,利用AgencourtAMPureXPPCR纯化系统
(AgencourtBioscienceCorporation,Beverly,MA)来纯化扩增产物。
AgencourtAMPureXPPCR纯化系统除去未并入的dNTP、引物、引物二聚
体、盐和其他污染物,并回收大于100bp的扩增子。使纯化扩增产物洗脱
自在在40μl的QiagenEBBuffer中的Agencourt珠,然后利用用于2100
Bioanalyzer(AgilenttechnologiesInc.,SantaClara,CA)的AgilentDNA1000
Kit来分析文库的尺寸分布。
c.根据精简(a)和全长(b)方法制备的测序文库的分析通过Bioanalyzer产生的电泳图示于图7A和7B。图7A示出制备自
cfDNA,其利用在(a)中描述的全长方法纯化自血浆样品M24228,的文
库DNA的电泳图,以及图7B示出制备自cfDNA,其利用在(b)中描述
的全长方法纯化自血浆样品M24228,的文库DNA的电泳图。在两个图中,
峰1和4分别表示15bp下标志物和1,500上标志物;在峰上方的数字指出
文库片段的迁移时间;以及水平线指出整合的设置阈值。在图7A中的电泳
图示出187bp的片段的副峰,以及263bp的片段的主峰,而在图7B中的
电泳图则仅示出在265bp处的一个峰。峰面积的整合导致对于在图7A中
的187bp峰的DNA的计算浓度为0.40ng/μl,在图7A中的263bp峰的DNA
的浓度为7.34ng/μl,以及对于在图7B中的265bp峰的DNA的浓度为14.72
ng/μl。连接于cfDNA的Illumina衔接子已知是92bp,当从265bp减去时,
其指出,cfDNA的峰大小是173bp。可能的是,在187bp处的副峰表示端
-端连接的两个引物的片段。当使用精简方法时,从最终文库产物消除线性
两引物片段。精简方法还消除小于187bp的其他较小片段。在本实施例中,
纯化衔接子连接的cfDNA的浓度是利用全长方法产生的衔接子连接的

cfDNA的浓度的两倍。已经注意到,衔接子连接的cfDNA片段的浓度总是
大于利用全长方法获得的浓度(数据未示出)。
因此,利用精简方法来制备测序文库的一个优点在于,获得的文库始
终包含在262-267bp范围内的仅一个主峰,而利用全长方法来制备的文库
的质量则会变化,如由不同于表示cfDNA峰的峰的数目和移动性所反映的。
非cfDNA产物会占据在流动池上的空间,因而降低测序反应的群集扩增和
随后成像的质量,其构成非整倍体状态的整体指配的基础。精简方法表明
不影响文库的测序。
利用精简方法来制备测序文库的另一个优点在于,平端、d-A拖尾、
和衔接子连接的三酶促步骤需要不到一个小时来完成以支持快速非整倍体
诊断服务的验证和实施。利用精简方法来制备测序文库的另一个优点在于,
平端、d-A拖尾、和衔接子连接的三酶促步骤需要不到一个小时来完成以
支持快速非整倍体诊断服务的验证和实施。
另一个优点在于,在同样的反应管中进行平端、d-A拖尾、和衔接子连
接的三酶促步骤,因而避免多个样品传输,其将潜在地导致材料的损失,
以及更重要的是,导致可能的样品混合和样品污染。
实施例2在双胞胎妊娠中准确的非整倍性检测引言已经表明,利用全基因组大规模平行测序进行的总无细胞DNA
(cfDNA)的非侵入性产前测试(NIPT)是检测胎儿染色体非整倍性的非
常准确和可靠的方法。参见,BianchiDW,PlattLD,GoldbergJD,等人
Genome-WidefetalaneuploidydetectionbymaternalplasmaDNAsequencing.
ObstetGynecol2012;119:890-901;FanHC,BlumenfeldYJ,ChitkaraU,
HudginsL,QuakeSR.Noninvasivediagnosisoffetalaneuploidybyshotgun
sequencingDNAfrommaternalblood.ProcNatlAcadSciUSA
2008;105:16266-71;SehnertAJ,RhecsB,ComstockD,等人Optimal
detectionoffetalchromosomalabnormalitiesbymassivelyparallelDNA
sequencingofcell-freefetalDNAfrommaternalblood.ClinChem
2011;57:1042-9。上述即时测试检测来自单母体血液样品的三体性21、18、
13和性染色体非整倍性。上述即时测试当前指示用于具有10+周并具有胎
儿非整倍性的高风险的单胎妊娠的孕妇。最近,AmericanCollegeof
ObstetriciansandGynecologists(ACOG)、InternationalSocietyforPrenatal
Diagnosis(ISPD)、AmericanCollegeofMedicalGeneticsandGenomics
(ACMG)和NationalSocietyofGeneticCounselors(NSGC)已建议考虑对
具有胎儿非整倍性的高风险的妇女使用NIPT。
在美国,双胞胎占大约30分之一的活产并且双胞胎出生的比率是在增
加(NationalCenterforHealthStatisticsDataBrief,No.80,2012年1月)。
随着女性年龄的增长,她们更可能每个月经周期释放一个以上的卵,因此,
超过30岁的妇女占双胞胎妊娠的增加的约1/3。辅助生殖技术,其中在体
外受精期间,经常传输一个以上的胎儿,占双胞胎妊娠的大部分的其余增
长。
初步证据提示,当相比于单胎妊娠时,在双胞胎妊娠中,在母体循环
中存在的胎儿DNA的量增加大约35%,但上述研究没有看来源于每个胎儿
的cfDNA的量。CanickJA,KlozaEM,Lambert-MesserlianGM,等人DNA
sequencingofmaternalplasmatoidentifyDownsydromeandothertrosomiesin
multiplegestations.PrenatDiagn2012;32:730-4。研究人员已经证明,虽然在
双胞胎妊娠中存在循环胎儿DNA的量的总体增加,但对于每个胎儿的
cfDNA的量则降低。SrinivasannA,BianchiD,LiaoW,SehnertA,RavaR.52:
MaternalplasmaDNAsequencing:effectsofmultiplegestationonaneuploidy
detectionandtherelativecell-ferefetalDNA(cffDNA)perfetus.American
journalofobstetricsandgynecology2013;208:S31.SrinivasanA,Bianchi
DW,HuangH,SehnertAJ,RavaRP.Noninvasivedetectionoffetal
subchromosomeabnormalitocsviadeepsequencingofmaternalplasma.
Americanjournalofhumangenetics2013;92:167-76。因此,需要敏感的方法
以确保在双胞胎妊娠中非整倍体的正确分类。
最大化NIPT准确分类非整倍体样品的能力的因素是在分析中使用的
测序读数的数目的增加,以致统计噪声被最小化以及归一化染色体信号以
致运行间变异性的能力被降低。最近,申请人已开发了一种改善的、自动
化样品制备工作流程,其增加每个样品可用读数的数目,以及一种改善的
分析方法,其会增加非整倍体染色体的特定信号。这些增强特性会改善分
类非整倍体受影响的样品的总体准确性。
此实施例描述了改善的分类算法对迄今使用的最大的双校验群组的应
用。我们证明了,改善的SAFeR(用于胎儿结果的选择算法)算法允许在双
胞胎样品中准确的非整倍体检测,其中上述双胞胎样品已知具有减少量的
无细胞DNA/胎儿。
方法
作为两项独立临床研究的一部分,收集样品,其涉及高风险和平均风
险母体群体。MatErnalBLoodISSource与准确诊断胎儿非整倍性研究
(MELISSA;NCT01122524)被设计用来检测在高危妊娠中的全染色体非整
倍体。BianchiDW,PlattLD,GoldbergJD,等人Genome-widefetal
aneuploidyderectionbymaternalplasmaDNAsequencing.ObstetGynecol

2012;119:890-901。非整倍体风险评价试验的比较(CARE;NCT01663350)
被设计用来表明,对于在平均风险母体群体中的三体性21和三体性18,相
比于常规产前血清筛查方法,即时测试的优越的特异性(提交公布)。数
据集的细节示于表3。通过来自产前侵入性程序的核型或通过新生儿体检来
确定临床结果。
表3:双胞胎样品的核型和即时分类。利用即时产前测试,针对染色体
21、18和13的非整倍体以及针对Y染色体的存在,分析了来自118例双
胞胎妊娠的母体样品。将即时数据比较与通过核型分析或新生儿体检所获
得的临床结果。
无细胞DNA提取自冷冻血浆样品并用如先前所描述的HiSeq2000测序
仪加以测序。SehnertAJ,RheesB,ComstockD,等人Optimaldetectionof
fetalchromosomalabnomalitiesbymassivelyparallelDNAsequencingof
cell-freefetalDNAfrommaternalblood.ClinChem2011;57:1042-9.。将大规
模并行测序(MPS)序列标签映射到人类基因组参比版本hg19并利用改善
的分析工作流程,其最大化信噪比以及改善检测的总灵敏度,针对染色体
21、18、13、X和Y,来计算归一化染色体值(NCV)。算法部分包括改
善的基因组过滤、通过分子生物学步骤引入的系统性偏差的除去以及改善
的归一化和分类方法。进行测序的实验室人员对临床结果是不知情的。
结果在本研究中研究了来自具有临床上定义的结果的118例双胞胎妊娠的
母体血浆样品(表3)。针对研究中的所有样品,产生了针对染色体21、
18和13的非整倍体分类,以及正确确定了来自具有一个或多个非整倍体胎
儿的妊娠的四个样品(图8)。这些样品的两个是来自双绒膜双胞胎对,其
各自具有一个T21受影响的雄性胎儿和一个非受影响的雄性胎儿
(47,XY+21/46,XY);一个是具有47,XY+18核型的单绒膜双胞胎样品;
以及一个样品是双绒膜双胞胎,其中一个双胞胎具有嵌合核型

47,XY+T21[7]/46,XY[11]。在本研究中没有临床上定义的未受影响的样品
((N=114)被分类为受影响的(对于非整倍体)。
可以通过在cfDNA中Y染色体的存在来确定胎儿的性别。本文披露的
测试能够在具有至少一个雄性胎儿的所有样品中阳性鉴定Y染色体的存在
(图8)。此外,上述测试还正确确定在具有两个雌性胎儿的样品中Y染
色体的不存在。
结论
目前的研究表明一种改善的分析方法,其能够进行双胞胎样品的最敏
感的常染色体非整倍体测试。上述增强的分析方法利用了基因组过滤的改
善、系统噪声减小和改善的分类方法。对一组118个双胞胎样品,证实了
改善的分析工作流程的效用;在MPS的任何确认中,数量最多的样品用来
检测在双胞胎中的常染色体非整倍体以及Y染色体的存在(图9)。图9示
出在NIPT研究中分析的双胞胎样品。许多双胞胎样品用于各种研究来评价
市售NIPT测试的性能。CanickJA,KlozaEM,Lambert-MesserlianGM,等人
DNAsequncingofmaternalplasmatoidentifyDomnsyndromeandother
trisomiesinmultiplegestations.PrenatDiagn2012;32:730-4.LauTK,JiangF,
ChanMK,ZhangH,LoPSS,WangW.Non-invasiveprenatalscreeningoffetal
DomnsyndromebymaternalplasmaDNAsequencingintwinpregnancies.
JournalofMaternal-FetalandNeonatalMedicine2013;26:434-7。改善的分析
方法表明可准确地进行,其中通过在群组中,包括针对三体性21为嵌合型
的受影响的胎儿,正确地检测所有三体性21和三体性18样品的存在,而
没有产生任何假阳性结果。另外,改善的分析方法正确地检测在具有至少
一个雄性胎儿的所有双胞胎妊娠中Y染色体的存在,以及并不检测在具有
两个雌性胎儿的任何双胞胎妊娠中的Y染色体。
敏感方法的一个特性是最小化系统噪声和增加总体信噪比的能力。通
过产生比任何其他市售NIPT测定(大约28M测序读数/样品)更多的测序
读数/样品以及通过改善分析方法来更好地处理伴随复杂的DNA样品的生
化操作的系统噪声,目前的研究完成此任务。改善的分析工作流程最终减
小归一化染色体计数分布的宽度,从而允许未受影响的和受影响的群体的
更好的分离以及借助于少量的胎儿DNA来准确地确定非整倍体受影响的
胎儿的改善的能力。
具有非常准确和灵敏的方法来检测在双胞胎妊娠中的非整倍体的能力
是重要的,这是因为,虽然在双胞胎妊娠中无细胞胎儿DNA的总量增加,
但可归因于每个胎儿的量则减少。因此,可以A)忽视此发现和测试样品,

好像它们相当于单胎妊娠,并增加假阴性结果的似然,B)拒绝增加数目的
样品,由于不足的DNA,或C)建立更加敏感的方法(表4)。
表2:利用市售NIPT测试来处理双胞胎妊娠的策略
对SAFeRTM算法的分析改善延伸超过了使得能够在双胞胎妊娠中进行
精确的非整倍体分类。未受影响的与受影响的群体的改善的分离还降低了
被分类为疑似的非整倍体的样品的总频率。另外,改善的分析工作流程可
以应用于单胎妊娠,并在非整倍体检测和性别分类方面具有类似的改善。
总之,目前的研究描述了改善的分析方法,对于含有少量的胎儿DNA
的样品,其导致非整倍体未受影响的与受影响的样品的更好的分离以及更
准确的常染色体非整倍体分类。通过结合这些改善,产前测试能力已被扩
展来测试双胞胎妊娠。
可以以其他特定形式来具体实施本公开内容而不偏离它的精神或基本
特征。所描述的实施方式在各方面仅被看作说明性的而不是限制性的。因
此,公开内容的范围是由所附权利要求而不是由上述描述来限定。在权利
要求的含义和等效范围内的所有变化均被涵盖在它们的范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1