检测染色体异常的方法_4

文档序号:9252013阅读:来源:国知局
因组中的特定位置,典型 地使一定比例的样品阅读被独特匹配和随后被视为染色体指定至大约50%,则阅读才被视 为指定到染色体位置。
[0058] 可以理解,匹配过程最简单地使用一个或多个参考基因组。然而,设想可以使用替 代方法,例如无参考方法,其中分析了来自许多正常和受累的怀孕的累积的序列数据以决 定哪些序列构成对于特定染色体异常例如三体性21而言是潜在失调的序列组。
[0059] 在一个实施方案中,对于完整染色体进行所述匹配分析,例如,所述分析因此将包 括检测过量的指定染色体。在替代的实施方案中,对于所述染色体的一部分进行所述匹配 分析,例如,将仅对染色体的特定预定区来分析匹配。据信本发明的该实施方案通过靶向染 色体的特定区而提供更灵敏的匹配技术。
[0060] 本发明的非严格性匹配分析典型地包括比对评分系统,其中准确率分值为匹配碱 基而指定并且罚分用于取代或错配、在阅读或参考中的模糊(即N)的存在以及在阅读或参 考中的空位(即插入或缺失)的存在。一旦对于每个命中计算了分值后,将所述分值与最 小比对分值阈值比较。通常用于本发明的评分系统使用依照Bowtie2软件的局部比对评分 实例。
[0061] 在一个实施方案中,对于对应于参考基因组中的碱基的核酸内的每个碱基所指定 的准确率分值是正分。在又一实施方案中,对于对应于参考基因组中的碱基的核酸内的每 个碱基,指定为正分+2 (即匹配分值为+2)。例如,Bowtie2软件对于其中阅读字符对齐到 参考字符和字符匹配的每个位置设定匹配分值为+2。匹配分值在Bowtie2软件中被称为 -ma"(或匹配奖分)。
[0062] 在一个实施方案中,对于任何插入、缺失、模糊和/或取代的罚分是减少的分值, 例如负分。
[0063] 在又一实施方案中,对于取代或错配,指定负分为_6 (即错配或取代罚分为-6)。 例如,对于其中阅读字符对齐到参考字符和字符不匹配(和两者都不是N)的每个位置,将 数值6从比对分值中减去。错配或取代罚分在Bowtie2软件中被称为-mp"。
[0064] 在一个实施方案中,对于模糊的负分(N罚分)是-1。例如,对于其中阅读、参考或 这两者含有模糊字符例如N的位置,将数值1从比对分值中减去。模糊或N罚分在Bowtie2 软件中被称为-np"。
[0065] 在一个实施方案中,对于插入或缺失的负分是_5加上对于插入或缺失内的每个 残基的-3。在又一实施方案中,在阅读片段中的空位罚分是-5 (对于空位)和-3 (对于空 位内的每个延伸)。例如,"长度-2"阅读空位总共接受罚分-11 (即空位为_5,空位内的 第一延伸为-3,空位内的第二延伸为_3)。阅读片段中的空位罚分在Bowtie2软件中被称 为-rdg"。
[0066] 在又一实施方案中,参考片段中的空位罚分是-5 (对于空位)和-3 (对于空位内 的每个延伸)。参考片段中的空位罚分在Bowtie2软件中被称为-rfg"。
[0067] 在一个实施方案中,最小比对分值按照下式计算: a+b*ln(L) 其中a和b是指确定用于优化匹配准确率的评分参数,In是指阅读长度(L)的自然对 数。
[0068] 在又一实施方案中,最小比对分值按照下式计算: 20 + 8. 0*ln(L) 其中In是指阅读长度(L)的自然对数。
[0069] 例如,对于20碱基的阅读长度,最小分值阈值是20 + 8*ln20 = 20 + 8*2. 995 = 20+23. 97 = 43. 97。因此,对于20碱基的阅读长度的完美匹配是分值40,其绝不会达到最 小分值阈值43. 97并且因此20碱基的阅读长度将典型地太短而不能被视为匹配。
[0070] 相比之下,对于50碱基的阅读长度,最小分值阈值是20 + 8*ln50 = 20 + 8*3. 91 =20+31.3 = 51.3。因此,对于50碱基阅读长度的完美匹配是分值100,因此,50碱基的阅 读长度将容忍少数错配和indel并且仍然被视为匹配命中。
[0071] 可以理解,最小比对分值的概念需要较短阅读长度以具有较少indel和错配,并 允许较长阅读长度以具有较大数量的indel和错配。因此,在一个实施方案中,核酸片段阅 读包含从大约25bp至大约250bp。
[0072] 还可理解,比对软件的其它实例(即BWA-SW、BWA-MEM和CUSHAW2)以类似于上述 用于Bowtie2的评分系统的方式操作。
[0073] 因此,本文所述的比对分析软件(例如Bowtie2、BWA-SW、BWA-MEM和CUSHAW2)由 于解决了以下问题而特别有优势:(1)准确重复序列;(2)均聚物运行;(3)频繁的indel误 差;(4)基因组中的重复序列;和(5)在很大程度上,拷贝数变异。
[0074] 比例计算 依照本文限定的匹配分析,一旦命中总数被指定到指定染色体,则典型地将命中标准 化到共同数值(适宜地,每一百万命中)。然后按照简单数学运算,计算相比在其它染色体 上的命中,靶染色体的每个命中的比例--其一个实例在本文的实施例1中描述。
[0075] 除了如上文所述标准化到一个共同数值外,典型地可使用的是能够估计母体血浆 DNA中的胎儿来源的部分;这将证实母体血浆DNA样品中有足够胎儿DNA用于检测胎儿染 色体异常。例如,在一个实施方案中,本发明的方法额外地包括根据样品内的胎儿DNA的量 来标准化或调整匹配命中数的步骤。
[0076] 统计显著性 为了将本发明的诊断检验放置在统计学基础上,本发明的方法额外地包括计算靶染色 体的每个命中相比在其它染色体上的命中的比例的统计显著性的步骤。在一个实施方案 中,统计显著性检验包括依照减少的统计数据的常规统计学分析来计算z-分值。然而,可 以理解,本领域技术人员可以应用其它统计学方法。
[0077]当在统计比例"靶染色体/其它染色体"中的误差分布假设为大约正常的情况下, z-分值表明要素距离平均数有多少标准差。
[0078]z-分值可以根据下式计算:z=(X-y) / 〇 其中z是z-分值,X是要素值,y是群体平均值,〇是群体值的标准差。当按照本发 明测试三体性21的存在时,对于统计比例,z-分值为2. 0或更高,表明该统计比例值指示 三体性21怀孕的概率为大约98%。
[0079]预测性别的方法 染色体YDNA(其遗传自胎儿的父系)的存在,是男性胎儿的诊断标记。本发明的进 一步的方面是如染色体Y序列的存在所指示,检测胎儿性别。
[0080]当胎儿是女性,排除使用Y染色体组分,然而替代父系遗传的Y-染色体,可以检 测来自父系的基因等位基因。这其中是胎儿SNP(单核苷酸多态性),这是明显的,因为 等位基因以母体血浆DNA中的DNA序列的少数组分而存在(Dhallan等乂,Lancet369, 474-481)。当如同本发明中,仅对胎儿基因组部分测序时,遗传自胎儿父亲、并且作为不同 于相对更丰富的母体等位基因的变体而检测的这些等位基因数量,是作为胎儿的血浆DNA 部分的函数。这提供了替代的、性别非依赖的、评价胎儿来源的母体血浆DNA部分的方法。
[0081] 依照本发明的第二方面,提供在怀孕的女性受试者中预测胎儿性别的方法,所述 方法包括以下步骤: (a) 自所述怀孕的女性受试者中获得生物样品; (b) 获得在所述生物样品内的核酸分子的序列数据; (c) 在所述序列数据内的每个核酸序列和对应于参考基因组的独特部分的序列之间 进行匹配分析,使得每个匹配的核酸被指定到所述参考基因组内的特定染色体或所述染色 体的一部分,其中所述匹配分析对于对应于所述参考基因组中的碱基的每个核酸内的每个 碱基产生准确率分值并对于任何插入、缺失、模糊和/或取代产生罚分,使得如果每个核酸 的总分值达到预定分值阈值,匹配被指定;和 (d) 测定指定到Y染色体的匹配的核酸总数相对于指定到一个或多个参考染色体的 每个的匹配的核酸总数的比例; 其中高于预定比例的匹配的Y染色体序列的存在表明存在男性胎儿,而低于预定比例 的匹配的Y染色体序列的存在表明存在女性胎儿。
[0082] 在怀男胎时,Y-染色体材料的数量是作为胎儿来源的血浆DNA部分的度量。当胎 儿是女胎时,该度量不适用,并且采用其它方式来测定作为胎儿的血浆DNA部分。技术人员 显而易见的是,可以分析作为高多态性的(例如短串联重复序列)的替代的父系来源的等位 基因变体,以定量测定血浆中的胎儿DNA部分。
[0083] 可以理解,对于本发明第一方面的检测方法的所有实施方案都等同地适用于本发 明第二方面的性别预测方法。
[0084] 以下研宄说明了本发明: 实施例1:血浆样品中的三体性21的检测 为了评价本发明方法在诊断三体性21中的有效性,按照常规程序,血浆样品分别得自 正常怀孕和三体性21怀孕(例如自受试者抽取5-20ml血液样品并分离血浆,随后提取血 浆DNA)。
[0085] 然后对血衆DNA进行序列分析,使用IonTorrentPGM装置。例如,连接衔接头, 制备文库和进行乳化PCR,然后进行序列分析。
[0086] 然后对于大量单个分子,典型地1-10百万
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1