一种检测胎儿染色体非整倍体的方法及系统的制作方法

文档序号:9722766阅读:710来源:国知局
一种检测胎儿染色体非整倍体的方法及系统的制作方法
【技术领域】
[0001] 本发明涉及医疗检测领域,具体涉及一种检测胎儿染色体非整倍体的方法及系 统。
【背景技术】
[0002] 胎儿染色体非整倍体是由染色体数目或结构异常而发生的疾病,其中21三体(唐 氏综合征,DS )、18三体(爱德华氏综合征)、13三体综合征(帕陶氏综合征)是临床最常见和 最易出现的染色体异常疾病,且21三体最为常见,发病率为1/800~1/600。
[0003] 现有的产前诊断技术是通过侵入性方法如羊膜穿刺或绒毛膜绒毛取样获取胎儿 组织,进行FISH分析或者染色体核型分析。但这些技术均为有创性的,可能引起流产、胎儿 损伤、出血、感染等。虽然目前国内外广泛采用的孕妇血清标记物筛查和超声检查方法是无 创的,但检测结果的假阳性率和假阴性率都比较高,且极易受孕周等因素影响。
[0004] 1997年,Lo等在母体血浆中发现了游离的胎儿DNA,这为无创产前诊断提供了新的 可能性。但由于孕妇血浆中胎儿游离DNA的含量少,处于一种高母体DNA的背景下,难以获得 胎儿基因组的基因或染色体的信息,使得检测母体血浆样品中由非整倍体胎儿造成的染色 体比例呈现的小变化难以发现。为了克服以上问题,高通量测序技术被运用于染色体非整 倍体疾病的无创检测。
[0005] 利用高通量测序技术对胎儿染色体非整倍体进行检测的方法相比传统方法具有 明显优势。该方法只需抽取母体外周血进行检测,可避免传统的侵入性方法可能给孕妇和 胎儿带来的危害;另外直接检测母亲和胎儿的DNA序列,相比于检测血清蛋白标志物和超声 波检测,准确性、灵敏度及可靠性都大大提高。
[0006] 2008年,RossaW.K. Chiu等提出了一种利用大规模高通量测序进行胎儿染色体非 整倍体的无创产前诊断方法。该方法通过提取孕妇外周血血浆中的游离DNA,进行新一代高 通量测序,通过分析高通量测序得到的大量碱基序列信息,得到单条染色体碱基序列数在 总的碱基序列中的占比,并将该值与参考数据库中正常孕妇血样构建的该染色体含量占比 的阈值进行比较,使用z值检验以判断胎儿是否具有非整倍体异常。
[0007] 然而,在样本文库制备和上机测序过程中容易产生GC偏好性,严重影响胎儿非整 倍体检测的灵敏度和特异度。针对这一问题,Fan和Quake等提出了一种将基因组各染色体 进行等长划分为非重叠区段(BIN),根据不同区段的GC密度为每个区段分配权重,通过乘以 相应权重以优化每个区段的读段数,以去除GC偏差效应。
[0008] 华大基因
[0009] 利用GC含量与染色体覆盖深度之间的关系,重新确立每条染色体的拟合覆盖深 度。基于拟合覆盖深度,建立二元假设:一个零假设(H0:所述胎儿是整倍性)是假定患者案 例分布的平均覆盖深度和所有正常参考分布的平均覆盖深度相等,意味着如果零假设被接 受则该患者案例是整倍体;另一个零假设(H1:所述胎儿是非整倍性)是具有不良胎儿占比 的患者案例分布的平均覆盖深度等于具有相同胎儿占比的非整倍性案例分布的平均覆盖 深度。这意味着如果该零假设被接受则该患者案例是非整倍体。最后使用对数似然比推断 胎儿是否为二体。
[0010] 贝瑞和康
[0011]方法一:发现在母体血浆中的胚胎DNA大部分为lOObp到250bp的片段,且各个染色 体占总DNA的比例与各个染色体占母体血浆中100bp-250bp之间的任意一点或任意一个区 间的DNA的比例是一致的。因此本发明的方法仅需要测定10 0 bp到2 50 bp之间的任意一点或 任意一个区间的DNA中的每段DNA来自几号染色体,并计算在同一样本内100bp-250bp之间 的任意一点或任意一个区间的所有DNA中来自待测染色体与来自参考染色体的DNA片段数 的比值,并计算各样本间所述比值的变异,根据变异的数值确定待测染色体的拷贝数。
[0012]方法二:所测得的来自各个染色体的DNA片段的GC含量分别与来自各个染色体的 DNA片段占总DNA片段的比值具有一定的线性关系,上述现象可能与检测的方法相关,该线 性关系可用y = ax+b表示,其中y代表来自待测染色体的DNA片段的GC含量,X代表来自待测 染色体的DNA片段数量占总DNA的比值,a和b是常数,对于不同的染色体a和b可以是不同的 值,可根据所述来自待测染色体的DNA片段中的GC含量对所述比值进行校正,并计算待测样 本中所述来自待测染色体的DNA片段校正后的比值的变异,根据所述变异的程度确定待测 染色体的拷贝数。
[0013]爱健
[0014] 提出了一种消除染色体间测序GC偏好性的方法。对每个Bin获得的样品的染色体 的碱基百分比进行k均值聚类分析,然后根据每条常染色体所在的类别,在每个类别内分别 运用H.Christina Fan提供的方法进行GC校正。其z值计算方法依据参考数据库的均值和方 差,即RossaW.K.Chiu等提出的方法。
[0015] 目前的方法都只考虑了GC偏好性对测序深度的影响,而未考虑不同碱基序列组合 组成的片段本身造成的测序深度偏差。
[0016] 目前的方法大部分都基于大量正常样品建立的参考数据库计算均值和方差进而 得到Z值,判断待测样本是否为非整倍体。
[0017] 然而由于生物样品的复杂性,下一代测序技术的局限性,实验操作的随机性等客 观因素的存在,基于参考数据库的数据分布得到的z值,未能有效消除多种客观因素的影 响,容易导致检测结果出现偏差。
[0018] 本发明提供的方法结合GC校正和Bin off set校正,得到更为准确的样本测序深 度,更好的反映样本本身的特征,针对校正后的结果,本发明提供了一种更为适用的z值计 算方法,直接与样品自身的其他染色体比较,进而判断样本是否发生非整倍体异常。

【发明内容】

[0019] 本发明的目的是克服现有技术的不足,本发明一方面提供了一种去除不受实验操 作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法及系统。
[0020] 本发明另一方面提供了一种用于通过对孕妇外周血游离DNA进行大规模平行测序 的胎儿染色体非整倍体的无创检测方法和系统。
[0021] 本发明采用的技术方案为:
[0022] -种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的 测序深度偏差的方法,该方法包括如下步骤:
[0023] 1)、大量正常孕妇血样的游离DNA进行高通量测序,获取各样品的多核苷酸片段的 碱基序列信息,又称读段;
[0024] 2)、将各样品测序所得的喊基序列与人基因组参考序列进彳丁比对,获取序列的在 基因组上的位置信息;
[0025] 3)、根据各样品的比对结果,去除由文库构建和上机测序中的PCR扩增导致的重复 读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比 对读段;
[0026] 4)、将各样品的唯一比对读段数均归一化为10M,按照读段比对后的位置信息将其 分配到基因组各染色体以20K等长划分的非重叠区段,统计分配到各区段上的读段数;
[0027] 5)、去除高变区段,然后进行GC校正;
[0028] 6)、计算所有检测样品的各染色体上的同一区段对应的读段数的中位数,计算公 式如下:
[0029]
[0030]其中i表示第i个区段,Countin表示第η个样品对应的第i个区段的读段数;
[0031] 7)、根据上一步得到的结果,计算每条染色体每个区段对应的读段数的中位数的 中位数;计算公式如下:
[0032]
[0033]其中m为区段个数;
[0034] 8)、每个区段对应的读段数的中位数与上一步所得的对应染色体的区段的读段数 的中位数的中位数之间的差值即为区段的偏移基线。
[0035] 9)、对待测样本各染色体划分的等长区段进行偏移校正,即利用上述步骤得到的 偏移基线与其对应的每条染色体划分的等长区段所分配的片段数进行相应的调整;
[0036] countn〇rm=countgc+bin_offset
[0037] 其中countgc表示区段GC校正后对应的读段数,bin_offset表示区段对应的偏移校 正值,COUntmrm表示区段偏移校正后的对应的读段数。
[0038] 上述方法中,所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度 的三倍的区段。
[0039] 上述方法中,所述的正常孕妇血样的样品数为100-1000。如一般可以选择100、 200、500、1000 〇
[0
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1