染色体三倍体检验方法

文档序号：6620118阅读：1277来源：国知局

染色体三倍体检验方法
【专利摘要】本发明公开了一种染色体三倍体检测方法，包括：将测试样本的测序结果比对到参考序列上，得到比对结果；将比对结果按GC含量进行分组；根据分组结果采用相关分析法得到与待检测染色体最相关的染色体以及相关统计量；对最相关的染色体以及相关统计量进行回归分析以计算待检测染色体对应的Z值，根据Z值与预设阈值的比较结果判断出待检测染色体为三倍体的概率。本发明的有益效果是：通过不同染色体的GC含量的相关性，采用典型相关分析法来确定待检测染色体与其它染色体的相关性，进而确定出待检测染色体对应的Z值，由此确定待检测染色体为三倍体的概率，而不是计算GC修正系数，避免了GC修正系数计算中引入的误差，从而去掉GC?bias在测序中的影响。
【专利说明】染色体三倍体检验方法

【技术领域】
[0001] 本发明涉及基因组学及生物信息学【技术领域】，具体涉及无创产前诊断胎儿染色体三倍体检验方法。

【背景技术】
[0002] 染色体非整倍体病变是胎儿最常见的染色体畸形，对胎儿染色体非整倍体病变是降低出生缺陷、提高出生人口素质的重要手段。依据染色体类别不同可分为常染色体非整倍体和性染色体非整倍体。常染色体非整倍体主要包括21-三体（唐氏综合征）、18-三体 (爱德华氏综合征）和13-三体（帕陶氏综合征），其中以21-三体最为常见。
[0003] 目前染色体异常的产前诊断技术分为有创产前诊断技术和无创产前诊断技术。有创产前诊断技术（包括绒毛取材术、羊膜腔穿刺术和经皮脐血管穿刺）通过在妊娠期获取胎儿来源细胞，进行染色体核型检测，如果发现并确诊染色体异常，则可以于分娩前尽早终止妊娠，但有创产前技术带来的风险就是可能引起流产、感染等。孕妇外周血中胎儿游离 DNA的发现为无创产前诊断技术奠定了坚实的基础，通过采取孕妇静脉血，利用新一代DNA 测序技术对母体外周血中的游离DNA片段进行测序，并将测序结果进行生物信息学分析，通过分析得到每条染色体检测的碱基占所有检测碱基的百分比，并将该值与由正常血样所构建的阈值作比较，从而可以确定胎儿是否具有非整倍体异常。
[0004] 这种无创DNA产前诊断信息分析存在两大难点：一方面孕妇外周血中胎儿遗传物质所占的比例很低，并且该比例随着孕妇个体的差异会有明显的不同。另一方面测序过程中GC bias (鸟噪呤和胞啼陡偏差，Guanine Cytosine bias)会极大的影响诊断的精确度，在胎儿系数很低的情况下，GC的影响会让无创产前中三倍体的诊断更加困难。胎儿系数是指胎儿DNA占外周血中母体DNA的比例，如果是胎儿自己的全血DNA，如存在21-三体综合征，则其21号染色体的深度是其它染色体的1. 5倍（即三条21号染色体/两条正常染色体）。但是外周血中胎儿的DNA的比例通常不可能是1，一般是0. 03-0. 3,这个比例越高，则检测外周血的21号染色体的深度就越容易。如果是21-三体综合征，则21号染色体的深度就越明显的偏高。例如胎儿DNA的比例（即胎儿系数）是0.3,那么，如果胎儿是具有 21-三体综合征，则从母体取的外周血做的产前诊断中，理论上21号染色体的深度应该是其它染色体的深度的1. 15倍。但是一般来说胎儿系数都很低，不会有0. 3这么高，而GC的影响又对染色体深度的影响比较大，这也是一定要做GC修正的原因，否则低到0. 1左右的深度差异的检测结果通常不准确。

【发明内容】

[0005] 根据本发明的一方面提供一种染色体三倍体检测方法，包括：将测试样本的测序结果比对到参考序列上，得到比对结果；根据GC含量对比对结果中各染色体进行分组，得到各染色体对应的GC含量的读长序列的数目；确定第一相关统计量和第二相关统计量，所述第一相关统计量为待检测染色体与另一染色体的关于读长序列的数目的比值，所述第二相关统计量为另外一对染色体的关于读长序列的数目的比值，根据典型相关分析法，计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数，得到与所述待检测染色体最相关的染色体；对所述最相关的染色体以及相关系数进行回归分析以计算待检测染色体对应的Z值，根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。
[0006] 依据本发明的另一方面提供一种染色体非整倍性检测装置，包括：数据输入单元，用于输入数据；数据输出单元，用于输出数据；存储单元，用于存储数据，其中包括可执行的程序；处理器，与数据输入单元、数据输出单元及存储单元数据连接，用于执行存储单元中存储的可执行的程序，该程序的执行包括完成上述染色体三倍体检测方法。
[0007] 依据本发明的再一方面提供一种计算机可读存储介质，用于存储供计算机执行的程序，本领域普通技术人员可以理解，在执行该程序时，通过指令相关硬件可完成上述染色体三倍体检测方法的全部或部分步骤。所称存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。
[0008] 本发明的有益效果是：通过不同染色体的GC含量的相关性，采用典型相关分析法来确定待检测染色体与其它染色体的相关性，进而确定出待检测染色体对应的Z值，由此确定待检测染色体为三倍体的概率，而不是计算GC修正系数，避免了 GC修正系数计算中引入的误差，从而去掉GC bias在测序中的影响。

【专利附图】

【附图说明】
[0009] 为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图作简单地介绍，其中：
[0010] 图1为本发明一种实施例的染色体三倍体的检测方法的流程示意图；
[0011] 图2为不采用本发明的一种示例中测试样本的相对覆盖度的示意图；
[0012] 图3为本发明一种示例中染色体为i = 13、j = 1、i' = 1、j' = 4的&和氏，」，的不意图；
[0013] 图4为本发明一种示例中正常染色体样本的Z值的直方图分布示意图；
[0014] 图5为本发明一种示例中正常染色体样本的Z值的Q-Q示意图；
[0015] 图6为本发明一种示例中染色体为i = 18、j = 1、i' = 1、j' = 5的&和氏，」，的不意图；
[0016] 图7为本发明一种示例中染色体为i = 21、j = 19、i' = 8、j'= 19的氏」和Rn，的示意图。

【具体实施方式】
[0017] 本发明采取一种新的思路，不再去计算GC的修正系数，而通过"样品内比对到不同染色体的reads受到GC的影响是一致的，S卩，不同染色体的GC bias有明显的相关性，从而比对到不同染色体的reads数也应该有明显的相关性"这个原理，通过典型相关分析的方法，找到不同染色体应该有在怎样的修正系数下有最大的相关性来去除GC的影响。本发明的方法可以对测序中GC bias的去除提供一个新的思路，且经试验，该方法在产前诊断项目产生了良好的效果，能够以较高的检验精度给出染色体的三倍体检验结果。
[0018] 下面通过【具体实施方式】结合附图对本发明作进一步详细说明。
[0019] 实施例1
[0020] 依据本发明的一种实施方式，提供一种染色体三倍体检测方法，参考图1，包括如下步骤S11?S17。
[0021] 步骤S11，将测试样本的测序结果比对到参考序列上，得到比对结果。
[0022] 测试样本是指需要进行染色体三倍体检测的个体，例如进行产前检测的孕妇。本实施例中测试样本的来源不受特别限制，例如可以选自：孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞等，只要能够从中提取出含有胎儿遗传信息的核酸样本即可。本实施例中，测试样本优选为来自孕妇的含有胎儿DNA的外周血，这样可以对胎儿进行无创产前检测且样本获取方式简便。由于样本中除胎儿核酸外还包含孕妇自身核酸，因此为避免干扰检测结果，孕妇本身应当无染色体三倍体问题，当然，这种判断通常是十分明显的。在其他实施方式中，也可以使用有创方法获得的样本，例如样本可以来自胎儿的脐带血、胎盘组织或绒毛膜组织、未培养或培养过的羊水细胞、绒毛组细胞等。本实施例对从样本中提取用于测序的核酸的方法和设备不作限定，可以采用各种已有的手段进行，例如商品化的核酸提取试剂盒。下文提及的正常样本涉及正常胎儿，即胎儿无染色体三倍体问题。
[0023] 依据本发明的实施方式对样本的测序方法和设备没有特殊依赖，通常会将提取自样本的核酸进行打断，并根据所选用的测序方法进行相应的文库（library)制备，然后进行测序。例如，可选用第三代测序平台（Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010Jan ; 11 (1) : 31-46)，包括但不限于Helicos 公司的真实单分子测序技术（True Single Molecule DNA sequencing)，Pacific Biosciences 公司的单分子实时测序（single molecule real-time (SMRTTM))，以及 Life Technologies 公司的半导体测序技术等。
[0024] 测试样本的测序结果包括多个读长序列（即reads，也称"读段"）。序列比对是指一个或多个核酸序列与参考序列（reference)进行比较的过程，常见为将一段较短的核酸序列（如reads)与参考基因组序列相比较，以确定较短核列在参考基因组上的位置。在将测序结果比对到参考序列时，可使用各种比对软件，例如Tmap，BWA (Burrows-Wheeler Aligner)，S0AP(Short Oligonucleotide Analysis Package)，samtools 等，本实施例对此不作限定。根据比对软件，可采用容错（即允许有若干个碱基错配（mismatch))或不容错比对，采用容错比对时，一般平均l〇〇bp允许有1?3个容错。这里所使用的参考序列是已知序列，可以是预先获得的目标个体所属生物类别中的任意的参考模板。例如，若目标个体是人类，参考序列可选择美国国家生物技术信息中心（NCBI，national center for biotechnology information)数据库中的人类基因组参考序列。本实施方式中，参考序列选择为NCBI数据库中版本37. 3(hgl9 ;NCBI Build37. 3)的人类基因组参考序列。
[0025] 在本实施例中，将原始reads (即测试样本的测序结果）比对到reference时，只选取unique比对的reads (即只比对到一个位置上的reads,又称唯一比对序列unique kmer，是指定位到参考序列唯一位置的序列）或者说是0错配（即(Mismatch)的reads, 以尽量减少测序错误导致的对数据分析的影响，因为非unique的reads可能比对到多个染色体，对染色体的深度产生影响。对于X和Y染色体，为了计算胎儿系数和辨别性别更加准确，一种实施例中还再去掉lmismatch下会比对到其它染色体的reads。
[0026] 步骤S13,将比对结果（即步骤S11比对后选取出的reads)按GC值（又称GC含量）进行分组，即统计比对到染色体为i、GC值为γ的reads个数，将其记为n iiY。
[0027] 对于一个测试样本，可以根据测试结果计算该测试样本的GC含量。分组的数目是按照reads的长度决定，例如，若reads的长度为35bp，则对应有35个GC值，从0/35到 35/35(即0到1)。实施例中，染色体i是染色体1-46号染色体中的任一个。
[0028] 步骤S15,对分组结果采用相关分析法找出与待检测染色体i最相关的染色体。
[0029] 典型相关分析法是为了找出两组变量軋A2, A3，…，Ap和&，B2, B3，…，Bp之间的相关关系而分别对两组变量求线性组合A' = Afap A2*a2, A3*a3,…，Ap*ap和B' = Bfbi，B2*b2, B3*b3，…，Bp*bp，使得线性组合后的两个变量A'和B'相关性最大。本实施例是通过统计学的方法找到和染色体i关联最强（即相关性最高）的一些染色体，并利用这些染色体和染色体i的相关关系进行回归，从而对染色体i进行检测。而在本实施例中，假设存在染色体i、j、i'、j'（j尹i，j'尹i'，i'尹i，i'尹j'），则可以通过典型相关分析法找出使这四条染色体相关性最大的可能。
[0030] 简明起见，将染色体为i、GC值为γ的reads个数niY与染色体为j、GC值为γ 的reads个数njY的比值记为RijY (即RijY = (niY/njY))，其中i是待检测的染色体，j是除染色体i外的其它染色体。由于相同GC值的reads对应的不同染色体的GC bias在一次测序中相同，所以RijY理论上只与染色体为i、j且GC值为γ相关的量，与其它成正比，其中 Ri，j，γ，含乂类似 Rij γ，即 Ri，j，γ，= (IV γ，/llj，γ，）。
[0031] 也就是说，对于本实施例，RijY和Ri，j，γ，分别代表这四个染色体i、j、i'、j'所组成的两组向量（例如两个s*35的矩阵，s表示样本的总个数），需要利用典型相关分析法找出两个系数向里 γ 和％，j，γ，，使1% …+Rij35*aij35 和 Ri，j，l*ai，j，1 +氏，」，2%，」，2+氏，」，3%，」，3+-+氏，」， 35%，」，35这两个新的线性组合后的向量相关性最大。因为如果相关性越高，则后续做回归分析时，回归后残差的标准差就越小，而残差标准差越小，则用于计算的染色体Z值就越精确，由此可以提高染色体检验结果。
[0032] 本实施例中，计算氏」作为染色体i和染色体j之间的比值，即
[0033]

【权利要求】
1. 一种染色体三倍体检测方法，其特征在于，包括：将测试样本的测序结果比对到参考序列上，得到比对结果；根据GC含量对比对结果中各染色体进行分组，得到各染色体对应的GC含量的读长序列的数目；确定第一相关统计量和第二相关统计量，所述第一相关统计量为待检测染色体与另一染色体的关于读长序列的数目的比值，所述第二相关统计量为另外一对染色体的关于读长序列的数目的比值，根据典型相关分析法，计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数，得到与所述待检测染色体最相关的染色体；对所述最相关的染色体以及所述相关系数进行回归分析以计算待检测染色体对应的Z 值，根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。
2. 根据权利要求1所述的方法，其特征在于，所述确定第一相关统计量和第二相关统计量这一步骤包括：计算第一相关统计量氏0和第二相关统计量RiM，Y，，Rm表示第一读长序列的数目n iY 与第二读长序列的数目nh的比值，所述第一读长序列对应待检测染色体i且GC分量为 Y，所述第二读长序列对应染色体j且GC分量为γ，&,」,γ，表示第三读长序列的数目rv γ, 与第四读长序列的数目IV γ，的比值，所述第三读长序列对应待检测染色体i'且GC分量为 Y'，所述第四读长序列对应染色体j'且GC分量为γ' ；计算待检测染色体i与另一个染色体j之间的第一相关统计量Rm计算公式为
计算另外一对染色体i'和j'之间的第二相关统计量Rq，，计算公式为
其中和aq，γ，均为相关系数。
3. 根据权利要求2所述的方法，其特征在于，所述根据典型相关分析法，计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数，得到与所述待检测染色体最相关的染色体这一步骤包括：所述相关系数的计算公式为{30 4，」，￥，}=3找11^(〇〇1'(1^，1^，」，）），其中31」￥和 ai，j，γ，为待计算的相关系数，c〇r (Rij，氏，j，）表不求取Rij和氏，j，的相关系数；所述与所述待检测染色体最相关的染色体包括多组使Ru和Ru，相关系数较高的染色体j、i'和j'，i表示待染色体。
4. 根据权利要求1所述的方法，其特征在于，所述对所述最相关的染色体以及所述相关系数进行回归分析以计算待检测染色体对应的Z值这一步骤包括：构建染色体关系模型，所述模型为：如果染色体k正常，则Rta = α + β RkV + ε，如果染色体k为三倍体，则
，其中m、m'和k'为不同于k的染色体，Rta为染色体k与m之间的统计量，RkVS染色体k'与m'之间的统计量，α和β为待求取的系数，ε为残差，e为胎儿系数；根据所述最相关的染色体以及相关统计量，采用最小二乘法对所述模型进行计算，得到α和β，并估算出残差ε及残差的标准差δ ; 所述待检测染色体对应的Ζ值等于所述残差与残差的标准差的比值，对于正常的染色体，其Ζ值服从标准正态分布，对于三倍体染色体，其Ζ值服从的正态分布为
5. 根据权利要求4所述的方法，其特征在于，所述根据所述Ζ值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率这一步骤包括：比较所述Ζ值与预设阈值，如果所述Ζ值大于等于所述预设阈值，则判断所述待染色体为三倍体，如果所述Ζ值小于所述预设阈值，则判断所述待染色体为正常染色体。
6. 根据权利要求1所述的方法，其特征在于，所述比对结果仅包括定位到所述参考序列唯一位置的序列。
7. 根据权利要求6所述的方法，其特征在于，所述序列为35bp。
8. 根据权利要求1所述的方法，其特征在于，所述测试样本的来源选自以下至少一种：孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液和胎儿有核红细胞。
【文档编号】G06F19/10GK104156631SQ201410335037
【公开日】2014年11月19日申请日期:2014年7月14日优先权日:2014年7月14日
【发明者】张鸣, 王俊, 郑伟谋申请人:天津华大基因科技有限公司, 深圳华大基因医学有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鸣;王俊;郑伟谋
技术所有人：天津华大基因科技有限公司;深圳华大基因医学有限公司
我是此专利的发明人

上一篇：类地重力场环境下室内场景单目视觉空间识别方法
上一篇：用于显示内容的方法及其电子设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。