1.一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒,其特征在于:包括捕获探针,所述捕获探针由以下4个主要探针和相关对照探针组成;4个主要探针为:
用于捕获SMN2基因外显子7的探针一,其序列如SEQ ID NO:1所示;
用于捕获SMN2基因外显子7的探针二,其序列如SEQ ID NO:2所示;
用于捕获SMN1基因外显子7的探针三,其序列如SEQ ID NO:3所示;
用于捕获SMN1基因外显子7的探针四,其序列如SEQ ID NO:4所示;
所述捕获探针对目标区域进行捕获,测序,通过数据分析估算SMN1基因和SMN2基因外显子7的拷贝数。
2.如权利要求1所述的试剂盒,其特征在于,所述数据分析包括将测序读段使用比对软件比对到人参考基因组、去除重复序列、去除比对结果不可信的读段,计算标准分数Z-score,根据Z-score值来估算SMN1基因和SMN2基因外显子7的拷贝数。
3.如权利要求2所述的试剂盒,其特征在于,所述去除重复序列具体使用Picard去除PCR扩增过程产生的重复序列。
4.如权利要求2所述的试剂盒,其特征在于,所述比对结果不可信的读段为不涵盖任何一个如下所述用于区分分配到SMN1和SMN2外显子7的位点的读段:
染色体chr5,坐标69372304,SMN2基因,外显子7上游44bp,碱基A;
染色体chr5,坐标69372353,SMN2基因,外显子7,碱基T;
染色体chr5,坐标69372501,SMN2基因,外显子7下游100bp,碱基G;
染色体chr5,坐标70247724,SMN1基因,外显子7上游44bp,碱基G;
染色体chr5,坐标70247773,SMN1基因,外显子7,碱基C;
染色体chr5,坐标70247921,SMN1基因,外显子7下游100bp,碱基A。
5.如权利要求2所述的试剂盒,其特征在于,所述计算标准分数Z-score具体包括如下步骤:
步骤1,计算覆盖深度:将目标捕获区域划分为固定长度的区间,并计算每个区间的平均覆盖深度;所述覆盖深度是指分配至所述区间的读段数目与该区间大小的比值;
步骤2,标准化覆盖深度:标准化是相对于同一个样本所有捕获区间包括SMN1和SMN2外显子7和其它相关对照探针所捕获的区间进行计算的,公式如下:
步骤3,GC含量矫正:去除由于GC含量差异而造成的测序结果偏差,公式如下:
步骤4,计算标准分数Z-score:对于一批样本中的每个样本,按如下公式计算Z-score:
其中,Zi,j表示第j个样本的外显子i的Z-score值,normRD′i,j为第j个样本外显子i经步骤3计算得到的覆盖深度,和SD(normRD′i)分别为该批样本外显子i校正后覆盖深度的平均值和标准差。
6.如权利要求2所述的试剂盒,其特征在于,所述根据Z-score值来估算SMN1基因和SMN2基因外显子7的拷贝数具体为:
基于表型已知样本,习得SMN1基因和SMN2基因外显子7拷贝数和计算得到的Z-score之间的关系:
copy number=f(Z)
根据该关系,估算待测样本的SMN1基因和SMN2基因外显子7的拷贝数。
7.如权利要求6所述的试剂盒,其特征在于,
所述SMN1基因拷贝数判断形式如下:
所述SMN2基因拷贝数判断形式如下:
如上为基于已有数据训练得到的阈值,作为缺省值;随着数据的累积,进行相应的调整,提供检测准确度。
8.一种使用如权利要求1-7任一项所述试剂盒检测脊髓性肌萎缩症相关基因拷贝数的方法,该方法不包括疾病的诊断方法,其特征在于,该方法包括如下步骤:
1)从样本中提取DNA和打断;
2)目标区域捕获:采用所述捕获探针对目标区域进行捕获,磁珠分离富集,PCR进行扩增,构建测序文库;
3)测序;
4)通过数据分析估算脊髓性肌萎缩症相关基因的拷贝数。
9.如权利要求8所述的方法,其特征在于,步骤1)中,所述样本是血液或唾液;所述打断采用超声波对提取的DNA进行打断,打断后末端补平并磷酸化,两侧加上接头。
10.如权利要求8所述的方法,其特征在于,步骤3)中,所述测序具体为:测序文库的DNA片段被杂交到测序仪的流动槽(flow cell)上并以之为模板生长DNA簇,然后用Illumina HiSeq测序仪进行双端测序。