本技术涉及生物信息学,具体而言,涉及一种检测α-珠蛋白基因型的方法和装置。
背景技术:
1、地中海贫血是世界上最常见的单基因遗传病,属常染色体隐性遗传,主要包括α-地中海贫血(简称α-地贫)及β-地中海贫血(简称β-地贫)两种类型。α-地贫主要由α-珠蛋白基因缺失所致,常见的缺失类型有--sea、-α4.2和-α3.7,少数是由α-珠蛋白基因发生点突变或微小插入/缺失引起。β-地贫主要由β-珠蛋白基因缺陷所致,以点突变为主,少数为拷贝数变异。
2、人源α-珠蛋白(alpha-globin)基因簇位于16号染色体。α-珠蛋白三联体是16号染色体在减数分裂时的同源配对期,α-珠蛋白基因簇的同源序列发生不等交换产生的。α-珠蛋白基因簇的同源区段有x、y、z盒(x1、y1、z1、x2、y2、z2),其中,2个z同源盒间距为3.7 kb,2个x同源盒间距为4.2 kb。当z1和z2发生同源重组可导致一条16号染色体缺失了3.7 kb,另一条染色体形成α-珠蛋白基因三联体。当x1和x2发生同源重组交换可导致一条染色体缺失4.2 kb,而另一条染色体形成α-珠蛋白基因三联体。
3、研究表明,单纯的α-珠蛋白基因三联体不会引起血液学指标,单纯的β-地贫杂合子表现为轻型地贫,只有轻微表征,无明显的临床症状。当β-地贫杂合子合并α-珠蛋白基因三联体或四联体,可能会加剧珠蛋白比例失衡,使患者由无临床症状转变为中间型地贫表型,出现中重度贫血、皮肤苍黄和肝脾肿大等临床表现。因此,α-珠蛋白基因三联体的检测,在中间型β-地贫的分子机制研究、临床诊断、治疗方案及预后中,具有重要的意义。
4、sanger测序技术具有准确、快速、能发现新突变等优势,但只能检测snv和indel;gap-pcr方法只能检测已知的缺失型基因变异,不能检测未知的缺失型基因变异和点突变型基因变异;pcr-rdb和rt-pcr方法虽然能够快速检测多种突变类型,但仅能针对常见热点突变进行检测,无法检测其它新发突变和罕见突变型,存在一定的漏检率。高通量测序方法可以一体化高效检测地贫致病基因上发生的cnv、snv和indel,且覆盖突变种类更为全面,但是,目前尚无有效分析手段对高通量测序数据中的α-珠蛋白基因变异的复杂型别进行精确分型,特别是包含拷贝数平衡的α-珠蛋白基因变异。
5、如何检测拷贝数平衡的α-珠蛋白基因变异是对α-珠蛋基因进行分型的难点。
技术实现思路
1、为了解决上述问题,检测拷贝数平衡的α-珠蛋白基因型,提高分析α-珠蛋基因型的准确性,本技术的第一目的在于提供一种检测α-珠蛋白基因型的方法,包括:
2、获取检测样本集中各样本的测序数据和参考基因组的比对数据,检测样本集包括至少一个待分析样本和多个参考样本,多个参考样本包括α-珠蛋白基因拷贝数正常的第一参考样本、α-珠蛋白基因拷贝数异常的第二参考样本以及α-珠蛋白基因拷贝数平衡的第三参考样本;
3、根据第一目标检测样本集的比对数据确定第一目标检测样本集中各检测样本的α-珠蛋白基因各特征区域的拷贝数,根据第一目标检测样本集中各检测样本的α-珠蛋白基因各特征区域的拷贝数确定待分析样本的α-珠蛋白第一预测基因型,第一目标检测样本集包括待分析样本、第一参考样本和第二参考样本;
4、根据第二目标检测样本集的比对数据确定待分析样本α-珠蛋白基因的融合断点,根据待分析样本α-珠蛋白基因的融合断点和待分析样本的α-珠蛋白第一预测基因型确定待分析样本的α-珠蛋白第二预测基因型,第二目标检测样本集包括待分析样本、第一参考样本和第三参考样本。
5、在其中一个实施方式中,α-珠蛋白基因各特征区域包括y1区域、x1-2区域、y2区域、x2-2区域、sea-1区域和sea-2区域;
6、其中,y1区域的基因组坐标为chr16:225379-225469;
7、x1-2区域的基因组坐标为chr16:224074-225047;
8、y2区域的基因组坐标为chr16:221822-221915;
9、x2-2区域的基因组坐标为chr16:219817-220794;
10、sea-1区域的基因组坐标为chr16:215400-216400;
11、sea-2区域的基因组坐标为chr16: 233700-234700;
12、可选地,第一参考样本的α-珠蛋白基因型包括αα/αα;
13、可选地,第二参考样本的α-珠蛋白基因型包括αα/-α3.7、αα/-α4.2、αα/--sea、-α3.7/-α3.7、-α4.2/-α4.2、-α3.7/-α4.2、-α3.7/--sea和-α4.2/--sea中的至少一种;
14、可选地,第三参考样本的α-珠蛋白基因型包括-α3.7/αααanti3.7和-α4.2/αααanti4.2中的至少一种。
15、在其中一个实施方式中,根据第一目标检测样本集中各检测样本的α-珠蛋白基因各特征区域的拷贝数确定待分析样本的α-珠蛋白第一预测基因型包括:
16、根据第一目标检测样本集中各检测样本的α-珠蛋白基因各特征区域的拷贝数分别计算待分析样本与第一目标检测样本集中各参考样本的相似度;
17、获取与待分析样本相似度最高的参考样本的α-珠蛋白基因型作为待分析样本的α-珠蛋白第一预测基因型;
18、可选地,相似度采用公式一计算,公式一:
19、
20、其中,表示样本a与样本b的相似度,i表示α-珠蛋白基因特征区域的编号,n表示α-珠蛋白基因特征区域的总个数,ai表示待分析样本在α-珠蛋白基因第i个特征区域的拷贝数,bi表示第一目标检测样本集中各参考样本在α-珠蛋白基因第i个特征区域的拷贝数。
21、在其中一个实施方式中,根据第一目标检测样本集的比对数据确定第一目标检测样本集中各检测样本的α-珠蛋白基因各特征区域的拷贝数包括:
22、获取参考基因组多个目标基因区域的窗口划分数据,根据第一目标检测样本集的比对数据确定第一目标检测样本集中各检测样本在每个目标基因区域每个窗口的平均测序深度,多个目标基因区域覆盖α-珠蛋白基因各特征区域;
23、对第一目标检测样本集中各检测样本在每个目标基因区域每个窗口的平均测序深度进行gc校正和标准化得到相应检测样本在每个目标基因区域每个窗口的标准平均测序深度;
24、根据第一目标检测样本集中各检测样本在每个目标基因区域每个窗口的标准平均测序深度确定相应检测样本的α-珠蛋白基因各特征区域的拷贝数。
25、在其中一个实施方式中,根据第一目标检测样本集中各检测样本在每个目标基因区域每个窗口的标准平均测序深度确定待分析样本和第一参考样本的α-珠蛋白基因各特征区域的拷贝数包括:
26、基于第一目标检测样本集中各检测样本在每个目标基因区域每个窗口的标准平均测序深度进行降维分析,在第一参考样本中筛选分别与第一目标检测样本集中各检测样本对应的目标参考样本;
27、根据第一目标检测样本集中各检测样本及分别与各检测样本对应的目标参考样本在α-珠蛋白基因各特征区域每个窗口的标准平均测序深度的比值确定相应检测样本的α-珠蛋白基因各特征区域的拷贝数。
28、在其中一个实施方式中,根据第二目标检测样本集的比对数据确定待分析样本α-珠蛋白基因的融合断点包括:
29、根据第二目标检测样本集的比对数据获取第二目标检测样本集中各检测样本同时比对到α-珠蛋白基因同源区域不同位置的嵌合reads;
30、根据第二目标样本中各检测样本的嵌合reads确定待分析样本的α-珠蛋白基因的融合断点;
31、可选地,α-珠蛋白基因同源区域包括z1区域、z2区域、x1区域和x2区域;
32、其中,z1区域的基因组坐标为chr16:225794-227540;
33、z2区域的基因组坐标为chr16:221988-223728;
34、x1区域的基因组坐标为chr16:223709-225047;
35、x2区域的基因组坐标为chr16:219452-220794;
36、可选地,α-珠蛋白基因的融合断点包括z1-z2方向的断点、z2-z1方向的断点、x1-x2方向的断点和x2-x1方向的断点中的至少一个。
37、在其中一个实施方式中,根据第二目标样本中各检测样本的嵌合reads确定待分析样本的α-珠蛋白基因的融合断点包括:
38、根据第二目标样本中各检测样本的嵌合reads和同源参考基因组的比对结果得到相应检测样本在同源参考基因组的测序深度数据,同源参考基因组的序列由α-珠蛋白基因同源区域的序列组成;
39、根据第二目标样本中各检测样本在同源参考基因组的测序深度数据确定待分析样本的α-珠蛋白基因的融合断点。
40、本技术的第二目的在于提供一种检测α-珠蛋白基因型的装置,包括:
41、数据获取模块:用于获取检测样本集中各样本的测序数据和参考基因组的比对数据,检测样本集包括至少一个待分析样本和多个参考样本,多个参考样本包括α-珠蛋白基因拷贝数正常的第一参考样本、α-珠蛋白基因拷贝数异常的第二参考样本以及α-珠蛋白基因拷贝数平衡的第三参考样本;
42、第一基因型预测模块:用于根据第一目标检测样本集的比对数据确定第一目标检测样本集中各检测样本的α-珠蛋白基因各特征区域的拷贝数,根据第一目标检测样本集中各检测样本的α-珠蛋白基因各特征区域的拷贝数确定待分析样本的α-珠蛋白第一预测基因型,第一目标检测样本集包括待分析样本、第一参考样本和第二参考样本;
43、第二基因型预测模块:用于根据第二目标检测样本集的比对数据确定待分析样本α-珠蛋白基因的融合断点,根据待分析样本α-珠蛋白基因的融合断点和待分析样本的α-珠蛋白第一预测基因型确定待分析样本的α-珠蛋白第二预测基因型,第二目标检测样本集包括待分析样本、第一参考样本和第三参考样本。
44、本技术还涉及一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述方法的步骤。
45、本技术还涉及一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
46、本技术还涉及一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。