本发明涉及妊娠期诊断,具体涉及一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法。
背景技术:
1、妊娠期又称孕期,是一种特殊的生理状态,女性在怀孕期间由于胎儿位于子宫以内,所以会对女性的身体状态造成影响,容易出现妊娠期疾病,如妊娠期糖尿病、妊娠期高血压和子痫前期等,在影响母亲健康的同时,容易增加后代患长期代谢疾病和心血管疾病的风险。
2、中国专利申请号为cn110527719a公开了一种建立妊娠糖尿病风险评估的早期筛查量表的方法,包括如下步骤:通过对国内外权威的科研文献的查阅,确定易感基因snp选择标准,找到候选基因位点;设计对每个snp位点进行核酸质谱分析的引物,进行pcr扩增及基因检测;建立复杂疾病的风险评估模型,计算个体的遗传风险值;结合遗传风险值和外因风险因素建立妊娠糖尿病风险评估的早期筛查量表。
3、现有技术中,相关研究证明拷贝数缺陷(cnv)可以作为妊娠早期诊断和筛查的一个可能的生物标志物,但现有技术还未完全解决使用极低覆盖率(0.2x)测序数据识别cnv的困难。
4、综上所述,研发一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,仍是妊娠期诊断技术领域中急需解决的关键问题。
技术实现思路
1、针对现有技术所存在的问题,本发明的目的在于提供一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,本发明中,该方法主要由以下几个部分组成:筛选样本、构建窗口覆盖矩阵、设计窗口修剪规则和覆盖矩阵插补,该方法应用非重叠滑动窗口法和矩阵插补进行准确的cnv覆盖筛查,解决了使用极低覆盖率(0.2倍)测序数据识别cnv的困难,同时为推动研究基于cnv标记物的早期诊断妊娠期疾病的新方法打下坚实的基础。
2、为实现上述目的,本发明提供了如下技术方案:
3、一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,包括以下步骤:
4、s1、筛选样本;
5、s2、构建窗口覆盖矩阵;
6、s3、设计窗口修剪规则;
7、s4、覆盖矩阵插补。
8、本发明进一步设置为:在步骤s1中,所述筛选样本,包括以下步骤:
9、s11、收集18950名怀孕6-13周孕妇的血液样本,在进行相关处理后,样本间的平均测序覆盖率为0.19倍;
10、s12、筛选出平均覆盖率低于0.15倍的样本,615个样品被过滤掉;
11、s13、通过不同窗口大小的非重叠滑动窗口方法进一步划分基因组参考。
12、本发明进一步设置为:在步骤s12中,所述615个样品包括194个gdm样品和421个正常样品。
13、本发明进一步设置为:在步骤s13中,所述窗口大小分别设置为50k、20k、10k和5k。
14、本发明进一步设置为:在步骤s2中,所述构建窗口覆盖矩阵,包括以下步骤:
15、s21、对于每个窗口大小,通过对窗口内碱基对的覆盖率求和来计算参照的覆盖率;
16、s22、形成窗口覆盖矩阵,每行代表一个样本,每列代表一个窗口,矩阵中的元素是窗口覆盖。
17、本发明进一步设置为:在步骤s3中,所述设计窗口修剪规则,包括以下步骤:
18、s31、用每行样本的平均覆盖率来标准化元素;
19、s32、通过以下规则来修剪窗口:丢弃超过80%的归一化覆盖率低于0.1的样本的窗口;丢弃正常和gdm样本中相似平均覆盖范围(差异小于0.01)的窗口。
20、本发明进一步设置为:在步骤s32中,所述窗口修剪规则可以降低后续检测gdm的复杂度。
21、本发明进一步设置为:在步骤s4中,所述覆盖矩阵插补,包括以下步骤:
22、s41、进一步通过scoit进行了矩阵插补,避免读漏(无法测序的区域)和低测序覆盖率导致的测序错误的影响;
23、s42、在生成具有每个窗口中对齐的读取的数量的覆盖矩阵之后,对覆盖矩阵执行样本过滤和窗口修剪;
24、s43、615个样品被过滤掉,因为它们的测序覆盖率低于0.15倍;
25、s44、非重叠滑动窗口方法最初为窗口大小5k、10k、20k和50k产生了617,689、308,861、154,447和61,799个窗口,在窗口修剪过程遵循该方法中提到的规则之后,对于不同的窗口大小,分别留下20,637、11,288、4,520和2,114个窗口;
26、s45、然后将处理过的覆盖矩阵输入进行矩阵插补。
27、有益效果
28、采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
29、本发明中,一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,该方法主要由以下几个部分组成:筛选样本、构建窗口覆盖矩阵、设计窗口修剪规则和覆盖矩阵插补;该方法应用非重叠滑动窗口法和矩阵插补进行准确的cnv覆盖筛查,解决了使用极低覆盖率(0.2倍)测序数据识别cnv的困难,同时为推动研究基于cnv标记物的早期诊断妊娠期疾病的新方法打下坚实的基础。
1.一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s1中,所述筛选样本,包括以下步骤:
3.根据权利要求2所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s12中,所述615个样品包括194个gdm样品和421个正常样品。
4.根据权利要求2所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s13中,所述窗口大小分别设置为50k、20k、10k和5k。
5.根据权利要求1所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s2中,所述构建窗口覆盖矩阵,包括以下步骤:
6.根据权利要求1所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s3中,所述设计窗口修剪规则,包括以下步骤:
7.根据权利要求6所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s32中,所述窗口修剪规则可以降低后续检测gdm的复杂度。
8.根据权利要求4所述的一种应用非重叠滑动窗口法准确进行cnv覆盖筛查的方法,其特征在于,在步骤s4中,所述覆盖矩阵插补,包括以下步骤: