本发明涉及生物,具体涉及一种样本交叉污染的检测方法,针对dna甲基化二代测序样本的单核苷酸多态性等位基因频率进行监控,提供样本是否有交叉污染的判断。
背景技术:
1、重亚硫酸盐甲基化测序(bs-seq,bisulfite sequencing)作为甲基化测序的金标准,以其单碱基分辨率、高通量的特点,其作用在癌症筛查、诊断,以及监控的作用越来越被认识。在高通量二代测序(ngs,next generation sequencing)检测中,由于多个样本是并行处理,所以在样本储存、制备等过程中导致的相邻样本之间异源dna交叉污染的风险是难以排除的。而这个风险在早期肿瘤的诊断筛查中,一旦发生后果更加严重,因为早期肿瘤的血液样本中肿瘤组分通常占比很低(<0.001),血液样本的痕量污染即可造成筛查或者诊断结果错误,而目前的ngs污染检测方法,往往无法达到对<0.001的污染比例的检测敏感度。而且目前常用的ngs的样本污染判定中,通常会在各个批次的样本中设计阳性参考品和阴性参考品,然而在真实的临床实践中,由于对于成本的控制和考量而忽略参考品的设置,这也提高了样本发生交叉污染而不能准确识别的风险。
技术实现思路
1、本发明为克服现有技术中的不足,本发明提供了一种样本交叉污染的检测方法和装置,该检测方法和相应的装置可以低成本、高精度的对血液游离dna样本中是否存在来自其他样本的污染进行判断。
2、在一方面,本发明提供了一种用于检测甲基化测序中样本污染的单核苷酸多态性(snp)位点的筛选方法,包括以下步骤:
3、s1:选取预设人群中频率在0.3~0.7之间的snp位点;
4、s2:选取突变方向为腺嘌呤(a)突变到胸腺嘧啶(t)或胸腺嘧啶(t)突变到腺嘌呤(a)的snp位点;
5、s3:选取重复区域以外的snp位点;
6、s4:选取相互之间物理距离大于预设长度的snp位点;
7、任选地,s2和s3的顺序互换。
8、另一方面,本发明提供了一种用于检测甲基化测序中样本污染的方法,包括以下步骤:
9、(1)获取对待测样本进行甲基化测序后得到的测序信息;
10、(2)根据如上述方法筛选到的用于检测甲基化测序中样本污染的snp位点确定样本污染状态。
11、另一方面,本发明提供了一种用于检测甲基化测序中样本污染的装置,包括:
12、测序信息获取模块,被配置成获取对待测样本进行甲基化测序后得到的测序信息;
13、样本状态确定模块,被配置成根据如上述方法筛选到的用于检测甲基化测序中样本污染的snp位点确定样本污染状态。
1.用于检测甲基化测序中样本污染的单核苷酸多态性(snp)位点的筛选方法,其包括以下步骤:
2.根据权利要求1所述的方法,其中,所述s1中的snp位点选取自预设数据库,所述预设数据库选自gnomad数据库、1000genome project数据库、hapmap数据库、dbsnp数据库中的一个或多个;
3.根据权利要求1或2所述的方法,其中,所述预设人群选自东亚人群、非洲/非裔美国人群、拉丁美洲人群、非芬兰欧洲人群、芬兰欧洲人群、艾希肯纳兹犹太人群或西亚人群;
4.根据权利要求1-3任一项所述的方法,其中,所述s4中所述预设长度为0.4~1mb;
5.用于检测甲基化测序中样本污染的方法,其包括以下步骤:
6.根据权利要求5所述的方法,其中,所述步骤(2)包括:
7.根据权利要求6所述的方法,其中,所述步骤(2)还包括:
8.根据权利要求7所述的方法,其还包括对所述纯合snp位点的标准ar值进行排序,选取部分纯合snp位点的标准ar值计算中位数;
9.根据权利要求5-8任一项所述的方法,当所述样本污染指数大于预设阈值时,判断待测样本受到其他样本的交叉污染;
10.根据权利要求9所述的方法,判断待测样本是否收到其他样本的交叉污染进一步包括以下步骤:
11.用于检测甲基化测序中样本污染的装置,包括: