一种基于二代测序的微卫星不稳定性检测方法及装置与流程

文档序号:29963809发布日期:2022-05-11 09:47阅读:443来源:国知局
一种基于二代测序的微卫星不稳定性检测方法及装置与流程

1.本发明属于生物信息学技术领域,具体公开了一种基于二代测序的微卫星不稳定性检测方法及装置。


背景技术:

2.微卫星(microsatellite,简称ms),又称短串联重复序列(short tandem repeats,strs)或简单串联重复序列(simple sequence repeat,ssr),广泛存在于原核生物及真核生物基因组中,其重复单元为1~6个核苷酸,一般由10~50个重复单元串联组成。由于序列中核心重复单元重复次数的差异,微卫星具有群体多态性,其总长度常小于400bp,常见的有单核苷酸、双核甘酸、三核苷酸、四核苷酸重复序列,在真核生物基因组中约占5%。
3.在人类基因组中,微卫星单核苷酸重复以polya、polyt为主,双核苷酸重复以(ca)n、(gt)n、(aa)n、(gg)n常见,(gc/cg)少见,原因在于3’端为g的c(即cpg)易于甲基化;而三核苷酸重复以(cxg)n为主,由于三核苷酸重复具有高度多态性,常用作dna标记物。研究表明,当人体错配修复(mismatch repair,简称mmr)机制发生缺陷时,微卫星序列会出现长度的变化,成为微卫星不稳定性(microsatellite instability,简称msi)。微卫星不稳定性与肿瘤的发生密切相关,尤其是结直肠癌等胃肠道癌症,在肿瘤的治疗和预后中具有重要的作用。例如,在结直肠癌患者中,微卫星高度不稳定(msi-h)的患者相较微卫星低度不稳定(msi-l)或微卫星稳定(microsatellite stability,mss)的患者预后更好。
4.为实现微卫星不稳定性的评估,中国专利申请cn112955570a(lexent)公开了一种方法,包括:从受试者的血浆样本(cfdna)中获取多个微卫星重复单元的量化量度,处理该多个量化量度以获得其偏差的统计量度,当多个量化量度的偏差的统计量度满足预定标准时,检测微卫星不稳定性存在,反之,检测不存在。该方法将样本中所有微卫星位点整合在一起计算平均长度的偏差的统计量度(相对参考样本的平均z分数,且测序深度在10
×
以下),在一定程度上可以评估受试者的msi状态,但是需要参考样本,临床可实施性差,且未检测单个位点的msi状态,准确性不高。此外,中国专利申请cn112639983a(roche)公开了一种微卫星不稳定性检测方法,包括:检测来自人基因组dna的多个微卫星位点的测序读段,确定每个微卫星位点的重复长度分布(rld)的度量,比较该度量与对应位点的阈值,统计超出阈值的微卫星位点的数量,比较该数量与设定的微卫星不稳定性比例阈值,超出的判定为人存在微卫星不稳定性。该方法的度量标准为待测样本rld与对照rld之间的相似性度量,比如根据位点rld的平均读段长度和方差确定的t统计量(也即比较每个位点的多态分布),操作复杂,计算量大,在实际应用中存在一定的不便利性。
5.因此,有必要开发一种原理简单、稳定性强、准备性高的微卫星不稳定性检测方法。


技术实现要素:

6.本发明主要解决的技术问题是提供一种基于二代测序的微卫星不稳定性检测方法,该方法原理简单、计算简便,稳定性高,可重复性强,检测结果准确、可靠。
7.同时,本发明还提供一种用于检测微卫星不稳定性的装置。
8.为解决上述技术问题,本发明采用以下技术方案:
9.第一方面,本发明提供了一种基于二代测序的微卫星不稳定性检测方法,包括以下步骤:
10.获得待测样本中候选微卫星位点的测序读段;
11.获得待测样本中候选微卫星位点的平均缺失单元数;
12.检测待测样本中候选微卫星位点的msi状态;
13.评估待测样本的msi状态。
14.作为本发明一种优选的实施方案,所述待测样本来源于人类或非人类哺乳动物,优选为组织样本或血液样本。
15.具体的,所述组织样本为肿瘤样本,如新鲜组织样本、冷冻组织样本、ffpe样本等。
16.具体的,所述血液样本包括全血样本、血浆样本等。
17.作为本发明一种优选的实施方案,所述候选微卫星位点为单核苷酸重复位点、双核苷酸重复位点、三核苷酸重复位点中的任意一种或多种。
18.优选地,所述候选微卫星位点为单核苷酸重复位点。
19.作为本发明一种优选的实施方案,所述候选微卫星位点的选取有特定的要求,具体为:
20.提供训练集,所述训练集中包含多个存在微卫星不稳定性的样本和多个微卫星稳定的样本;
21.基于训练集,获得每个微卫星位点的分类性能,所述分类性能用auc值表示,选取auc值≥0.65的微卫星位点作为候选微卫星位点。
22.所述auc值介于0~1之间,越接近1代表微卫星位点的分类性能越好。在实际应用中,优选auc值≥0.65的单核苷酸重复的微卫星位点。当然,也可以对每个微卫星位点的auc值进行大小排序,选取auc值高的多个位点作为候选微卫星位点。
23.作为本发明一种优选的实施方案,所述auc值在计算时,以平均缺失单元数作为特征值。
24.具体的,所述auc值的获取采用以下方法:
25.基于训练集,获得样本中每个微卫星位点的测序读段;
26.获得样本中每个微卫星位点的平均缺失单元数;
27.将所有样本中同一微卫星位点的平均缺失单元数作为特征值送入机器学习模型,得到每个微卫星位点的auc值。
28.优选地,所述机器学习模型使用随机森林模型,也可以使用其他适合的机器学习模型。
29.作为本发明一种优选的实施方案,所述候选微卫星位点的数目至少为50个。数目越多,越能保证检测方法的准确性。
30.作为本发明一种优选的实施方案,所述平均缺失单元数根据所述微卫星位点的测
序读段和参考基因组上对应位点重复单元的重复次数计算得到。每个微卫星位点都能计算得到对应的平均缺失单元数。
31.具体的,所述平均缺失单元数的计算公式为:
[0032][0033]
式中:
[0034]
r为参考基因组上所述微卫星位点重复单元的重复次数。
[0035]
n为样本中涵盖所述微卫星位点的总的测序读段数(即总reads数)。
[0036]
i为样本中所述微卫星位点重复单元的某一重复次数。
[0037]
例如,参考基因组chr1:10177680位置处重复单元a的重复次数为12,样本中实测的重复单元a的重复次数可能为9、10或11。
[0038]
ni为样本中所述微卫星位点重复单元对应某一重复次数的测序读段数。
[0039]
例如,对于上述重复单元a,实测的对应重复次数为9的测序读段数有5条,对应重复次数为10的测序读段数有8条,对应重复次数为11的测序读段数有20条。
[0040]
i为整数,1≤i<r。
[0041]
ni为整数,ni≤n。
[0042]
优选地,所述微卫星位点的测序深度至少为20
×
。在满足测序深度的前提下计算平均缺失单元数。
[0043]
具体的,所述参考基因组上每个微卫星位点的位置、重复单元序列、重复单元长度及重复次数等信息可以使用msisensor1的scan功能获取,也可以使用其他有相似功能的软件,例如,ssrhunter、gmato等。
[0044]
作为本发明一种优选的实施方案,所述测序读段基于二代测序技术获得,如采用illumina、life、singular genomics、华大等提供的二代测序技术和平台。
[0045]
作为本发明一种优选的实施方案,所述待测样本中候选微卫星位点的平均缺失单元数的计算同上,要求测序深度至少为20
×

[0046]
作为本发明一种优选的实施方案,所述待测样本中候选微卫星位点的msi状态的检测方法为:
[0047]
将获得的待测样本中每个候选微卫星位点的平均缺失单元数与对应位点设定的阈值进行比较,超出阈值的位点判定为存在微卫星不稳定性;反之,判定为微卫星稳定。
[0048]
优选地,所述阈值的设定是基于多个微卫星稳定的样本所获得的候选微卫星位点的平均缺失单元数的平均值μ和标准差σ确定的。每个候选微卫星位点都有单独的阈值。
[0049]
具体的,所述阈值的设定可以采用以下方法:
[0050]
提供背景集,所述背景集中仅包含多个微卫星稳定的样本;
[0051]
获得样本中候选微卫星位点的测序读段;
[0052]
获得样本中候选微卫星位点的平均缺失单元数;
[0053]
获得样本中每个候选微卫星位点的平均缺失单元数的平均值μ和标准差σ,据此设定每个候选微卫星位点的阈值。
[0054]
所述样本中候选微卫星位点的平均缺失单元数的计算同上,要求测序深度至少为
20
×

[0055]
所述阈值设定为μ(平均值)与3σ(标准差)的加和,即μ+3σ。
[0056]
作为本发明一种优选的实施方案,所述评估待测样本的msi状态的方法为:
[0057]
获得待测样本中存在微卫星不稳定性的候选微卫星位点的数量,统计其在总的候选微卫星位点数量中的占比(即msiscore),将该比值与设定的比例阈值进行比较,超出比例阈值的判定待测样本存在微卫星不稳定性;反之,判定为微卫星稳定。
[0058]
优选地,所述比例阈值的设定是基于训练集中样本msiscore的分类性能确定的。所述样本msiscore是基于候选微卫星位点的msi状态评估确定的。
[0059]
具体的,所述比例阈值的设定可以采用以下方法:
[0060]
基于训练集,获得样本中每个候选微卫星位点的平均缺失单元数,将其与对应位点设定的阈值进行比较,超出阈值的位点判定为存在微卫星不稳定性;反之,判定为微卫星稳定;
[0061]
获得每个样本中存在微卫星不稳定性的候选微卫星位点的数量,统计其在总的候选微卫星位点数量中的占比,即样本msiscore;
[0062]
基于训练集中样本msiscore的分类性能,确定比例阈值。
[0063]
所述比例阈值设定在25%以下、15%以上,更优选为20%。
[0064]
第二方面,本发明提供了一种用于检测微卫星不稳定性的装置,包括:
[0065]
分析模块,用于分析待测样本中候选微卫星位点的测序读段;
[0066]
计算模块,用于计算待测样本中候选微卫星位点的平均缺失单元数;
[0067]
检测模块,用于检测待测样本中候选微卫星位点的msi状态;
[0068]
评估模块,用于评估待测样本的msi状态。
[0069]
作为本发明一种优选的实施方案,所述分析模块、计算模块、检测模块、评估模块可以任选其中的一个或多个模块进行组装,成为装置中具有相应功能的系统。
[0070]
作为本发明一种优选的实施方案,所述用于检测微卫星不稳定性的装置还可以包括以下模块中的一个或多个:
[0071]
数据质控模块,用于选取符合质控要求的微卫星位点的测序数据。
[0072]
例如,选取测序深度至少为20
×
的微卫星位点的测序读段。
[0073]
位点筛选模块,用于选取符合要求的微卫星位点(即候选微卫星位点)。
[0074]
例如,选取auc值≥0.65的单核苷酸重复的微卫星位点。
[0075]
阈值构建模块,用于设定每个候选微卫星位点的阈值。
[0076]
例如,所述阈值的设定是基于多个微卫星稳定的样本所获得的候选微卫星位点的平均缺失单元数的平均值μ和标准差σ确定的,优选为μ+3σ。
[0077]
比例阈值构建模块,用于设定评估待测样本msi状态的比例阈值。
[0078]
发明的有益效果:
[0079]
本发明提供的微卫星不稳定性检测方法,利用二代测序技术获得的测序读段,先计算得到待测样本中候选微卫星位点的平均缺失单元数,据此检测候选微卫星位点的msi状态,再以此评估待测样本的msi状态。本发明的检测方法原理简单、计算简便,稳定性高、可重复性好,检测结果准确可靠。
[0080]
本发明的检测方法是基于参考基因组上微卫星位点的信息计算待测样本中候选
位点的平均缺失单元数,无需使用参考样本(即对照样本),也不用比较每个位点的多态分布,计算过程简单,临床可实施性好,对测序深度的要求低,可大幅节约检测成本和人力。
[0081]
本发明提供的用于检测微卫星不稳定性的装置,以微卫星位点的平均缺失单元数作为特征值,先检测位点的msi状态,再评估样本的msi状态,检测原理简单、计算简便,检测结果准确可靠,与pcr金标准的一致性为100%。
附图说明
[0082]
图1是本发明实施例1中测试集分类性能展示。图中虚线为比例阈值线。
具体实施方式
[0083]
下面将结合具体实施方案对本发明的技术方案进行清楚、完整的描述,但是本领域技术人员应当理解,下文所述的实施方案仅用于说明本发明,而不应视为限制本发明的保护范围。基于本发明中的实施方案,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方案,例如修改、替换后得到的实施方案,都属于本发明保护的范围。
[0084]
下述实施例中所使用的实验方法如无特殊说明,均为常规方法;所用的材料、试剂等如无特殊说明,均可通过商业途径获得。
[0085]
实施例1
[0086]
本实施例提供了一种基于二代测序的微卫星不稳定性检测方法,包括以下步骤:
[0087]
1、微卫星位点的选取
[0088]
(1)提供训练集
[0089]
从总样本集合中随机选取19例msi-h(人组织样本)和56例mss(人组织样本和人白细胞样本),共75例样本作为训练集。
[0090]
(2)测序数据的选取
[0091]
利用illumina二代测序技术,获得每个样本中每个微卫星位点的测序读段,筛选去除测序深度在20
×
以下的微卫星位点的测序数据。
[0092]
(3)平均缺失单元数的计算
[0093]
使用msisensor1的scan功能获取人全基因组范围内所有微卫星位点的位置、重复单元序列、重复单元长度及重复数等信息,同时计算每个样本中每个微卫星位点的平均缺失单元数,计算公式如下:
[0094][0095]
式中:
[0096]
r为参考基因组上所述微卫星位点重复单元的重复次数;
[0097]
n为样本中涵盖所述微卫星位点的总的测序读段数;
[0098]
i为样本中所述微卫星位点重复单元的某一重复次数;
[0099]
ni为样本中所述微卫星位点重复单元对应某一重复次数的测序读段数;
[0100]
i为整数,1≤i<r;
[0101]
ni为整数,ni≤n。
[0102]
(4)auc值的获取
[0103]
将所有样本中同一微卫星位点的平均缺失单元数作为特征值送入机器学习随机森林模型中,得到每个微卫星位点的auc值。
[0104]
(5)候选微卫星位点的确定
[0105]
将所有微卫星位点的auc值按照大小顺序排序,选取top 100的微卫星位点(auc值均≥0.65)作为后续msi检测的位点集,位点信息如下表1所示。
[0106]
表1候选微卫星位点
[0107]
[0108]
[0109][0110]
2、候选微卫星位点阈值的设定
[0111]
使用30例人白细胞样本作为背景集,获取各样本wes测序数据(要求测序深度至少为20
×
),根据上述公式计算得到各样本中100个候选微卫星位点(如表1所示)的平均缺失单元数,再据此计算得到每个微卫星位点的平均缺失单元数的平均值μ和标准差σ,将阈值分别设定为μ+3σ。100个候选微卫星位点的阈值如上表1所示。
[0112]
3、比例阈值的设定
[0113]
基于训练集,将75例样本中每个候选微卫星位点的平均缺失单元数与对应位点设定的阈值进行比较,超出阈值的位点判定为存在微卫星不稳定性;反之,判定为微卫星稳定;
[0114]
获得每个样本中存在微卫星不稳定性的候选微卫星位点的数量,统计其在总的候选微卫星位点数量中的占比,即样本msiscore;
[0115]
基于训练集中75例样本msiscore的分类性能,确定比例阈值为20%。
[0116]
4、待测样本中候选微卫星位点测序读段的获取
[0117]
从总样本集合中随机选取6例msi-h(人组织样本)和19例mss(人组织样本和人白细胞样本),共25例样本作为测试集(区别于训练集样本)。其中,测试集样本微卫星状态皆以pcr金标准为准。
[0118]
利用illumina二代测序技术,获得待测样本(共25例)中100个候选微卫星位点的测序读段,筛选去除测序深度在20
×
以下的微卫星位点的测序数据。
[0119]
5、待测样本中候选微卫星位点平均缺失单元数的获取
[0120]
根据上述公式计算得到待测样本中每个候选微卫星位点的平均缺失单元数。
[0121]
6、待测样本中候选微卫星位点msi状态的检测
[0122]
将获得的待测样本中每个候选微卫星位点的平均缺失单元数与对应位点设定的阈值(如表1所示)进行比较,超出阈值的位点判定为存在微卫星不稳定性;反之,判定为微卫星稳定。检测结果如表2所示。
[0123]
表2待测样本中候选微卫星位点msi状态的检测结果
[0124]
[0125][0126]
7、待测样本msi状态的评估
[0127]
从表2中获得每个待测样本中存在微卫星不稳定性的候选微卫星位点的数量,统计其在总的候选微卫星位点数量中的占比,即样本msiscore(如表3所示),将该比值与设定的比例阈值(20%)进行比较,超出比例阈值的判定待测样本存在微卫星不稳定性;反之,判定为微卫星稳定。评估结果如表3和图1所示。
[0128]
表3待测样本msi状态的检测结果
[0129][0130]
从表3和图1可以看出,本发明的检测方法对测试集的分类准确性为100%。由于测试集样本微卫星状态皆以pcr金标准为准,故本发明的检测方法与pcr金标准的一致性为100%。
[0131]
实验例
[0132]
使用标准品评价本发明检测方法的稳定性。所用标准品从南京科佰生物科技有限公司购得,每例标准品包括组织dna标准品和配对dna标准品,其中,组织dna标准品有msi状态或mss状态,配对dna标准品均为mss状态。本实验例中,使用实施例1的方法检测标准品的msi状态,每个标准品设置3个重复,检测结果如表4所示。
[0133]
表4本发明的检测方法稳定性评价结果
[0134][0135]
从表4可以看出,本发明的检测结果与pcr结果完全一致,且在不同重复间结果稳定。
[0136]
以上比对结果表明,本发明的检测方法稳定性高、可重复性好,检测结果准确可靠,与pcr金标准的一致性为100%。
[0137]
虽然,上文中已经用一般性说明、具体实施方式及实验例,对本发明作了详尽的描
述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1