一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法与流程

文档序号:16645736发布日期:2019-01-16 08:15阅读:324来源:国知局
本发明涉及生物标志物组合,检测其的试剂盒,及其在血浆样本中的微卫星稳定状态检测和癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌的无创诊断,预后评估,治疗方案的选择或遗传筛查中的用途。发明背景微卫星是基因上含有的重复dna短小序列或单核苷酸区域。在肿瘤细胞中,当dna发生甲基化或基因突变致错配修复基因缺失时,可导致微卫星重复序列错配(微卫星突变),导致其序列缩短或延长,从而引起微卫星不稳定(microsatelliteinstability,msi)。根据msi不稳定的程度,可分为微卫星高度不稳定(microsatelliteinstability-high,msi-h),微卫星低度不稳定(microsatelliteinstability-low,msi-l),和微卫星稳定(microsatellitestable,mss)型。大量研究表明,msi参与恶性肿瘤的发生发展过程,与结直肠癌(例如肠癌)、胃癌、子宫内膜癌等发生密切相关。例如,约15%的结直肠癌患者存在msi-h现象,其中典型的遗传性非息肉病性结直肠癌(hereditarynonpolyposiscolerectalcancer,hnpcc)患者90%以上存在msi-h,表明msi-h可作为检测是否为hnpcc患者的重要标志物;与mss(即微卫星稳定)的结直肠癌相比,携带有msi-h的结直肠癌患者预后更好,并且二者药物反应也不一样,提示msi-h可作为结直肠癌预后的独立预测因子,因此,msi检测对结直肠癌患者意义重大。2016年最新版美国国立综合癌症网络(nationalcomprehensivecancernetwork,nccn,2016version2)的结直肠癌治疗指南第一次明确指出“有结/直肠癌病史的全部患者均应检测mmr(错配修复)或msi”,因为msi-h(即高微卫星不稳定)的ii期结直肠癌预后良好(单纯手术5y-os率为80%),且不能从5fu辅助化疗中获益(反而有害)。并且指南首次将pd-1单抗pembrolizumab和nivolumab推荐用于具有dmmr/msi-h分子表型的mcrc末线治疗,充分说明了晚期结直肠癌中检测mmr及msi的重要性。同时,由于遗传性结直肠癌相关基因较多,在2016最新的nccn结直肠癌遗传风险评价指南中,建议有明显家族史的患者和家属采用多基因组合(panel)测序进行首次检测。2017年,默沙东pd-1单抗keytruda被美国fda批准用于治疗携带msi-h或错配修复缺陷(dmmr)的实体瘤患者,再次证明了msi-h可以作为一种独立于肿瘤发病位置的泛癌种癌症标志物。因此,癌症的msi检测至关重要。目前msi检测方法局限于组织检测,例如国内医院中开展的mmr基因检测通常仅包含mlh1和msh2,部分同时包含msh6以及pms2,其阳性结果与msi检测结果吻合率较低;仅有极少数医院开展了通过pcr法结合毛细管电泳法的msi状态检测,且多为外送检测。该方法通常选择5-11个单核苷酸重复位点,长度为25bp左右,pcr扩增后通过毛细管电泳测量其长度分布区间,来确定样本的微卫星(不)稳定状态。该方法为目前的金标准检测方法。近来,基于二代测序的组织msi检测方法已经证明与pcr-msi有极高的一致率,可以在判断msi状态的同时刻画基因组图谱,提供癌症诊断更丰富的信息。然而,这些方法都需要足够的肿瘤细胞占比。由于血浆循环肿瘤dna(ctdna)极少,基于组织的方法无法在血浆里推行。肿瘤血检具有组织不具有的无创性,实时性,非组织特异性等特征,具有重要的临床意义。因此,本领域急需基于血浆的msi检测方法,尤其是用于癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌的无创诊断,预后评估,治疗方案的选择或遗传筛查中肿瘤血检msi的方法。发明概述本申请首次提供了血浆msi检测方法,并且,相对于组织msi检测,本申请的血浆msi检测具有无创性,实时性,非组织特异性,可以提前发现多发病灶等特征。同时,本发明的方法可以在ctdna含量很低的血浆样本中完成微卫星状态的检测,填补了通过血浆样本检测微卫星状态的空白,检测速度快,不依赖匹配白细胞样本,价格更低,检测更快捷,可以以高准确度、高灵敏度和高特异性判断样本的微卫星稳定(ms)状态。同时,本申请的检测方法还可以用于癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌患者的无创诊断,预后评估,或治疗方案选择中。具体地,本申请涉及以下方面:在一个方面,本申请提供生物标志物组合,其包括表1中所示的8个微卫星位点中的一个或多个。在另一个方面,本申请提供一种生物标志物组合,其包括微卫星位点和一种或多种基因的组合,其中微卫星位点包括权利1中所示的8个微卫星位点或任意一个或多个的组合,其中一种或多种基因为如下41种基因中的任意一种或多种:akt1,apc,atm,blm,bmpr1a,braf,brca1,brca2,cdh1,chek2,cyp2d6,dpyd,egfr,epcam,erbb2,galnt12,grem1,hras,kit,kras,met,mlh1,msh2,msh6,mutyh,nras,pdgfra,pik3ca,pms1,pms2,pold1,pole,ptch1,pten,sdhb,sdhc,sdhd,smad4,stk11,tp53,ugt1a1。在另一个方面,本发明提供用于血浆样本中的微卫星稳定状态检测的试剂盒,其特征在于,所述试剂盒包括用于本申请生物标志物组合的检测试剂。在又一个方面,本发明提供用于癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌的无创诊断,预后评估,治疗方案的选择或遗传筛查的试剂盒,其特征在于,所述试剂盒包括用于本申请生物标志物组合的检测试剂。优选地,在本申请提供的试剂盒中,所述血浆样本是癌症血浆样本,优选结直肠癌血浆样本,例如肠癌血浆样本、胃癌血浆样本或子宫内膜癌血浆样本。更优选地,所述微卫星稳定状态包括微卫星高度不稳定(microsatelliteinstability-high,msi-h),微卫星低度不稳定(microsatelliteinstability-low,msi-l),和微卫星稳定(microsatellitestable,mss)型。在一个实施方案中,在本申请提供的试剂盒中,所述检测试剂为所述检测试剂为进行二代高通量测序(next-generationsequencing,ngs)的试剂。另外,本申请还涉及生物标志物组合在检测血浆样本中的微卫星稳定状态中的用途。优选地,所述血浆样本是癌症血浆样本,优选结直肠癌血浆样本,例如肠癌血浆样本、胃癌血浆样本或子宫内膜癌血浆样本。更优选地,所述微卫星稳定状态包括微卫星高度不稳定(microsatelliteinstability-high,msi-h),微卫星低度不稳定(microsatelliteinstability-low,msi-l),和微卫星稳定(microsatellitestable,mss)型。并且,本申请还涉及生物标志物组合在癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌的无创诊断,预后评估,治疗方案的选择或遗传筛查中的用途。在一个方面,本申请提供了确定能够用于血浆样本中的微卫星稳定状态检测中的微卫星标志位点的方法,其包括如下步骤:1)检测样本中测序区域的微卫星位点;2)针对任一微卫星位点i,通过ngs数据统计测序片段(reads)各重复序列长度类型的个数;3)针对任一微卫星位点,确定微卫星稳定型(mss)状态下的位点重复序列长度特征和微卫星高度不稳定(msi-h)状态下的位点重复序列长度特征;其中,mss长度特征为一段最小范围的连续长度,使得在mss样本中对应测序片段个数大于位点支持测序片段总个数的75%;msi-h长度特征为一段在mss和msi-h样本中高度区分的连续长度范围,使得a)该范围支持的测序片段总数在mss样本中不足该位点测序片段总数的0.2%,而b)在msi-h样本中占该位点测序片段总数的50%以上,具有以上特征的微卫星位点为微卫星检测标志位点。在一个实施方案中,在确定微卫星标志位点的方法中,所述样本包括来自正常白细胞和癌症患者组织的样本,所述癌症优选是结直肠癌(例如肠癌)、胃癌或子宫内膜癌。优选地,用本申请的确定微卫星标志位点的方法所确定的微卫星位点包含表1中所述的8个微卫星位点中的一个或多个。更优选地,在确定微卫星标志位点的方法中,所述微卫星稳定状态检测用于癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌的无创诊断,预后评估,治疗方案的选择或遗传筛查。在一个方面,本申请提供了基于二代高通量测序法通过癌症患者的血浆样本确定微卫星位点稳定状态的方法,其包括如下步骤:1)基于二代测序法测定血浆样本和作为参考样本的mss血浆样本中多个微卫星位点的重复序列长度特征,所述多个微卫星位点包括选自表1中所示的8个微卫星位点中的一个或多个微卫星位点;2)针对1)中所述的任一微卫星位点,计算其对应的富集性指数zscore;3)将全部微卫星位点的富集性指数zscore加和,以得到判断样本微卫星状态的指数msscore;4)计算作为参考样本的mss血浆样本的msscore的平均值mean和标准差sd,并将其mean+3sd作为阈值cutoff;5)对于来自癌症患者的血浆样本,当其msscore>cutoff,判定该样本为msi-h,当其msscore≤cutoff,判定该样本为mss。在一个实施方案中,在基于二代高通量测序法通过癌症患者的血浆样本确定微卫星位点稳定状态的方法中,所述zscore由hs评估,hs=-log(ps(x>ks)评估,并且其中,n为msi-h状态和mss状态重复序列长度集的reads总数,k为msi-h状态重复序列长度集的测序片段总数,n-k为mss状态重复序列长度集的测序片段总数。相对应的,n和k分别为待测样本中相应测序片段的个数。在一个实施方案中,在基于二代高通量测序法通过癌症患者的血浆样本确定微卫星位点稳定状态的方法中,msscore基于以下公式计算:优选地,所述癌症是结直肠癌(例如肠癌)、胃癌或子宫内膜癌。在又一个方面,本申请提供了一种基于二代高通量测序进行患者微卫星稳定状态和疾病相关基因变异的检测,以对该患者或家族的风险控制、治疗和/或预后方案提供临床指导的方法,其包括如下步骤:(1)同时对如权利要求15中所述的多个微卫星位点进行检测;(2)根据权利要求15-18中任一项所述的方法确定所述样本的微卫星位点稳定状态;(3)根据测序结果获得所述一种或多种疾病相关基因的检测结果;(4)结合上述步骤(2)、(3)的结果对该患者或家族的风险控制、治疗和/或预后方案提供临床指导。优选地,在本申请提供的基于二代高通量测序进行患者微卫星稳定状态和疾病相关基因变异的检测,以对该患者或家族的风险控制、治疗和/或预后方案提供临床指导的方法中,所述疾病是癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌。在又一个方面,本申请还涉及用于本申请的各种方法之一的试剂盒,其包含检测所述多个微卫星位点的试剂。在另一个方面,本申请还提供确定用于血浆样本中的微卫星稳定状态检测中的微卫星标志位点的设备,其特征在于,所述设备中包括:测序数据读取模块,用于读取测序设备中获得并存储的样本测序数据;微卫星标志位点检测模块,用于从样本测序数据中分析检测样本中测序区域的全部微卫星位点,重复序列长度类型判定模块,用于针对任一微卫星位点i,通过测序数据读取模块读取的样本测序数据来统计测序片段(reads)各重复序列长度类型的个数,判定模块,用于判定任一微卫星位点i是否是微卫星标志位点,所述判定模块包括第一分析模块、第二分析模块和第三分析模板,所述第一分析模板用于确定微卫星稳定型(mss)状态下的位点重复序列长度特征,并判定在mss样本中对应测序片段个数是否大于位点支持测序片段总个数的75%,其中,mss长度特征为一段最小范围的连续长度,如果得到的是肯定的结果,记为“+”,如果得到的是否定的结果,记为“-”,所述第二分析模板用于确定微卫星高度不稳定(msi-h)状态下的位点重复序列长度特征,其中msi-h长度特征为一段在mss和msi-h样本中高度区分的连续长度范围,并判定a)在所述连续长度范围内的测序片段总数在mss样本中是否不足该位点测序片段总数的0.2%,如果得到的是肯定的结果,记为“+”,如果得到的是否定的结果,记为“-”,和b)在msi-h样本中所述测序片段是否占该位点测序片段总数的50%以上,如果得到的是肯定的结果,记为“+”,如果得到的是否定的结果,记为“-”,所述第三分析模板用于分析所述第一分析模板和第二分析模板的结果,当得到三个肯定的结果,即三个“+”,判定所述微卫星位点i是微卫星标志位点。优选地,在本申请提供的确定用于血浆样本中的微卫星稳定状态检测中的微卫星标志位点的设备中,所述样品包括来自正常白细胞和癌症患者组织的样品,所述癌症优选是结直肠癌(例如肠癌)、胃癌或子宫内膜癌。更优选地,通过上述设备所确定的微卫星位点包含表1中所述的8个微卫星位点中的一个或多个。在一个实施方案中,在本申请提供的确定用于血浆样本中的微卫星稳定状态检测中的微卫星标志位点的设备中,所述微卫星稳定状态检测用于癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌的无创诊断,预后评估,治疗方案的选择或遗传筛查。在又一个方面,本方面还涉及基于二代高通量测序法通过癌症患者的血浆样本确定微卫星位点稳定状态的设备,其特征在于,所述设备包括:测序数据读取模块,用于读取测序设备中获得并存储的样本测序数据;重复序列长度特征判定模块,用于从样本测序数据中分析得到血浆样本和作为参考样本的mss血浆样本中多个微卫星位点的重复序列长度特征,所述多个微卫星位点包括选自表1中所示的8个微卫星位点中的一个或多个微卫星位点;富集性指数计算模块,用于计算微卫星位点的富集性指数zscore;微卫星状态指数计算模块,用于将全部微卫星位点的富集性指数zscore加和,以得到判断样本微卫星状态的指数msscore;阈值计算模块,用于计算作为参考样本的mss血浆样本的msscore的平均值mean和标准差sd,并将其mean+3sd作为阈值cutoff;微卫星位点稳定状态判定模板,用于比较指数msscore和阈值cutoff,对于来自癌症患者的血浆样本,当其msscore>cutoff,判定该样本为msi-h,当其msscore≤cutoff,判定该样本为mss。在一个实施方案中,在基于二代高通量测序法通过癌症患者的血浆样本确定微卫星位点稳定状态的设备中,特征在于所述zscore由hs评估,hs=-log(ps(x>ks)评估,并且其中,n为msi-h状态和mss状态重复序列长度集的reads总数,k为msi-h状态重复序列长度集的测序片段总数,n-k为mss状态重复序列长度集的测序片段总数。相对应的,n和k分别为待测样本中相应测序片段的个数。优选地,在上述确定微卫星位点稳定状态的设备中,msscore基于以下公式计算:更优选地,在上述确定微卫星位点稳定状态的设备中,所述疾病是癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌。附图简述图1.(a)微卫星标志位点bms-br1在完全msi-h癌细胞和白细胞样本中各重复序列长度测序片段(reads)个数的分布。蓝框标注该位点的mss特征范围22-25bp,红框标注该位点msi-h特征范围<16bp。(b)非标志位点在完全msi-h癌细胞和白细胞样本中各重复序列长度片段个数的分布。虽然该位点重复序列长度发生了大约2bp的缩短,这种差异在肿瘤ctdna含量非常小的条件下,不足以与白细胞本身的捕获波动区分开来,不存在仅在msi-h样本中高频出现的重复序列长度类型。图2.bmsisea检测效果。(a)127例肠癌血浆样本msscore的分布,其ms状态由配对组织确定,共包含44例msi-h样本和83例mss样本。当msscore高于cutoff=15时,血浆样本判别为msi-h,msscore小于等于15,则判别为mss;(b)44例msi-h样本maxaf与msscore的相关性;红点表示msscore>15,该样本判定为msi-h,蓝色则表示msscore不满足阈值,该样本判定为mss;(c)基于模拟样本的检测敏感性与maxaf的相关性。结果基于具有ctdna含量梯度差异的350例模拟样本,横轴表示仅统计maxaf大于对应值的样本,纵轴为msi-h的检出敏感性,当maxaf>0.2%时,msi-h检出的敏感性高于93%,maxaf>0.5%,敏感性高于98%。发明详述本申请提供了一种基于二代测序,首次通过血浆检测微卫星稳定状态和疾病相关基因检测的方法,并基于该检测方法获得了高度灵敏性及特异性的用于检测癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌相关的msi位点。此外,本发明建立了一种-确定能够用于基于血浆样本检测微卫星状态的微卫星标志位点的方法。本发明还实现了样本中多个微卫星位点和多个疾病相关基因的同时检测,能够针对所检测的样本给出更加全面的预后、治疗、排查等方面的结论和建议。因此,本申请首次提供了血浆msi检测方法,并且,相对于组织msi检测,本申请的血浆msi检测具有无创性,实时性,非组织特异性等特征。同时,本发明的方法可以在ctdna含量很低的血浆样本中完成微卫星状态的检测,填补了通过血浆样本检测微卫星状态的空白,对ctdna含量高于0.4%的样本可以达到很高的正确率,检测速度快,不依赖匹配白细胞样本,价格更低,检测更快捷,可以以高灵敏度高特异性地判断样本的微卫星稳定(ms)状态。此外,本申请的检测方法还可以用于癌症,优选结直肠癌(例如肠癌)、胃癌或子宫内膜癌患者的无创诊断,预后评估,或选择治疗方案中。并且,本申请还提供了用于确定用于血浆样本中的微卫星稳定状态检测中的微卫星标志位点的设备和基于二代高通量测序法通过癌症患者的血浆样本确定微卫星位点稳定状态的设备。本发明的发明人发现,对于微卫星高度不稳定样本,其微卫星位点由于dna的错误复制导致大量重复序列的扩张或收缩。对此,通过比较msi-h组织样本和正常白细胞样本测序片段(reads)的重复序列长度类型的差异,来寻找msi-h组织样本下大量出现的,而正常白细胞样本中极少出现的重复序列长度类型,以作为msi-h状态下位点重复序列长度特征。具体的标志位点选择的标准如下:a)mss样本中该重复序列长度范围的测序片段少于该位点测序片段总数的0.2%且b)msi-h样本中该范围测序片段数占位点支持测序片段数的50%以上,同时,该长度范围定义为msi-h状态位点重复序列长度的特征通过以上两个条件,方法保证了再极低的ctdna含量下,覆盖在msi-h长度特征的测序片段(reads)几乎完全来自于肿瘤dna。基于此选择,发明人筛选出了8个微卫星标志位点(具体参见表1)。表1微卫星检测标志位点信息本申请基于二代高通量测序法确定来自癌症患者的血浆样本中微卫星位点稳定状态的方法,即微卫星不稳定血浆检测技术bmsisea的主要策略是首先基于组织样本寻找msi-h和mss状态下测序片段(reads)覆盖形态截然不同的标志位点,并描述两种状态下位点支持测序片段(reads)的主要长度类型,通过对各标志位点进行关于msi-h状态测序片段(reads)特征的富集性分析,评估其不稳定状态,进而得到样本微卫星状态的判断。本申请确定来自癌症患者的血浆样本中微卫星位点稳定状态的方法包括以下几个步骤:1)数据准备,包括样本准备,测序区域的微卫星位点检测,位点重复序列长度类型的统计;2)标志位点筛选及位点特征描述;3)微卫星不稳定特征富集性分析;4)评估各位点富集度指数的平均波动水平。5)基于待测血浆样本富集度指数的相对水平构建msscore,进而判断样本ms状态。同时本申请提供了以下实施例,以帮助理解本发明,在所附权利要求中给出了本发明的真正的范围。应当理解,在不背离本发明精神的情况下,可以对给出的方法进行修改。实施例1、数据准备:基于二代测序法进行基因组合(panel)检测,具体步骤如下:组织样本的捕获步骤如下:使用qiaampdnaffpetissuekit(qiagen:56404)分别提取肿瘤组织与癌旁正常组织dna。用qubit3.0荧光仪配套的dsdnahsassaykits(thermofisher:q32854)进行精确定量。然后用超声破碎仪covarism220(covaris:pn500295)将dna物理性片段化到180-250bp长的片段后,进行末端修复、磷酸化,3'端加脱氧腺嘌呤,和接头连接。然后将连接上扩增接头的dna用agencourtampurexp顺磁性磁珠进行纯化,并使用pcr聚合酶进行预扩增,扩增后的纯化后产物与agilent订制的多重生物素标记探针组进行杂交(该基因组合(panel)设计包括41个基因的外显子及部分内含子区域序列)。杂交成功的片段经过特异性洗脱,pcr聚合酶的富集扩增后,进行定量和片段长度分布测定,使用illuminanovaseq6000测序仪(商品号:20012850)进行二代测序,测序深度1000x。血液样本的捕获步骤如下:首先采用核酸提取试剂分别进行血浆游离dna和配对的外周血白细胞基因组dna的提取,并对白细胞基因组dna进行片段化处理。然后通过加接头、pcr扩增等步骤制备得到全基因组预文库,用带有生物素标记的特定序列的rna探针与预文库杂交,特异性地捕获人类基因组中41个基因的部分外显子与内含子区域(全编码区、外显子-内含子连接区、utr区以及启动子区)。用链霉亲和素磁珠富集被探针捕获的dna片段,将富集的dna片段作为模板扩增得到最终的文库。对终文库定量和质控后,用illuminanovaseq基因测序仪对终文库进行高通量测序,测序深度15000x。最终,测得的序列采用bwa0.7.10版比对到人类基因组序列(版本hg19),采用gatk3.2进行局部排列优化、使用varscan2.4.3进行变异响应,使用annovar和snpeff4.3进行变异注释。对于变异响应(calling),varscanfpfilter将去除覆盖深度过低的位点(组织:50x以下,血浆500x以下,白细胞20x以下);对于插入缺失(indel)和单位点变异,分别至少需要5条和8条变异的测序片段(reads)。2.基于二代高通量测序(next-generationsequencing,ngs)数据的微卫星位点中重复序列长度类型的统计微卫星不稳定检测算法bmsisea检测过程仅需要癌症血浆样本的二元序列比对(bam)文件。基线构建过程还需要以下样本的bam文件:足够的配对的msi-h癌组织和正常样本(数目大于50),足够的白细胞样本(数目大于100),以及足够的mss血浆样本(数目大于100)。此方法首先采用msisensor(v0.5)软件获取测序覆盖区域所有的长度大于10重复序列为1的微卫星位点,并计算微卫星位点中各长度类型重复序列的覆盖测序片段(reads)个数。msisensor统计位点各长度类型覆盖测序片段(reads)个数的方法如下:对每一个微卫星位点,首先在人类基因组中搜索其位置信息及两端序列,并构建由两端序列连接的中间重复序列长度分别为1到l-10bp的所有序列作为搜索字典,l为测序片段(reads)的长度。例如1号染色体上某单碱基的微卫星位点(14t,t是重复的碱基,14是重复的个数),其两端序列分别为attcc和gcttt,构建的搜索字典包含attcctgcttt(重复长度为1),attccttgcttt(重复长度为2),attcctttgcttt(重复长度为3)等。而后,从样本的bam文件中提取至少一端位于位点附近2kb内的配对的测序片段(readpairs),并将其和该位点的搜索字典中的序列进行比对。统计覆盖搜索字典中不同长度序列的测序片段个数,构建位点所有长度类型的测序片段覆盖个数的直方图。3.微卫星不稳定的标志位点筛选3.1mss状态位点重复序列长度特征对于正常样本的微卫星位点,测序片段大概率的覆盖在样本基因型对应的一种或两种重复序列长度类型上。本步骤基于白细胞样本,描述正常状态下各位点测序片段大概率出现的重复序列长度的类型,作为mss状态下位点重复序列长度特征。对于每个位点每个白细胞样本,寻找最小范围的连续长度,使得对应的测序片段个数大于位点支持测序片段总个数的75%,该连续长度范围称为该样本在该位点的peak区域。对于每个位点,以至少在25%的白细胞样本中被选为peak区域的重复序列长度范围作为mss状态下该位点的重复序列长度特征。3.2msi-h状态位点重复序列长度特征与标志位点选择对于微卫星高度不稳定样本,其微卫星位点由于dna的错误复制导致大量的重复序列的扩张或收缩,在此,我们集中关注长重复序列位点序列收缩的现象。本步骤基于配对msi-h癌组织和癌旁正常组织样本,描述msi-h状态下测序片段大量出现的与正常状态差异的重复序列长度类型,作为msi-h状态下位点重复序列长度特征。由于癌组织样本是混有癌细胞和正常细胞的混合体,方法第一步估计样本的肿瘤细胞占比。具体方法如下,统计癌组织和癌旁正常组织中各位点对应mss状态位点重复序列长度类型的测序片段个数,并假设癌组织样本中对于mss状态测序片段完全来自其中的正常细胞,从而构建线性模型,估计肿瘤细胞占比u。第二步,将癌组织和配对正常组织的测序片段总数进行规范化,然后将癌组织各位点各重复序列长度测序片段数对应减去u倍的配对正常组织的对应数据,从而估计完全的msi-h癌细胞的重复序列长度统计数据。对所有的微卫星位点,基于完全msi-h癌细胞的重复序列长度统计数据,选择有如下特征的位点作为bmsisea的标志位点,并将其重复序列长度范围作为msi-h状态位点重复序列长度特征:该重复序列长度范围支持的测序片段总数在mss样本中不足该位点测序片段总数的0.2%,而在msi-h样本中占该位点测序片段总数的50%以上。以上两条件保证了在极低的ctdna含量下,覆盖在msi-h长度特征的测序片段几乎完全来自癌症dna。表1列出按照以上方法筛选出来的用于微卫星状态检测的8个微卫星检测标志位点。图1(a)显示的是标志位点bms-br1。其中,mss状态位点重复序列特征长度范围为22-25bp,msi-h特征长度范围为1-16bp。图1(b)显示了一个非标志位点在两种类型样本的覆盖特征图谱。虽然相对mss样本,在msi-h状态下该位点重复序列长度发生了约2bp的缩短,该变化无法在ctdna含量极小的条件下,与白细胞本身的捕获波动区分开来,不满足标志位点筛选条件,无法用来进行样本微卫星状态判断。4.msi特征富集性分析对于每一个标志位点,以正常白细胞样本在mss和msi-h状态长度特征集对应测序片段个数为背景,进行血浆样本关于msi-h特征的富集性分析。该步骤基于大量正常白细胞样本,计算其对应于msi-h状态和mss状态重复序列长度集的测序片段总数,分别记为k和n-k,对于血浆样本,同样计算该样本对应于msi-h状态和mss状态重复序列长度集的测序片段数k和n-k,若样本状态为mss,则测序片段特征与白细胞样本状态一致,符合超几何分布,故而,位点的富集性指数可以由hs评估,hs=-log(ps(x>ks)。进一步,基于大量mss血浆样本,得到各位点富集性指数的波动范围。对一个待测血浆样本,基于该波动水平计算各位点富集性指数的zscore,并将所有zscore加和,得到判断样本微卫星状态的指数msscore。以bms-br1位点为例,基于100例wbc样本,重复序列长度范围为1-16bp的测序片段总数k为504,长度范围为1-16bp或22-25bp的测序片段总数n为190588。对于一个待测样本,该位点重复序列在1-16bp长度范围的测序片段总数k为65,1-16bp或22-25bp的测序片段总数n为1308,从而,hs=-log(ps(x>ks)=-log(ps(x>65)=140.6。进而,基于mss血浆样本评估hs的波动水平,如表一所示,得该位点的zscore值为108.6。其他位点计算方法如上所述,最后将所有zscore相加,得到最终该位点的msscore为355.3。该样本同时检出mlh1的疑似致病的体系移码突变p.d214fs,及包括pik3ca,kras,pten的致病/疑似致病突变和包含brca2,stk11,pms1的致病信息不明的突变以及试剂盒涉及的其他部分基因的良性突变。5.癌症样本的微卫星状态判定对于一个血浆样本,以mss血浆样本msscore的值为基础,计算其平均值mean和标准差sd,并以mean+3sd为阈值cutoff,当msscore>cutoff,样本判定为msi-h,msscore≤cutoff,样本判定为mss。6.bmsisea微卫星不稳定血浆检测结果我们使用bmsisea微卫星检测技术对127例真实临床肠癌血浆样本进行了包括突变和微卫星检测的ngs检测。样本微卫星状态基于对应患者配对的组织样本,通过ihc和ngs-msi技术双重确认,最终包含44例msi-h样本和83例mss样本。其中,组织检测的方法如下:ngs检测方法基于重复序列的长度的差异,通过22个标志位点,判断样本的微卫星状态。对于每个标志位点,方法评估mss状态下集中出现的测序片段重复序列长度范围,并评估该范围内测序片段占位点测序片段总数的百分比变化,以mean-3sd为阈值,当待测样本在该位点上述比例小于阈值,则该位点判断为不稳定位点。若不稳定位点总数低于总位点数的15%,样本判为mss,高于40%,样本判为msi-h,介于二者之间,判为msi-l。该检测方法可参见第201710061152.6号专利申请。另外,组织病理切片同时完成了ihc评估。ihc方法通过免疫组化方法检测mmr蛋白,包括mlh1,pms2,msh2,msh6蛋白的表达情况,若其中一个蛋白缺失,则判定为dmmr,若无蛋白缺失,则判断为pmmr。dmmr患者由于错配修复机制异常,通常表现为msi-h。通过对该127例血浆样本基于bmsisea检测结果和与其配对组织检测结果对比,得到bmsisea方法检测的灵敏度和特异性显示在表2中。表2.基于127例肠癌血浆的bmsisea检测结果(以组织检测结果为基准)ctdna(maxaf>0.2%)时,血浆msi检测准确性达98.5%*基于组织检测的微卫星状态结果由ngs和ihc方法双重确认。检测指标中,灵敏度:sensitivity;特异度:specificity;ppv:阳性预测值(positivepredictivevalue);npv:阴性预测值(negativepredictivevalue);准确性:accuracy,其计算方法如下:其中,tp,tn,fp,fn分别表示真阳(组织和血浆检测结果均为msi-h),真阴(组织和血浆检测结果均为mss),假阳(组织检测结果为mss,血浆检测结果为msi-h),假阴(组织检测结果为msi-h,血浆检测结果为mss)样本的个数。由表2可知,基于血浆样本的msi-h检测的特异性100%。当无筛选的计入所有样本,由于大部分样本ctdna含量极低,检测的总体灵敏度仅为52.3%,准确性为83.5%。与之相比,仅筛选其中满足maxaf>0.2%(ctdna>0.4%)的血浆样本时,检测的灵敏度为93.8%,准确性为98.5%。事实上,当仅选取该组样本中maxaf>0.5%的样本时,检测的准确性为100%。由此可见,bmsisea在保证检测特异性的基础上,当血浆中包含足够含量的ctdna时,bmsisea具有足够高的检测敏感性。另外,更细节的检测结果如图2所示。图2(a)展示了基于127例肠癌血浆样本的msi检测的msscore分布。基于bmsisea方法,83例mss样本msscore均小于15,特异性100%。23/44例msi-h样本msscore大于15,敏感性52.3%。考虑到样本间ctdna含量的差异性,图2(b)描述了maxaf与msi-h样本msscore的相关性,仅考虑maxaf>0.2%的样本,15/16例msi-h样本msscore大于15,准确性达93.8%。7.模拟实验确认血浆中ctdna含量对检测敏感性的影响由于血浆中ctdna含量一般极低,检测敏感性将受到ctdna含量的影响。因此,基于真实临床血浆和白细胞样本,本实验另外构建了一组350例具有不同ctdna含量梯度的模拟样本,用以评估不同ctdna含量下方法基于血浆样本检测微卫星不稳定的敏感性。此处,癌症样本的ctdna含量可以用样本的最大体细胞基因突变频率(maxaf)评估我们选取18对配对的血浆与白细胞样本,基于血浆样本的maxaf按比例混合血浆和白细胞样本的bam文件,并重新下采样至原始血浆样本,模拟不同ctdna含量梯度的样本350例,用以评估包含不同ctdna含量的血浆样本检测的敏感度水平。模拟样本采用与真实临床样本同样的突变检测流程进行突变检测,用于确定maxaf水平。如图2(c)所示,横轴为仅统计maxaf大于该阈值的样本,纵轴为msi-h的检出敏感性,当maxaf>0.2%时,msi-h检出的敏感性高于93%,maxaf>0.5%,敏感性高于98%。虽然msi-h的检出在ctdna含量过低时受限,但当ctdna含量达到稳定检出范围(maxaf>0.2%),bmsisea方法可以以高准确度高灵敏度地判断样本的微卫星稳定(ms)状态,为血浆无创检测ms状态提供了可能。因此,bmsisea方法对于maxaf>0.2%(约对应ctdna含量高于0.4%)的血浆样本,可以得到与组织检测匹配的敏感性和极高的特异性水平。相对组织msi检测,本申请的血浆msi检测具有液体活检所独有的优势,包括无创诊断,非组织特异性,多发病灶发现等。bmsisea方法检测过程不依赖配对白细胞样本,在检测突变的同时判断样本的微卫星状态,价格更低,速度更快。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1