HBV整合位点附近区域甲基化状态在癌症检测中的应用的制作方法

文档序号:21407909发布日期:2020-07-07 14:42阅读:253来源:国知局
HBV整合位点附近区域甲基化状态在癌症检测中的应用的制作方法
本发明涉及分子生物学
技术领域
,特别涉及一种利用hbv整合位点附近区域甲基化状态进行癌症相关检测的方法。
背景技术
:外周血游离dna(cfdna)是在人体血浆、尿液和其他体液中发现的小的双链dna片段[1,2],起源于细胞凋亡和坏死[3]。cfdna分析被视为“液体活检”的一种方式,已经被用于基因检测[4,5],早期癌症检测[6,7],以及疾病预后预测[8,9]。凋亡和坏死的肿瘤细胞可以将cfdna释放到外周血中,这反映了肿瘤相关的遗传特征,包括cfdna片段大小(cfdnasize)[10],以及突变、拷贝数畸变和表观遗传变化等[8]。同时,cfdna还携带组织特异性信息,这为其来源组织的推断提供了应用前景[11-15]。因此,cfdna可以作为一种重要的生物标志物用于临床。肝癌是全球癌症相关死亡的第四大原因。在美国,2000-2016年间,肝癌死亡率从7.2/10万上升到10.3/10万[16,17]。肝细胞癌(hcc)是原发性肝癌最常见的形式,通常发生于因乙型肝炎病毒(hbv)、丙型肝炎病毒(hcv)、酒精滥用或非酒精性脂肪肝引起的慢性肝病患者[18,19]。慢性炎症、纤维化和异常肝细胞再生造成一系列遗传和表观遗传事件,最终导致肝细胞恶性转化。肝癌的发生是一个复杂而鲜为人知的多步骤过程,包括从肝硬化背景下的再生结节到不典型增生结节,最终是hcc的组织学转变[20-22]。肝硬化患者发生hcc的高风险(即每年风险2-7%)证明了建议在高危患者中使用腹部超声(us)结合或不联合血清甲胎蛋白(afp)进行两年一次的hcc筛查[23]。非随机化研究表明,早期发现hcc增加了接受治愈性治疗的几率,并增加了生存率。然而,us和afp对早期hcc检测的敏感性为63%,这突出了对改进早期筛查方案的需求。许多研究开始尝试将cfdna作为发现肝癌早期检测的潜在生物标志物的对象。类似的尝试包括开展了突变分析[24,25],循环肿瘤细胞(ctcs)[26]以及dna甲基化[27-32]。与突变和ctc不同,cfdna的dna甲基化分析具有提供组织起源信息的理论优势,当cfdna来源于混合的细胞类型时,这是至关重要的。多项研究集中在特定甲基化改变作为生物标志物[28,32],肿瘤基因组范围内整体低甲基化[27]以及基于甲基化水平推断起源组织[29-31]。目前很多研究集中于将cfdna的甲基化作为肿瘤诊断的标志物,有不同的技术来研究cfdna的甲基化变化,包括scrrbs[11]和cfmedipseq[14],这两种方法通过不同的手段尝试富集cpg岛的片段,仅占基因组区域的1%,从而降低测序量,该方案并未降低每个位点的测序覆盖度需求,不属于低覆盖度检测,而且基因组的覆盖区域有限,降低的是分析检测的基因组区域大小,需要依靠实验手段进行dna片段的筛选,也引入了实验偏差的风险。全基因组甲基化测序(wgbs)由于其单胞嘧啶度量和高准确性而成为dna甲基化分析的金标准[33],使用wgbs对肿瘤进行检测的挑战之一是在总的cfdna背景下肿瘤dna量极少,特别是在早期肿瘤和微小残留病灶的患者中,这就需要通过深度测序产生对早期肿瘤检测和监督更敏感的标志物,往往需要30-100重的全基因组覆盖度[29,31],测序成本极高,限制了其在目前临床环境中的大规模应用。基于cfdna中特定基因位点的甲基化水平来筛查肿瘤,这种方案依据的不是全基因组范围内的甲基化水平检测,仅依靠部分位点的选择,但肿瘤的异质性(不同人肿瘤基因组中变化的差异)非常大,因而这些检测即便在研究所用的样本中表现出极好的特异性和灵敏度,但更换样本后,会由于选择候选位点在新的临床样本中并不一定表现出期望监测到的变化而无法达到研究样本中的表现,因而需要提供不依赖于特定甲基化标志位点的,在全基因组水平上通过生物信息学手段建立低甲基化评估的方法。发现新的癌症标志物、探索降低dna甲基化测序成本、降低cfdna样品在甲基化测序中限制的方法,低覆盖度测序和相应的低测序成本将成为促进基于dna甲基化监测工具临床部署的关键。技术实现要素:为了解决现有技术存在的缺陷,本发明的一个目的在于提供一种新的可应用于癌症检测场景的甲基化分析方法,该方法的形成基于发明人的一个令人吃惊的发现,即以乙肝病毒整合位点附近区域的甲基化状态作为指标所构建的分类模型,不仅能在常规测序条件下获得优异的分类性能,而且在低覆盖度的测序条件下,也具有非常良好的表现,克服了现有技术中关于cfdna进行dna甲基化分析需要深度测序的偏见。为了实现上述目的,本发明提供了一种dna甲基化状态的检测方法,所述甲基化状态是乙肝病毒整合位点附近区域的甲基化状态,所述乙肝病毒整合位点附近区域是包含乙肝病毒在宿主基因组上的整合位点以及整合位点两侧宿主基因组序列的区域。在一些实施例中,所述甲基化状态通过测序或者聚合酶链式反应(pcr)获得;优选地,所述甲基化状态通过亚硫酸氢盐测序法、基因组直接测序法、甲基化特异性的pcr或者高分辨率熔解曲线法获得;更优选地,所述甲基化状态通过基于重亚硫酸盐转化的甲基化测序方法获得;特别优选全基因组重亚硫酸氢盐测序(wgbs)或者靶向重亚硫酸盐测序获得。在一些实施例中,所述测序为高覆盖度测序、中等覆盖度测序或者低覆盖度测序;优选地,所述测序的覆盖度满足以下条件中的一种或几种:i)所述测序的覆盖度以读段对(readpair)的数量计小于1×107个读段对,或者优选3×106-7×106个读段对,或者特别优选5×106个读段对;和/或ii)所述测序的覆盖度以读段(read)的数量计小于2×107个读段,或者优选6×106-1.4×107个读段,或者特别优选1×107个读段。在一些实施例中,所述甲基化状态是在全基因组范围内或者在基因组中部分区域内的一个或多个乙肝病毒整合位点附近区域的甲基化状态;优选地,所述甲基化状态是已报道的乙肝病毒整合位点中的全部或部分位点附近区域的甲基化状态。在一些实施例中,所述基因组中部分区域是感兴趣的目标区域;优选地,所述基因组中部分区域的长度为1m以上、10kb以上1m以下、10kb或者10kb以下。在一些实施例中,所述基因组中部分区域是13号染色体19442162-20713822位、1号染色体10121993-12279387位、10号染色体11149668-13266296位、10号染色体38027603-39151628位和/或10号染色体84035111-85772043位。在一些实施例中,所述基因组中部分区域是1号染色体115071623-115081623位、1号染色体37021302-37031302位、10号染色体5584724-5594724位、10号染色体81656529-81666529位和/或11号染色体120177705-120187705位。在一些实施例中,所述乙肝病毒整合位点附近区域是宿主基因组中乙肝病毒整合位点上游p个核苷酸位置至整合位点下游q个核苷酸位置的区域;其中,p为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50;q为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50。在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。在一些实施例中,所述检测方法的检测对象是动物;优选哺乳动物;更优选是人、猴子或者小鼠。在一些实施例中,所述检测方法检测的样品为基因组dna和/或游离dna。优选地,所述样品是cfdna含量有限的样品。优选地,所述游离dna为总游离dna。优选地,所述样品是液体生物样品,优选血液、血浆、血清、唾液、痰、尿液、脑脊液、精液、前列腺液或母乳。优选地,所述样品来源于肝脏、胃、肠道、食道、肺、乳腺、心脏、脑、前列腺或淋巴。本发明的技术方案可以在肝癌的各种诊断和非诊断的应用场景中使用;可适用于任何分期的肝癌,例如极早期肝癌、早期肝癌、中期肝癌、晚期肝癌。本发明的另一个目的在于提供一种肝癌标志物或标志物组合的筛选方法,所述筛选方法以乙肝病毒整合位点附近区域的甲基化状态作为指标筛选与肝癌相关的标志物,所述乙肝病毒整合位点附近区域是包含乙肝病毒在宿主基因组上的整合位点以及整合位点两侧宿主基因组序列的区域。本发明中的标志物可以是乙肝病毒整合位点附近区域的基因组区段或者核酸片段。在一些实施例中,所述筛选方法包含对不同受试者群体进行特征选择的步骤,所述特征是在全基因组范围内或者在基因组中部分区域内的一个或多个乙肝病毒整合位点附近区域的甲基化状态;优选地,所述甲基化状态是已报道的乙肝病毒整合位点中的全部或部分位点附近区域的甲基化状态。在一些实施例中,所述不同受试者群体由患有肝癌的受试者、患有肝硬化的受试者、患有肝炎的受试者和/或健康受试者构成;优选地,所述患有肝癌的受试者为患有早期肝癌的受试者、患有晚期肝癌的受试者和/或术后肝癌的受试者。在一些实施例中,所述特征选择通过决策树、随机森林、逻辑回归、支持向量机、朴素贝叶斯、信息熵、k最近邻算法、k均值算法、adaboost算法和/或基于神经网络的深度学习算法进行。在一些实施例中,所述筛选方法还包含对该乙肝病毒整合位点附近区域进行取舍的步骤,和/或将相邻的乙肝病毒整合位点附近区域进行合并的步骤。在一些实施例中,根据乙肝病毒整合位点附近区域的实际测序覆盖度对该区域进行取舍。在一些实施例中,根据相邻的乙肝病毒整合位点附近区域之间的距离和/或合并后的长度决定对相邻的乙肝病毒整合位点附近区域进行合并。在一些实施例中,所述甲基化状态通过测序或者聚合酶链式反应(pcr)获得;优选地,所述甲基化状态通过亚硫酸氢盐测序法、基因组直接测序法、甲基化特异性的pcr或者高分辨率熔解曲线法获得;更优选地,所述甲基化状态通过基于重亚硫酸盐转化的甲基化测序方法获得;特别优选全基因组重亚硫酸氢盐测序(wgbs)或者靶向重亚硫酸盐测序获得。在一些实施例中,所述测序为高覆盖度测序、中等覆盖度测序或者低覆盖度测序;优选地,所述测序的覆盖度满足以下条件中的一种或几种:i)所述测序的覆盖度以读段对(readpair)的数量计小于1×107个读段对,或者优选3×106-7×106个读段对,或者特别优选5×106个读段对;和/或ii)所述测序的覆盖度以读段(read)的数量计小于2×107个读段,或者优选6×106-1.4×107个读段,或者特别优选1×107个读段。在一些实施例中,所述基因组中部分区域是感兴趣的目标区域;优选地,所述基因组中部分区域的长度为1m以上、10kb以上1m以下、10kb或者10kb以下。在一些实施例中,所述乙肝病毒整合位点附近区域是宿主基因组中乙肝病毒整合位点上游p个核苷酸位置至整合位点下游q个核苷酸位置的区域;其中,p为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50;q为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50。在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。在一些实施例中,所述检测方法的检测对象是动物;优选哺乳动物;更优选是人、猴子或者小鼠。在一些实施例中,所述检测方法检测的样品为基因组dna和/或游离dna。本发明还提供了采用本发明的筛选方法获得的肝癌标志物或肝癌标志物组合。在一些实施例中,所述肝癌标志物为全基因组中hbv整合位点上下游各5kb的序列。在一些实施例中,所述肝癌标志物为13号染色体19442162-20713822位的序列、1号染色体10121993-12279387位的序列、10号染色体11149668-13266296位的序列、10号染色体38027603-39151628位的序列和/或10号染色体84035111-85772043位的序列。在一些实施例中,所述肝癌标志物为1号染色体115071623-115081623位的序列、1号染色体37021302-37031302位的序列、10号染色体5584724-5594724位的序列、10号染色体81656529-81666529位的序列和/或11号染色体120177705-120187705位的序列。在一些实施例中,所述肝癌标志物组合为全基因组中hbv整合位点上下游各5kb的序列、1号染色体10121993-12279387位的序列和10号染色体84035111-85772043位的序列。在一些实施例中,所述肝癌标志物组合为全基因组中hbv整合位点上下游各5kb的序列和1号染色体37021302-37031302位的序列。本发明还提供了用于肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的模型的构建方法,所述方法使用根据本发明的筛选方法筛选得到的肝癌标志物或肝癌标志物组合构建肿瘤筛查模型,或者使用本发明的肝癌标志物或肝癌标志物组合构建肿瘤筛查模型。在一些实施例中,所述构建方法以所述肝癌标志物或肝癌标志物组合的甲基化状态作为输入数据,通过机器学习的方法构建肿瘤筛查模型。在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。本发明还提供了肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的方法,所述方法包含以下步骤:a)测定本发明的肝癌标志物或肝癌标志物组合的甲基化状态;b)将a)中获得的甲基化状态作为输入数据,输入本发明的构建方法构建的模型中。本发明还提供了特异性检测本发明的肝癌标志物或肝癌标志物组合的试剂在制备肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的试剂盒中的用途。在一些实施例中,所述试剂是所述肝癌标志物或肝癌标志物组合的特异性扩增和/或捕获试剂;优选用于扩增和/或捕获所述肝癌标志物或肝癌标志物组合的引物和/或探针。本发明还提供了肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的试剂盒,所述试剂盒包含特异性检测本发明的肝癌标志物或肝癌标志物组合的试剂。在一些实施例中,所述试剂是所述肝癌标志物或肝癌标志物组合的特异性扩增和/或捕获试剂;优选用于扩增和/或捕获所述肝癌标志物或肝癌标志物组合的引物和/或探针。本发明还提供了一种计算机可读存储介质,其特征在于,所述介质包括存储的计算机程序,所述计算机程序包含:i)用于执行本发明的筛选方法的程序;和/或ii)用于执行本发明的构建方法的程序;和/或iii)用于执行本发明的肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的方法的程序。本发明还提供了一种装置或者计算机系统或者包含所述装置和计算机系统的设备,其特征在于,所述装置用于执行本发明的dna甲基化的检测方法;所述计算机系统包括:甲基化状态读取模块,用于读取受试者的甲基化状态的测定数据,所述甲基化状态是本发明的肝癌标志物或肝癌标志物组合的甲基化状态;分析模块,用于将所述读取模块获取的数据输入本发明的构建方法构建的模型进行分析;输出模块,根据分析模块得到的分析结果,输出肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的信息。在一些实施例中,所述装置、计算机系统或者设备还包含本发明的计算机可读存储介质。本发明还提供了一种受试者甲基化状态的表征方法,所述受试者甲基化状态用乙肝病毒整合位点附近区域的甲基化状态来表示,所述乙肝病毒整合位点附近区域是包含乙肝病毒在人类基因组上的整合位点以及整合位点两侧人类基因组序列的区域。在一些实施例中,所述乙肝病毒整合位点附近区域是宿主基因组中乙肝病毒整合位点上游p个核苷酸位置至整合位点下游q个核苷酸位置的区域;其中,p为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50;q为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50。在一些实施例中,所述受试者甲基化状态用在全基因组范围内或者在基因组中部分区域内的一个或多个乙肝病毒整合位点附近区域的甲基化状态来表示;优选地,所述甲基化状态是已报道的乙肝病毒整合位点中的全部或部分位点附近区域的甲基化状态。在一些实施例中,所述基因组中部分区域是感兴趣的目标区域;优选地,所述基因组中部分区域的长度为1m以上、10kb以上1m以下、10kb或者10kb以下。在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。在一些实施例中,所述表征方法可以包括以下步骤:1)对原始甲基化数据进行质量控制;2)将测序结果比对至参考基因组;3)去掉pcr扩增重复的读段(reads);4)去掉双端测序读段中重叠的碱基序列;5)计算cpg位点甲基化水平;6)计算乙肝病毒整合位点附近区域平均甲基化水平。本发明所涉及的计算机程序可以按照以下步骤执行(如图1所示),以用于甲基化状态的表征:1)原始数据的质量控制:首先对测序得到的原始数据进行质量控制,该质量控制过程可以通过但不限于fastqc软件实现;任选地,然后还可以移除reads中的接头序列和低质量碱基,可以通过但不限于cutadapt软件实现,采用的参数可以为“-q15–minimum-length36”。2)序列比对:将测序结果比对至参考基因组。参考基因组可以获自已知的基因组数据库,包括但不限于ensembl、ncbi、ucsc;优选来自ensembl数据库的hg19参考基因组。可以采用现有技术已知的任何比对方法或自行开发的比对方法进行序列比对,例如可以利用bismark软件将过滤后的双端reads比对到人hg19基因组上。3)去掉pcr扩增重复的reads:在比对后去掉pcr扩增产生的重复数据,可以通过但不限于bismark软件实现。4)去掉双端测序reads中重叠的碱基序列:双端测序reads比对后可能会出现两端reads序列重叠的部分,造成cpg位点的重复计算从而影响甲基化水平定量。该步骤可以使用但不限于bamutil软件实现。5)cpg位点甲基化水平的估计:提取每个胞嘧啶的位点c和t覆盖数目,并根据正负链分别统计,由于cpg位点在dna双链间是对称分布的且cpg位点甲基化一般也是对称的,因此对于每个cpg位点的甲基化水平我们将正负链的信息合并起来计算,甲基化水平计算为:m/(m+u),其中m为该位点为c(甲基化)的reads数目,u为该位点为t(未甲基化)的reads数目。该步骤可以使用但不限于samtools软件实现。6)乙肝病毒整合位点附近区域平均甲基化水平的计算:区域的平均甲基化水平(例如methylhbv5k)计算为:m/(m+u),其中m为落在该区域内c的reads数目,其中u为落在该区域内t的reads数目。7)特异区域的筛选:对候选区域进行特征选择。该选择过程可以使用但不限于r包caret实现。本发明的有益效果:(1)本发明的方法克服了现有技术中关于cfdna进行dna甲基化分析需要深度测序的偏见,与传统的甲基化测序技术相比,通过以低至1×107个读段对或2×107个读段以下的覆盖度对总游离dna进行甲基化测序,极大地降低了测序成本。(2)采用本发明发现的新指标筛选的标志物以及构建的模型,在低覆盖度的测序条件下,仍能获得优异的分类性能。(3)本发明的方法可以不依赖于特异性的甲基化标志位点,避免了肿瘤异质性等原因造成的假阳性或假阴性问题。本发明的方法也可以不对cfdna进行特异性的富集或捕获,无需富集高cpg区域,无需使用限制性内切酶酶切,无需进行免疫共沉淀,也无需使用特别设计的接头、微珠,不仅简化了操作、降低了成本,更重要的是,避免了上述步骤可能引入的偏差和污染。附图说明提供以下附图以帮助对发明技术方案的理解以及对技术效果的证明,附图可用于解释本发明,但不构成对本发明的限制。图1为本发明一个实施方案的流程图。图2为cfdna样品提取和定量结果图。图3为游离dna中不同区域的甲基化位点富集程度比较图。图4为不同类型个体中hbv整合位点区域的甲基化水平和全基因组甲基化水平比较图。图5为测序深度与抽样间相关性和变异系数的关系图。图中d1为健康个体,d2慢性肝炎患者,d3为肝硬化患者,d4为晚期肝癌患者,d5为术后肝癌患者。图6为随机抽取区域的平均甲基化水平的相关系数图。图7为hbv整合位点上下游5kb区域以及区域1-5的甲基化水平图(基于54例受试者)。图8为hbv整合位点上下游5kb区域以及区域1-5的性能测试结果图。图9为hbv整合位点上下游5kb区域以及短区域1-5的性能测试结果图。图10为hbv整合位点上下游5kb区域与短区域2联合使用的性能测试结果图。具体实施方式如无特别说明,本发明中各项术语可按照本领域通常的含义解释,所使用的试剂、设备等均为本领域常用的,或者可以通过市场购买获得。本发明中的术语“乙肝病毒整合位点”是指乙肝病毒dna整合入宿主基因组所在的位点。本发明中的术语“乙肝病毒整合位点附近区域”是指乙肝病毒在宿主基因组上的整合位点以及整合位点两侧宿主基因组序列的区域。本发明中的术语“覆盖度”是指被测基因组上单个碱基被测序的平均次数。本发明中的术语“甲基化水平”是指某位点或区域的甲基化程度,甲基化水平计算为:m/(m+u),其中m为该位点或区域的甲基化读段(reads)数目,u为该位点或区域的未甲基化读段(reads)数目。本发明中的术语“甲基化图谱”是指甲基化特征、模式和/或不同位点或区域的甲基化水平所代表的甲基化特征。本发明中的术语“auc”是指roc曲线下与坐标轴围成的面积,auc越接近1,检测方法的性能越高。本发明中的术语“roc”是指受试者工作特征曲线。本发明中的术语“灵敏度”是指真阳性率,指实际患病人群按某诊断标准被正确判为疾病的百分比。本发明中的术语“特异性”是指真阴性率,指实际无病按某诊断标准被正确判为无病的百分比。下面结合具体实施例详细描述本发明,应当理解的是,这些实施例仅用于例证本发明,并不构成对本发明的限制,本领域技术人员根据本发明的揭示,在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。实施例1采集了54例受试者样品,其中包括17例肝癌患者(3例早期肝癌患者、5例晚期肝癌患者、9例肝癌术后患者)、17例肝硬化患者、17例肝炎患者和3例健康个体的外周血样本。采集上述受试者的临床信息,包括年龄、性别、乙型肝炎病毒(heptitisbvirus,hbv)感染状态、肿瘤大小、谷丙转氨酶(alt)、谷草转氨酶(ast)、总胆红素(tbil)和甲胎蛋白(afp)等。根据巴塞罗那肝癌临床分期系统(bclc)将肝癌患者分为早期和晚期,a期和b期视为早期,c期和d期为晚期。取10ml外周血于streckcell-freednabct抗凝管中,在4℃下,3,000×g离心15分钟,吸取上清再在室温下16,000×g离心10分钟,取上层血浆,利用qiaampcirculatingnucleicacidkit试剂盒提取cfdna。提取后,使用qubitdsdnahsassaykit试剂盒定量样品dna。试剂盒提取cfdna和定量的结果如图2所示,其具体过程如下:(1)取500ulqiagen蛋白酶k加入到50ml离心管中;(2)取5ml已分离血浆加入到该离心管中;(3)加入4mlacl缓冲液(含有1.0ugcarrierrna),漩涡30s,充分混匀;(4)60℃水浴30min;(5)加入9mlacb*缓冲液,涡旋30s,充分混匀;(6)冰浴5min;(7)打开真空泵,使压力平衡在-800mbar和-1000mbar之间;(8)组装过滤系统:从上往下依次为样品收集槽-离心柱-连接头-真空阀;(9)将裂解液倒入收集槽,使液体完全流过柱心;(10)加入600ulacw1*缓冲液,使液体完全流过柱心;(11)加入750ulacw2*缓冲液,使液体完全流过柱心;(12)加入750ul无水乙醇,使液体完全流过柱心;(13)关闭阀门,打开排气阀,使压力回零;(14)将柱子装入2ml收集管,14000rpm离心3min,去除残留液体;(15)将柱子装入1.5ml离心管,开盖放56℃金属浴10min,使乙醇挥发干净;(16)往柱心加30ulddh2o,放室温3min洗脱样品;(17)14000rpm离心1min,收集样品;(18)使用qubitdsdnahsassaykit试剂盒定量后,放-80℃冰箱保存备用。实施例2对cfdna样品进行wgbs测序的具体过程如下:(1)末端修复加a:利用biooscientifickit试剂盒,吸取cfdna样品10ng,按5‰比例加入λ-5mc作为内参,用ddh2o补平体积至32μl(即dnamix和水)。配置50μl反应体系如下:反应条件设置为:22℃20分钟,72℃20分钟,4℃保持,放于pcr仪内。(2)修复好的样本加甲基化接头(nextflextmbisulfite-seqadapters):将接头稀释至3μm(14μlh2o+2μl母液);在修复后的50μl反应液中加入ligaseenzymemix47.5μl,再加入稀释后接头2.5μl,22℃反应15分钟。(3)磁珠纯化:1)提前半小时从4℃冰箱中拿出ampure磁珠放置成室温备用,涡旋混匀30秒使管底无磁珠沉淀;2)向样品中加入1×体积磁珠(100μl),涡旋混匀后室温静置5分钟使其结合;3)轻甩后放在磁力架上静置5分钟,待磁珠被吸至一侧、液体澄清后,吸弃上清;4)加入200μl新配置的80%乙醇,转动ep管清洗磁珠,共洗两次;5)轻甩后放回磁力架上,10μl枪头吸净残留乙醇,开盖静置3分钟,使乙醇挥发;6)从架上取下离心管,加20μl水,吹吸混匀后室温静置2分钟;7)将管放回吸附1分钟,待磁珠被吸至一侧,液体澄清后,吸取上清至新pcr管中。(4)重亚硫酸氢盐(bisulfite)处理样品:用ezdnamethylation-goldkittm(zymoresearch)对磁珠纯化后的dna进行重亚硫酸盐转换。1)配制ct转换溶液:ct转换试剂提供的是固体混合物干粉,首次使用需准备如下:向ct转换试剂的固体混合物粉末中加入h2o900μl,m-dilutionbuffer300μl,m-dissolvingbuffer50μl;室温涡旋振荡10分钟;2)取新配制的130μlct转换溶液至20μl样品中,吹吸混匀,分成两管各75μl;3)置于pcr仪上孵育:98℃10分钟,64℃2小时;4)将柱子置于收集管上,加入600μlm-bindingbuffer;5)加150μldna样品,颠倒混匀,10000g室温离心30秒,弃废液;6)加100μlm-washbuffer,10000g30秒;7)加200μlm-desulphonationbuffer,室温静置15分钟,10000g室温离心30秒;8)加200μlm-washbuffer,10000g室温离心30秒,弃废液;9)加200μlm-washbuffer,10000g室温离心30秒,弃废液;10000g室温空甩30秒;10)将柱子置于新的1.5ml离心管中,加20μl水,室温孵育2分钟;11)10000g室温离心30秒,收集dna样品。(5)扩增文库:配置50μl反应体系:反应条件:步骤2共循环11次。(6)纯化:1×ampure磁珠(50μl),30μl水洗脱,取至新1.5ml离心管。重复一遍20μl水洗脱。(7)定量浓度,命名文库,记录barcode。(8)高通量测序:每个构建好的测序文库在高通量测序平台进行测序。(9)生物信息分析:测序序列经过cutadapt质控后,用bismark比对到人hg19版本的基因组参考序列上,在去掉pcr扩增重复的数据后,确定cpg位点的甲基化水平。基因组区域富集使用fisher精确检验。hbv整合位点上下游各5kb平均甲基化水平计算为该区域内所有的c/c+t,使用r包caret进行候选区域选择。实施例3发明人发现了一个出乎意料的现象,在游离dna样品中,cpg位点倾向富集于内含子、基因间区、重复(repeat)区域和hbv整合位点(hbvi)附近区域,尤其是hbv整合位点及其上下游附近,而在cpg岛区域的cpg位点反而非常稀少。为了展示和说明这一现象,本实施例中从实施例1的样品中抽取了健康个体、慢性肝炎、肝硬化、晚期肝癌、术后肝癌患者各一例,对总游离dna进行一般深度的wgbs(平均测序深度为58m个测序读段对,其他条件同实施例2),对cpg位点的富集情况进行了统计,结果如图3所示。其中,hbv整合位点处达到了最高的富集程度,其上下游各100bp和各5kb区域的cpg位点富集程度有所降低,但仍然处于高富集水平。接下来计算所有已报道hbv整合位点上下游5kb的平均甲基化水平(methylhbv5k),已报道hbv整合位点数据来源于之前已发表的文章[34-40],共6072个hbv整合位点。按照以下方法计算hbv整合位点上下游5kb的平均甲基化水平(methylhbv5k)和全基因组平均甲基化水平(methylgenome):methylhbv5k=m/(m+u),其中m为落在全部hbv整合位点上下游5kb内c的reads数目,其中u为落在该区域内t的reads数目;methylgenome=m/(m+u),其中m为基因组上所有c的reads数目,u为基因组上所有t的reads数目。结果如图4所示,肝癌患者hbv整合位点附近的平均甲基化水平低于健康个体、慢性肝炎、肝硬化和术后肝癌患者,并且hbv整合位点附近的平均甲基化水平低于全基因组甲基化水平。实施例4针对实施例3的五例个体,进行重抽样分析,每个测序深度(1m、2m、3m、4m、5m、6m、7m、8m、9m、10m个测序读段对)随机抽样10次,对基因组随机抽取相同长度的hbv整合位点上下游5kb区域,计算随机抽取区域的平均甲基化水平(该随机抽取重复100次),并计算随机抽取区域的平均甲基化水平在该测序深度和总测序量的相关系数和10次相关系数的变异系数(cv),结果如图5、图6所示,其中d1为健康个体,d2慢性肝炎患者,d3为肝硬化患者,d4为晚期肝癌患者,d5为术后肝癌患者。发现随机抽取的双端测序读段对为5m时得到的平均甲基化水平的估计在不同抽样间已经表现出较好的相关性(相关系数的增长随着测序深度的增加已不明显),并且差异较小(变异系数与10m时一样低)。实施例5对实施例1中的54例受试者进行了外周血游离dna低覆盖度wgbs(包括3例健康个体、17例肝炎患者、17肝硬化患者、3例早期肝癌患者、5例晚期肝癌患者和9例肝癌术后患者),实际测序覆盖度为平均10m个读段对。针对实施例3中所述的所有已报道的6072个hbv整合位点,计算54例受试者hbv整合位点上下游5kb区域的甲基化水平(methylhbv5k),结果如图7所示。结果显示,与健康个体相比,晚期肝癌患者的甲基化水平有着非常显著的降低(p=0.03),而早期肝癌患者和肝癌术后患者与健康个体、肝炎患者和肝硬化患者相比,甲基化水平也有下降的趋势。为了测试methylhbv5k作为生物标志物预测癌症的性能,对54例受试者通过100次5倍交叉验证的方法并使用逻辑回归来检测该标志物的性能,对其auc进行了测试,并与常用的临床指标——alt和ast和tbil、甲胎蛋白(afp)以及cfdna片段长度(cfdnasize)进行比较。其中,由于外周血cfdna长度较短(集中在167bp左右),并且在建库时未经过超声打断,因此建库插入片段长度即为cfdna长度。通过用唯一比对到基因组上的reads来评估cfdna片段长度,通过使用比对文件来提取双端reads比对到基因组的起始和终止位置来估计cfdna片段长度,我们取每个个体cfdna片段长度的中位数(cfdnasize)作为cfdna片段长度的指标。结果如图8所示,methylhbv5k的auc为0.843,特异度为88.6%,灵敏度为76.5%,均显著高于上述2个常用临床指标和cfdna片段长度指标(表1)。表1指标auc(95%ci)特异度灵敏度性别+年龄0.486(0.436-0.536)50.3%57.7%alt+ast+tbil0.676(0.631-0.721)60.1%67.1%afp0.601(0.55-0.652)50.6%55.7%cfdnasize0.777(0.732-0.822)82.1%72.4%methylhbv5k0.843(0.798-0.888)88.6%76.5%区域10.871(0.83-0.913)92.3%76.5%区域20.87(0.831-0.91)89.2%76.5%区域30.811(0.763-0.859)92.1%65.7%区域40.827(0.779-0.876)86.3%73.8%区域50.879(0.832-0.927)93.5%84.5%由此可见,以hbv整合位点附近区域甲基化状况作为标志物检测癌症,只需进行低覆盖度的甲基化测序,就足以实现对肝癌的准确区分,并能获得优于临床指标和cfdna片段长度的区分度。实施例6为了进一步降低测序成本并节省运算力,探索在低覆盖度测序条件下,将分析对象缩小为染色体区域后的性能表现,对实施例5中测试的6072个hbv整合位点进行了筛选。并且由于早期肝癌患者体内ctdna数量十分稀少,在低覆盖度测序的条件下对早期肝癌患者的检出将比中晚期肝癌患者更为困难,为了增加对早期肝癌检测的敏感性并验证本发明的方法对于早期肝癌检测的有效性,本实施例中对健康个体和早期肝癌患者进行特征选择。首先针对所有的6072个hbv整合位点上下游5k区域,挑选出内部cpg位点读段(reads)总数超过10的区域共3083个;然后在3083个区域中,将距离小于1m的相邻区域进行合并,筛选出合并后长度大于1m的区域共144个;对这144个区域进行特征选择,找出对疾病状态的预测性能最好的区域。本实施例中选择5个符合上述条件的区域,如下:区域1为13号染色体19442162-20713822位;区域2为1号染色体10121993-12279387位;区域3为10号染色体11149668-13266296位;区域4为10号染色体38027603-39151628位;区域5为10号染色体84035111-85772043位。计算54例受试者在上述5个区域的甲基化水平,结果如图7所示。结果显示,无论哪个区域,晚期肝癌患者的甲基化水平都有着非常明显的降低,而早期肝癌患者和肝癌术后患者与健康个体、肝炎患者和肝硬化患者相比,甲基化水平也有下降的趋势。为了测试上述5个区域低覆盖度甲基化测序数据得到的甲基化水平作为生物标志物预测癌症的性能,对54例受试者通过100次5倍交叉验证的方法并使用逻辑回归来检测该标志物的性能,并与常用的临床指标——alt和ast和tbil、甲胎蛋白(afp)以及cfdna片段长度(cfdnasize)和实施例5中的methylhbv5k进行比较,结果如图8和表1所示。结果显示,上述5个区域甲基化指标的auc均能达到0.81以上,均显著高于临床指标afp和cfdna片段长度。并且更加有利的是,区域1、区域2和区域5的auc值甚至高于methylhbv5k指标,其中区域5实现了对肝癌患者的最佳区分(auc=0.879,特异度=93.5%,灵敏度=84.5%)。由此可见,以hbv整合位点附近区域甲基化状况作为标志物检测癌症,不仅能在全基因组测序的情况下获得准确的预测和区分结果,同样能在仅仅进行区域测序的情况下获得准确的预测和区分结果,甚至同样能适用于低覆盖度的甲基化测序条件。实施例7为了进一步压缩测序成本和节省算力,探索将分析对象进一步缩小为短区域后的性能表现,对实施例5中测试的6072个hbv整合位点上下游5k区域进行了筛选。首先针对所有的6072个hbv整合位点上下游5k区域,挑选出内部cpg位点读段(reads)总数超过10的区域共3083个;然后对这3083个区域进行特征选择,找出对疾病状态的预测性能最好的区域。本实施例中选择5个符合上述条件的10kb区域(整合位点上下游各5kb),如下:短区域1为1号染色体115071623-115081623位;短区域2为1号染色体37021302-37031302位;短区域3为10号染色体5584724-5594724位;短区域4为10号染色体81656529-81666529位;短区域5为11号染色体120177705-120187705位。使用实施例1中的54位受试者通过100次5倍交叉验证对短区域1-5甲基化水平指标的性能进行验证,其中短区域2(1号染色体37021302-37031302位)实现了对肝癌患者的最佳区分(auc=0.843,特异度=79.4%,敏感度=75.8%)(参见图9)。将methylhbv5k与短区域2两个指标联合使用,进一步提高了对肝癌患者的区分度(auc=0.906,特异性=84.7%,敏感度=80.5%)(参见图10)。参考文献1.fleischhackerm,schmidtb:circulatingnucleicacids(cnas)andcancer-asurvey.bba-revcancer2007,1775(1):181-232.2.chanak,chiurw,loym,clinicalsciencesreviewscommitteeoftheassociationofclinicalb:cell-freenucleicacidsinplasma,serumandurine:anewtoolinmoleculardiagnosis.annclinbiochem2003,40(pt2):122-130.3.strounm,mauricep,vasioukhinv,lyauteyj,lederreyc,lefortf,rossiera,chenxq,ankerp:theoriginandmechanismofcirculatingdna.annnyacadsci2000,906:161-168.4.waldrond:cancergenomics:anucleosomefootprintrevealsthesourceofcfdna.natrevgenet2016,17(3):125.5.bahcallog:genetictesting:cfdnascreeningfortrisomy21testedinunselectedpregnancies.natrevgenet2015,16(6):316-317.6.corcoranrb,chabnerba:cell-freednaanalysisincancer.nengljmed2019,380(5):501-502.7.fialac,diamandisep:cell-freednaanalysisincancer.nengljmed2019,380(5):501.8.schwarzenbachh,hoondsb,pantelk:cell-freenucleicacidsasbiomarkersincancerpatients.natrevcancer2011,11(6):426-437.9.wanjcm,massiec,garcia-corbachoj,moulieref,brentonjd,caldasc,paceys,bairdr,rosenfeldn:liquidbiopsiescomeofage:towardsimplementationofcirculatingtumourdna.natrevcancer2017,17(4):223-238.10.cristianos,leala,phallenj,fikselj,adleffv,bruhmdc,jensenso,medinaje,hrubanc,whitejretal:genome-widecell-freednafragmentationinpatientswithcancer.nature2019,570(7761):385-389.11.guos,diepd,plongthongkumn,funghl,zhangk,zhangk:identificationofmethylationhaplotypeblocksaidsindeconvolutionofheterogeneoustissuesamplesandtumortissue-of-originmappingfromplasmadna.natgenet2017,49(4):635-642.12.mossj,magenheimj,neimand,zemmourh,loyfern,koracha,samety,maozm,druidh,arnerpetal:comprehensivehumancell-typemethylationatlasrevealsoriginsofcirculatingcell-freednainhealthanddisease.natcommun2018,9(1):5068.13.cristianos,leala,phallenj,fikselj,adleffv,bruhmdc,jensenso,medinaje,hrubanc,whitejretal:genome-widecell-freednafragmentationinpatientswithcancer.nature2019.14.shensy,singhaniar,fehringerg,chakravarthya,roehrlmha,chadwickd,zuzartepc,borgidaa,wangtt,litetal:sensitivetumourdetectionandclassificationusingplasmacell-freednamethylomes.nature2018,563(7732):579-583.15.liw,zhangx,lux,youl,songy,luoz,zhangj,niej,zhengw,xudetal:5-hydroxymethylcytosinesignaturesincirculatingcell-freednaasdiagnosticbiomarkersforhumancancers.cellres2017,27(10):1243-1257.16.jqx:trendsinlivercancermortalityamongadultsaged25andoverintheunitedstates,2000–2016.nchsdatabrief,no3142018.17.villanuevaa:hepatocellularcarcinoma.nengljmed2019,380(15):1450-1462.18.chencj,yumw,liawyf:epidemiologicalcharacteristicsandriskfactorsofhepatocellularcarcinoma.jgastroenterolhepatol1997,12(9-10):s294-308.19.montesanor,hainautp,wildcp:hepatocellularcarcinoma:fromgenetopublichealth.jnatlcancerinst1997,89(24):1844-1851.20.staufferjk,scarzelloaj,jiangq,wiltroutrh:chronicinflammation,immuneescape,andoncogenesisintheliver:auniqueneighborhoodfornovelintersections.hepatology2012,56(4):1567-1574.21.aiharat,noguchis,sasakiy,nakanoh,imaokas:clonalanalysisofregenerativenodulesinhepatitiscvirus-inducedlivercirrhosis.gastroenterology1994,107(6):1805-1811.22.schuttek,bornscheinj,malfertheinerp:hepatocellularcarcinoma--epidemiologicaltrendsandriskfactors.digdis2009,27(2):80-92.23.europeanassociationforthestudyoftheliver.electronicaddresseee,europeanassociationforthestudyofthel:easlclinicalpracticeguidelines:managementofhepatocellularcarcinoma.jhepatol2018,69(1):182-236.24.labgaai,villacorta-martinc,d'avolad,craigaj,vonfeldenj,martins-filhosn,siad,stuecka,wardsc,fielmietal:apilotstudyofultra-deeptargetedsequencingofplasmadnaidentifiesdrivermutationsinhepatocellularcarcinoma.oncogene2018,37(27):3740-3752.25.quc,wangy,wangp,chenk,wangm,zengh,luj,songq,diplasbh,tandetal:detectionofearly-stagehepatocellularcarcinomainasymptomatichbsag-seropositiveindividualsbyliquidbiopsy.procnatlacadsciusa2019,116(13):6308-6312.26.bhani,mosessok,goyall,philippj,kalinichm,fransesjw,chozm,oklur,tonerm,maheswaransetal:detectionandanalysisofcirculatingepithelialcellsinliquidbiopsiesfrompatientswithliverdisease.gastroenterology2018,155(6):2016-2018e2011.27.chankc,jiangp,chancw,sunk,wongj,huiep,chansl,chanwc,huids,ngssetal:noninvasivedetectionofcancer-associatedgenome-widehypomethylationandcopynumberaberrationsbyplasmadnabisulfitesequencing.procnatlacadsciusa2013,110(47):18761-18768.28.zhaoy,xuef,sunj,guos,zhangh,qiub,gengj,guj,zhoux,wangwetal:genome-widemethylationprofilingofthedifferentstagesofhepatitisbvirus-relatedhepatocellularcarcinomadevelopmentinplasmacell-freednarevealspotentialbiomarkersforearlydetectionandhigh-riskmonitoringofhepatocellularcarcinoma.clinepigenetics2014,6(1):30.29.sunk,jiangp,chankc,wongj,chengyk,liangrh,chanwk,maes,chansl,chengshetal:plasmadnatissuemappingbygenome-widemethylationsequencingfornoninvasiveprenatal,cancer,andtransplantationassessments.procnatlacadsciusa2015,112(40):e5503-5512.30.lehmann-wermanr,neimand,zemmourh,mossj,magenheimj,vaknin-dembinskya,rubertssons,nellgardb,blennowk,zetterberghetal:identificationoftissue-specificcelldeathusingmethylationpatternsofcirculatingdna.procnatlacadsciusa2016,113(13):e1826-1834.31.kangs,liq,chenq,zhouy,parks,leeg,grimesb,krysank,yum,wangwetal:cancerlocator:non-invasivecancerdiagnosisandtissue-of-originpredictionusingmethylationprofilesofcell-freedna.genomebiol2017,18(1):53.32.xurh,weiw,krawczykm,wangw,luoh,flaggk,yis,shiw,quanq,liketal:circulatingtumourdnamethylationmarkersfordiagnosisandprognosisofhepatocellularcarcinoma.natmater2017,16(11):1155-1161.33.lih,jingc,wuj,nij,shah,xux,duy,lour,dongs,fengj:circulatingtumordnadetection:apotentialtoolforcolorectalcancermanagement.oncollett2019,17(2):1409-1416.34.tohst,jiny,liul,wangj,babrzadehf,gharizadehb,ronaghim,tohhc,chowpk,chungayetal:deepsequencingofthehepatitisbvirusinhepatocellularcarcinomapatientsrevealsenrichedintegrationevents,structuralalterationsandsequencevariations.carcinogenesis2013,34(4):787-798.35.liw,zengx,leenp,liux,chens,guob,yis,zhuangx,chenf,wanggetal:hivid:anefficientmethodtodetecthbvintegrationusinglowcoveragesequencing.genomics2013,102(4):338-344.36.sungwk,zhengh,lis,chenr,liux,liy,leenp,leewh,ariyaratnepn,tennakooncetal:genome-widesurveyofrecurrenthbvintegrationinhepatocellularcarcinoma.natgenet2012,44(7):765-769.37.jiangz,jhunjhunwalas,liuj,havertypm,kennemermi,guany,leew,carnevalip,stinsonj,johnsonsetal:theeffectsofhepatitisbvirusintegrationintothegenomesofhepatocellularcarcinomapatients.genomeres2012,22(4):593-601.38.jiangs,yangz,liw,lix,wangy,zhangj,xuc,chenpj,houj,mccraemaetal:re-evaluationofthecarcinogenicsignificanceofhepatitisbvirusintegrationinhepatocarcinogenesis.plosone2012,7(9):e40363.39.fujimotoa,totokiy,abet,boroevichka,hosodaf,nguyenhh,aokim,hosonon,kubom,miyafetal:whole-genomesequencingoflivercancersidentifiesetiologicalinfluencesonmutationpatternsandrecurrentmutationsinchromatinregulators.natgenet2012,44(7):760-764.40.dingd,loux,huad,yuw,lil,wangj,gaof,zhaon,reng,liletal:recurrenttargetedgenesofhepatitisbvirusinthelivercancergenomesidentifiedbyanext-generationsequencing-basedapproach.plosgenet2012,8(12):e1003065.当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1