基于分子标记的用于肝癌筛查和风险预测的系统及应用

文档序号:33379231发布日期:2023-03-08 05:07阅读:54来源:国知局
1.本技术涉及基因检测
技术领域
:,尤其涉及基于分子标记的用于肝癌筛查和/或风险预测的系统。
背景技术
::2.肝癌的一级预防为病因预防,传统的肝癌病因主要为病毒感染(乙肝病毒、丙肝病毒),黄曲霉毒素、微囊藻毒素暴露,嗜烟,酗酒等不良生活习惯;目前发现非酒精性脂肪肝已成为发达国家肝癌的主要病因;另外有研究发现糖尿病是肝癌发生的一个独立危险因素;而高bmi人群肝癌的患病率比正常人高5倍。针对传统病因,国家己采取了相应的措施:2005年起乙肝疫苗己免费向所有新生儿接种;规范治疗后,慢性乙肝可以得到有效的控制;慢性丙肝经过抗病毒治疗,hcv病毒可以被彻底清除。3.肝癌的三级预防主要指临床上治疗方法的改善以及新型药物的研发。目前临床上常用的肝癌诊断方法为:结合临床症状,进行影像学检查,包括超声、x线计算机断层成像(ct)、磁共振成像(mri)、数字剪影血管造影(dsa)和核医学影像方法(petct,spectct),必要时行肝脏穿刺活检。这些应用于临床上的诊断方法,或灵敏度低或花费较大或具有创伤性,难以满足人群早期筛查的需求。国际卫生组织推荐肝硬化患者每年进行两次b超及afp检查,以实现肝癌的早期诊断。但目前研究显示afp灵敏度较低,约40%的肝癌患者afp水平并没有升高,尤其在早期肝癌患者中此比例更高,欧洲肝癌研究协会(easl)己不推荐afp作为肝癌的诊断指标[[19-211。超声作为一种影像学诊断方法,对医生技术水平依赖性强;一次只能检查一个病人,效率较低:另外只有患者肿瘤体积累积达到一定程度,才能被超声检测到;因此其诊断早期肝癌,尤其是小肝癌的灵敏度较低。所以迫切需要寻找一种无创、易普及且适合肝癌早期诊断的客观的肝癌肿瘤筛查方式。技术实现要素:[0004]有鉴于此,本技术的目的在于,至少提供一种改进的肝癌筛查模型,以实现无创、易普及且适合肝癌早期诊断方式。[0005]第一方面,本技术实施例公开了基于分子标记的肝癌肿瘤筛查模型的建立方法,包括:[0006]获得与肝癌关联的snp数据集;[0007]基于所述数据集,筛选得到用于建模的snps,以作为模型变量;[0008]计算每一模型变量的不同基因型的相对风险值;以及[0009]基于所述相对风险值获得所述肿瘤筛查模型。[0010]在本技术实施例中,筛选得到用于建模的snps的步骤具体包括:根据每一snp在不同染色体上的连锁不平衡分析结果,挑选较为snp间距在50mb以内,并且连续分析的r2》0.9,以作为模型构建的snp。[0011]在本技术实施例中,筛选得到用于建模的snps的步骤后,还包括:[0012]根据获得各个snp在所述数据集中的单独效应,得到每一snp位点的对肝癌发生的单独效应值和表型参数;其中,所述单独效应值为单个snp的在所述数据集中患肝癌的统计概率;所述表型参数,为所述数据集中,该单个snp在单个个体遗传过程中的表型为显性遗传个体患肝癌的统计频率;以及[0013]利用logistic回归分析计算单个个体的单独效应值进行校正、加权后获得遗传分数;以及[0014]根据所述单独效应值、表型参数和遗传分数,即可计算得到每个个体的基于snps的肝癌加权风险筛查评分,根据所述肝癌加权风险筛查评分即能判断每一个体的患癌风险。[0015]在本技术实施例中,筛选得到用于建模的snps包括taga*rs15945924、fbxw*rs11744825、ranbp1*rs17033807、gna*rs5741536、ty*rs8896114、tgm*rs239809、duox*rs4539964、re*rs4362209、at*rs10819989、atp7*rs5251533、muty*rs4579862中的至少一种。[0016]在本技术实施例中,筛选得到用于建模的snps包括taga*rs15945924、fbxw*rs11744825、ranbp1*rs17033807、gna*rs5741536、ty*rs8896114、tgm*rs239809、duox*rs4539964、re*rs4362209、at*rs10819989、atp7*rs5251533、muty*rs4579862。[0017]在本技术实施例中,筛选得到用于建模的snps包括fbxw*rs11744825、gna*rs5741536、ty*rs8896114、tgm*rs239809、duox*rs4539964、re*rs4362209、atp7*rs5251533、muty*rs4579862。[0018]在本技术实施例中,筛选得到用于建模的snps包括taga*rs15945924、fbxw*rs11744825、gna*rs5741536、ty*rs8896114、tgm*rs239809、duox*rs4539964、re*rs4362209、at*rs10819989、atp7*rs5251533、muty*rs4579862。[0019]第二方面,本技术实施例公开了一种肝癌筛查、风险预测和/或诊断方法,,所述方法包括使用肝癌肿瘤筛查模型的步骤,所述肝癌肿瘤筛查模型由第一方面项所述的构建方法构建得到。[0020]第三方面,本技术实施例公开了一种肝癌癌症筛查、风险预测和/或诊断试剂盒,所述试剂盒包含用于检测根据第一方面所述的构建方法构建的肿瘤筛查模型中的基因分型的试剂。[0021]第四方面,本技术实施例公开了用于肝癌筛查、风险预测和/或诊断的系统或装置,所述系统或装置包括:[0022]获取模块,用于获取获得与肝癌关联的snp数据集;[0023]筛选模块,用于基于所述数据集筛选得到用于建模的snps,以作为模型变量;[0024]计算模块,用于计算每一模型变量的不同基因型的相对风险值;[0025]构建模块,用于基于所述相对风险值构建得到所述肝癌肿瘤筛查模型;以及[0026]数据分析模块,用于将待测个体用于建模的snp的相对风险值输入根据第一方面所述的构建方法构建的肝癌肿瘤筛查模型中,以得出预测结果。[0027]与现有技术相比,本技术至少具有以下有益效果:[0028]本技术提供的肝癌肿瘤筛查模型不仅提供了能够获得更准确预测结果的肿瘤筛查模型构建方法,还提供了新的肿瘤预测指标组合,实现了优于现有技术的预测效果。另外,本技术提供的利用该模型进行肝癌肿瘤筛查的方法不依赖于肿瘤的进展程度,在不同分期的肿瘤患者中的预测效果没有明显差异,可适用于肿瘤的各个时期,能够解决早期和极早期肿瘤难以筛查的难题。附图说明[0029]图1为本技术实施例提供的6号染色体上30个snps的连锁不平衡分析的r2分布图。[0030]图2为本技术实施例提供的12号染色体上30个snps的连锁不平衡分析的r2分布图。[0031]图3为本技术实施例提供的5号染色体上30个snps的连锁不平衡分析的r2分布图。[0032]图4为本技术实施例提供的10号染色体上30个snps的连锁不平衡分析的r2分布图。[0033]图5为本技术实施例提供的19号染色体上30个snps的连锁不平衡分析的r2分布图。[0034]图6为本技术实施例提供的20号染色体上30个snps的连锁不平衡分析的r2分布图。[0035]图7为本技术实施例提供的11号染色体上30个snps的连锁不平衡分析的r2分布图。[0036]图8为本技术实施例提供的1号染色体上30个snps的连锁不平衡分析的r2分布图。[0037]图9为本技术实施例提供的7号染色体上30个snps的连锁不平衡分析的r2分布图。[0038]图10为本技术实施例提供的15号染色体上30个snps的连锁不平衡分析的r2分布图。[0039]图11为本技术实施例提供的x号染色体上30个snps的连锁不平衡分析的r2分布图。[0040]图12为本技术实施例提供的9号染色体上30个snps的连锁不平衡分析的r2分布图。[0041]图13为本技术实施例提供的17号染色体上30个snps的连锁不平衡分析的r2分布图。[0042]图14为本技术实施例提供的13号染色体上30个snps的连锁不平衡分析的r2分布图。[0043]图15为本技术实施例提供的12号染色体上30个snps的连锁不平衡分析的r2分布图。[0044]图16为本技术实施例提供的18号染色体上30个snps的连锁不平衡分析的r2分布图。132.)。得到的文献数据的置信水平是由文献数量、异质性和偏倚三个参数(a=强,b=中和c=弱)来判定,等级可分为:①aaa-强证据。ꢀ②aab、aba、abb、baa、bba、bbb、bab-中等证据。③其余的分类将被视为可信度低的证据。[0062]除venice标准外,通过计算假阳性报告概率(falsepositiverepltingprobability,fprp)(assessingtheprobabilitythatapositiverepltisfalse:anapproachflmolecularenidemioloavstudies[j].jnatlcancerinst.2004.96(61:434-442.)来评估显著性关联结果。以避免出现实施很好且样本量较大,但计算出的结果假阳性的概率仍很高的无真实关联概率。[0063]4、统计学分析[0064]采用reviewmanager5.3.5(cochranecollablation,oxfld,uk)进行合并分析,评估基因因素、非基因因素与肝癌风险之间的关联分析。将基因因素或非基因因素视作为不同的变量,若每一变量存在有三个及以上可用独立数据集可用,则进行合并分析。对于基因因素的变量,可采用全基因组关联分析(gwas)的遗传模型计算等位基因模型来发现和验证该变量的能够的可用独立数据集。[0065]最后,再利用spss21.0软件通过q-q(quartile-quartile)图对纳入每一可用独立数据集进行观察值和期望值的分析和正态分布分析。利用visualstudio2013进行总体趋势分布分析,以观察所有变量的可能组合的联合l值和累积频率分布。[0066]将人群中危险因素暴露部分的相对危险度(relativerisk,rr)划分为人群中暴露和未暴露部分的rr,并获得给定暴露效应的rr。如果发病率极低(罕见病,一般发病率低于1/10000),rr近似等于l(rr≈l),rr估计值使用meta分析的l来代替。[0067]采用归因危险度(attributableriskpercentage,arp)和人群归因危险度(populationattributableriskpercentage,parp)作为指标评价各危险因素流行病学效应。[0068]arp=|l-1/l|×100%;parp=pe|(l-1)|/pe(l-1)+1]|×100%;[0069]式中,pe为对照组或人群风险等位基因(因素)频率。[0070]根据人类基因组单倍型图谱(hapmap)中遗传变异的基因型频率和合并后的l,计算出单个snp的人群平均风险即遗传分数(geneticscle),geneticscle=(1-p)2l2+2p(1-p)l+p2;p为风险等位基因频率。[0071]q-q图用于确定两个数据集是否来自具有共同分布的总体。所有p值均为双侧,p《0.05具有统计学意义。使用stata13.1(stataclpcollegestation,tx,usa)进行回归分析、敏感性分析和发表偏倚分析。[0072]二、结果[0073]表1示出了基因因素与肝癌风险及证据等级分析的统计结果。表2、3示出了各基因snps与肝癌风险的关联分析统计结果。由表2可知,与肝癌发病相关联的30个snps中,3个snps(lt*rs5246916、znf35*rs5246916、arfgap*rs4718842)证据等级为高质量,27个snps(taga*rs15945924,fbxw*rs11744825,hapln*rs8294854、rhobtb*rs6267063,nlrp*rs5545282,msh*rs7995235、ranbp1*rs17033807,gna*rs5741536,ty*rs8896114,csmd*rs3411226,cass*rs5502816,nrd*rs9076934,tfr*rs10022591,tgm*rs239809,duox*rs4539964,a*rs6693733,agpat*rs13956920,tsc*rs13578144,brca*rs4124391,re*rs4362209,at*rs10819989,brca*rs3292912,pol*rs8986408,cdk*rs5814543,serpinb*rs6147152,atp7*rs5251533,muty*rs4579862)证据质量等级为中等。表2中对30个snps进行依次命名,参见其第1列括号。[0074]表1基因*snps与肝癌风险及证据等级分析[0075][0076][0077][0078]表2基因*snps与肝癌风险的关联分析(1)[0079][0080]表3基因*snps与肝癌风险的关联分析(2)[0081][0082][0083][0084]肝癌肿瘤风险筛查模型的建立及评价[0085]一、方法[0086]1、关联分析的数据选取[0087]经过质控后,剩余235个个体(表1中每一数据集作为一个个体)和30个有效snp用于后续研究进行连锁不平衡分析,以获得关联数据。[0088]ld度量:连锁不平衡程度通常用d'和r2进行度量,本研究选用r2作为ld的度量标准。r2表示两个位点统计上和遗传上相关程度的关系(0《r2《1),r2对基因频率的变化不敏感,表现稳定。r2的计算公式为:r2=(pa1b1-pa1×pb1)2/pa1×(1-pa1)×pb1×(1-pb1);[0089]式中,pa1和pb1是两个标记位点上第1个等位基因的频率,pa1b1是等位基因之间形成的单倍型频率。[0090]采用haploview软件计算各snp之间的r2值,采用r软件进行后续的统计分析。[0091]2、模型构建过程[0092](1)根据各6、12、5、10、19、20、11、1、7、15、x、9、17、13、15、12、18号染色体上的snp间距与r2之间分布图,挑选较为snp间距在50mb以内,并且连续分析的r2》0.9,以作为模型构建的snp选取基础。[0093](2)根据获得各个snp在数据集中的单独效应,得到每一snp位点的对肝癌发生的单独效应值(l)和表型参数(f),其中,单独效应值为单个snp的在上述数据集中患肝癌的统计概率;表型参数,为在上述数据集中,该单个snp在单个个体遗传过程中的表型为显性遗传个体患肝癌的统计频率;[0094](3)利用logistic回归分析计算单个个体的单独效应值进行校正、加权后获得遗传分数(w)。[0095](4)将个体的单个snp基因型作为变量,基因型包括等位基因型、杂合型、纯合型、显性型和隐形型分别作为五种变量,则某snp的基因型为aa显性、aa隐性、ab显性、ab隐形和bb,a为风险等位基因,b为非风险等位基因,对应的风险值分别为l2×f2、l2×(1-f)2、l×(1-l)×(1-f)、l×(1-l)和(1-l)2;[0096](5)计算每一snp的相对风险值为[l2×f2+l2×(1-f)2/+l×(1-l)×(1-f)+l×(1-l)+(1-l)2]/w;[0097](6)则每个个体的基于snps的肝癌加权风险筛查评分m即为:=snp1×snp2×snp3......snpn;其中,snp1、snp2、snp3......snpn分别为筛选的n个snp的相对风险值。[0098]经过上述步骤,能够获得每个个体的n个snp的肝癌加权风险筛查评分,根据该肝癌加权风险筛查评分即能判断每一个体的患癌风险。[0099]3、logistic回归分析[0100]logistic回归模型适合因变量为分类变量的数据资料。该模型是以事件发生概率与不发生概率之比的对数为因变量来进行线性拟合,通过最大似然法进行回归系数估计的。[0101]本研究通过r.3.6.2中glm函数在训练集中进行logistic回归拟合,bestglm包中的bestglm功能分别通过十折交叉验证法和最小bic(bayesianinflmationcriterion)准则法进行最优模型的变量筛选,并利用anova函数对两个模型进行比较。然后利用predict函数对验证集样本进行诊断预测,利用inflmationvalue包中的confusionmatrix和misclasserrl功能形成四格表矩阵并计算错分率或符合率。最后利用regplot包中的regplot函数绘制模型的列线图,利用proc包进行roc曲线绘制。两个roc曲线之间的比较采用以下方法:[0102](1)成组比较:两条roc曲线从不同观察对象身上获得,所用的两个样本是完全独立的,检验公式为:[0103](2)配对比较:两种诊断方法所用样本相同,每一观测对象同时进行两种方式的检测,然后对它们的诊断效果作出比较。检验公式为:检验公式为:[0104]式中al和a2分别为两样本roc曲线下面积,se2(a1)和se2(a2)为两样本roc曲线下面积的标准误,cov(a1,a2)为两样本面积估计的协方差,可以用delong给出的非参数方法计算得到。在大样本情况下z近似服从标准正态分布,在检验水准ɑ下,z》za/2时则可认为两种诊断方法不同,以上两种方法均可以通过medcalc软件实现。[0105]4、验证对象[0106]招募自中国南部、中部和北部的病例分为模型人群、验证人群1~3,模型人群用于将上述建立的模型得到的m评分进行划分风险区域,验证人群用于验证模型的准确性。所有病例肝癌患者的入选标准为诊断为原发性肝癌,未接受放、化疗,且经过病理证实。病例一对照人群个体均不存在亲缘关系。所有患者均己签署知情同意书,经伦理委员会批准执行。[0107]表4[0108][0109][0110]5、dna的提取及基因分型[0111]自每一病例或健康对组例的血清中提取5~10μg的dna,将dna打断为100~400bp的片段后,使用seqcapezhumanexomelibraryv3.0(罗氏)建库,建库类型为2×180bpdna小片段文库。使用pcr-rflp方法进行基因分型,对应的30个snps的引物均有上海生工公司提供。[0112]二、结果[0113]基于表1~3检索得到基因及snps,分别对于不同染色体上的基因组r2的分布进行作图,如图所示。对不同染色体上snp间距在50mb以内,并且连续分析的r2》0.9的snps进行统计,结果如表5所示。[0114]表5snps连锁不平衡分析[0115][0116][0117]根据表5中挑选的snp可以搭建不同的加权遗传风险评分模型,具体如表6所示。[0118]表6加权遗传风险评分模型[0119][0120]表7模型人群的m分位分布[0121][0122][0123]将模型人群按照实施例1~3和对比例1~2生成的模型进行计算m分数,并对m分位的排布进行统计,结果如表7所示,表7中,“0.35~0.45”ꢀ所指范围不包括0.35、但包括0.45;“/”表示无例数;“+”表示对应的表4中模型人群的真实癌症病例数,“-”表示对应的表4中模型人群的真实健康例数。表7中,实施例1的预测阳性率为m值超过0.35的例数与模型人群总例数百分比,实施例2~3和对比例1~2的预测阳性率为m值超过0.3的例数与模型人群总例数百分比。表7中,阳性符合率等于各实施例或对比例的预测阳性率与模型人群的肝癌真实阳性率(59.39%)百分比。[0124]由表7的结果可知,经过对比例1~2的阳性符合率均超过90%,但对比例1~2在m值分为0.5~0.6时,均出现真实健康病例,这说明对比例1~2的准确率不及实施例1~3。对于本技术实施例基于snps构建的模型,其计算m值分大于0.3或0.35时,即可表明该个体具有患癌风险,反之则不然。[0125]进一步使用验证人群1对上述实施例1~3和对比例1~2分别得到的模型进行验证,结果如表8所示(预测阳性率以m值大于0.3计算)。对于验证人群1而言,实施例1~3和对比例1~2的阳性符合率均较高。但是,对比例1~2提供的m分位分布中发现,对于m值小于或等于0.3的病例中出现了真实阳性的肝癌病例,而在m值为0.3~0.35的范围出现了大量的健康对照病例,可见,对比例1~2提供的m分位模型对于肝癌阳性病例和健康阴性病例的风险评价存在一定的误差。而实施例1~3提供的m分位模型误差较小。[0126]表8验证人群1的m分位分布[0127][0128]进一步使用验证人群2对上述实施例1~3和对比例1~2分别得到的模型进行验证,结果如表9所示(预测阳性率以m值大于0.3计算)。对于验证人群2而言,实施例1~3的阳性符合率均较高。并且,对比例1~2提供的m分位分布中发现,对于m值小于或等于0.3的病例中出现了真实阳性的肝癌病例,而在m值为0.3~0.35的范围出现了大量的健康对照病例,可见,对比例1~2提供的m分位模型对于肝癌阳性病例和健康阴性病例的风险评价存在一定的误差。而实施例1~3提供的m分位模型误差较小。[0129]表9验证人群2的m分位分布[0130][0131]本技术还对对比例3提供的logistic回归模型对验证人群1和2中的肝癌阳性符合率进行分析发现,其阳性符合率分别为84.36%和81.24%,均不及本技术实施例提供的评价模型的阳性符合率高。[0132]由此,说明本技术实施例提供的基于snps的肝癌风险筛查评分为肝癌风险评估和筛查的最优模型,具有更高的筛查准确率。[0133]以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1