一种胃癌预后预测的标志物、评估模型及其构建方法与流程

文档序号:36266488发布日期:2023-12-06 11:29阅读:39来源:国知局
一种胃癌预后预测的标志物的制作方法

本发明属于生物信息与生物标志物,特别是涉及一种胃癌预后预测的标志物、评估模型及其构建方法。


背景技术:

1、五年生存率(fysr)是评价癌症患者外科治疗有效性的重要临床指标。这也是医生在病人出院时制定预后治疗计划的重要参考,包括放疗或化疗的频率、药物类型和身体复查的周期等。根据美国癌症协会的数据,世界范围内死亡率最高的四种恶性肿瘤(包括肺癌、肝癌、胃癌和结直肠癌)的fysrs分别为17%、26%、32%和64%。为了提高预后存活率,他们的标准化治疗方案通常比其他肿瘤更复杂。因此,对fysr的准确和合理的预测可以明确地控制关于肿瘤预后生物学的预测信息,并从本质上提高癌症患者的存活率。不幸的是,现实依然严峻。当前的fysr通常使用肿瘤分期作为临床邻近点。由于肿瘤分期是根据癌症患者五年生存期的临床统计数据确定的,这种以平均数据为标准的经典统计方法缺乏个性(例如肿瘤异质性的影响),降低了癌症患者的生存率。因此,有必要根据更多的或者其他的生物指标构建一种胃癌预后预测的评估模型,比如基于个体特征如基因工程开发fysr预测模型。

2、最近,人工智能(ai)驱动的基因工程为肿瘤的个体精确诊断和预后治疗提供了许多机会,并在上述领域取得了快速进展。在这些研究范式中,准确性是一个需要追求的重要参数,它取决于肿瘤基因突变的特征提取和算法模型。以癌症(gc)为例,许多研究表明,单碱基取代(sbs)18的特征作为一种与活性氧物种相关的突变特征,其cdh1引起的高突变负荷的特征可以作为准确预后和评估gc的潜在特征。sbs44是一种与dna错配修复(mmr)缺陷相关的突变特征,在本发明中指出其是胃癌的另外一个特征图谱预后特征。在以往的技术实现中,均没有通过基因突变结合突变图谱特征这种预后因子一起进行预测五年存活率的案例。


技术实现思路

1、本发明的目的是提供一种胃癌预后预测的标志物、评估模型及其构建方法,以解决上述现有技术存在的问题。

2、为实现上述目的,本发明提供了一种胃癌预后预测的标志物、评估模型及其构建方法,包括:

3、获取若干个胃癌数据集进行预处理;对预处理后的若干个胃癌数据集进行特征图谱提取,同时对各个数据集进行单独的特征图谱分解;

4、通过rnmf方法包的相似性评估函数对分解的特征图谱与cosmic数据库的特征图谱进行注释,标识出胃癌全部的分解的特征图谱;对胃癌全部的分解的特征图谱进行生存分析,提取与预后相关的sbs18与sbs44作为预后因子;

5、通过rnmf方法包的特征关联基因寻找函数分析各个特征潜在的显著性关联基因,并且采用drp算法判断关联基因之间是否存在互斥关系;

6、基于显著性关联基因与互斥关系判断结果构建cca算法模型;

7、基于预后因子的特征图谱与关联基因,通过cca算法模型获得cca矩阵数据,基于cca矩阵数据构建五年生存率模型,采用随机森林算法作为核心算法获得五年生存率的标志物。

8、可选的,获取若干个胃癌数据集并进行预处理的过程包括:

9、检索与胃癌相关的文献,根据所述文献获得全基因组测序的体细胞单碱基突变数据以及对应样本的临床表型信息,形成若干个胃癌数据集;并对若干个胃癌数据集中的体细胞单碱基突变数据进行注释。

10、可选的,获取突变特征图谱的过程包括:采用rnmf方法包对处理后的若干个胃癌数据集进行非负定矩阵分解,提取对应的突变特征图谱。

11、可选的,所述cca算法模型如下:

12、

13、式中,c(s,g)表示肿瘤样本n中基因g在突变特征图谱s上的累计贡献度,θ(sg,mn)表示这个肿瘤样本n中基因g在突变特征图谱s上突变类型m的贡献,ρ(s,mn)则表示肿瘤样本n在突变进程中突变类型m的影响,p是突变特征矩阵,s是样本贡献度矩阵,pmkskn代表肿瘤样本n中突变类型m对突变特征图谱k的影响,是基因g在肿瘤样本n中的突变类型m的影响因子。

14、可选的,

15、构建五年生存率模型的过程包括:

16、根据若干个胃癌测试集获得模型训练集与模型测试集,基于模型训练集与模型测试集,应用r-随机森林进行分析获得五年生存率预测模型。

17、可选的,

18、获取初始训练集与初始测试集的过程包括:

19、将若干个胃癌数据集根据生存时间与存活状态划分为四个组别,将满足生存时间与存活状态要求的数据进行二次分割,获得两个独立的数据集,分别作为初始训练集和初始测试集。

20、可选的,获得五年生存率预测模型的过程还包括:

21、在初始训练集中提取预设比例的数据进行合并后进行扩充,并过滤掉均值小于0.001的属性特征,获得第一训练集;

22、采用随机森林算法训练第一训练集,构建多组模型集合;

23、每组模型分别测试评估初始训练集与初始测试集,循环上述过程不低于预设次数后,选取符合第一阈值要求的参数模型组;

24、判断子训练集与初始训练集在对应模型下是否满足第二阈值要求,将符合要求的模型作为五年生存率预测模型。

25、本发明的技术效果为:

26、(1)本发明发现了两个与胃癌预后相关的预后因子,分别为sbs18和sbs44。同时基于这两个预后因子作为背景输入构建好的cca模型,分析得到每个基因对于这两个预后因子的cca概率模型,通过随机森林算法进行评估与筛选,最后筛选出了14个癌相关的基因,分别为:tp53、apc、csmd3、kmt2c、muc16、notch2、atrx、setbp1、pik3ca、nin、cdh11、srgap3、setd2和dcc。这些基因与两个预后因子结合的19个基因突变型(分别为tp53_sbs44,tp53_sbs18,muc16_sbs18,apc_sbs44,csmd3_sbs44,kmt2c_sbs44,muc16_sbs44,notch2_sbs44,atrx_sbs44,srgap3_sbs44,setbp1_sbs18,pik3ca_sbs44,nin_sbs44,setd2_sbs44,cdh11_sbs18,srgap3_sbs18,setd2_sbs18,dcc_sbs44和dcc_sbs18)可作为具有较高预测准确度的胃癌五年存活率评估的分子标记物。

27、(2)本发明基于这19个与胃癌五年生存率密切相关的突变基因型建立了预测胃癌五年存活率的风险评估模型,这19个基因突变型风险模型在预测胃癌患者五年生存率表现出良好的性能;同时,通过验证风险模型对独立的癌患者的预测准确性,发现此模型具有很好的普适性,可为胃癌患者五年存活率预后预测提供以一种有效的预测工具,为指导临床工作者制定个体化治疗方案提供新的思路,指导临床医师进行治疗决策。



技术特征:

1.一种胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,

3.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,

4.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,

5.根据权利要求1所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,

6.根据权利要求5所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,

7.根据权利要求6所述的胃癌预后预测的标志物、评估模型及其构建方法,其特征在于,


技术总结
本发明公开了一种胃癌预后预测的标志物、评估模型及其构建方法,包括:使用SBS44*和SBS18*作为基本变量的背景突变特征来构建个体FYSR预测的精确模型;定制一种人工智能算法,称为累积贡献丰度CCA,用于独立评估每个癌症样本中每个基因对每个特征的贡献概率,并减少样本间突变负载的干扰。CCA模型可以更好地反映基因与突变特征之间的关系,从而确保实现方便、快速、准确的个体FYSR预测的可能性。本发明以特定基因结合特征图谱预后因子的突变型为输入指标,构建相应的胃癌五年存活率预测模型,除了辅助胃癌的诊疗,也可以用于预防警示,指导个体调整治疗方案,利于推广普及,利于提高胃癌病人五年存活率的可能。

技术研发人员:李振彰,罗通,柯万江,李国
受保护的技术使用者:云基智能生物科技(广州)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1