一种用于肝癌预后预测的分子标志物及其应用的制作方法

文档序号:26747687发布日期:2021-09-25 01:18阅读:126来源:国知局
一种用于肝癌预后预测的分子标志物及其应用的制作方法

1.本发明属于生物医药领域,具体涉及一种用于肝癌预后预测的分子标志物及其应用。


背景技术:

2.预后是指根据经验预测的疾病发展情况。预后主要涉及到三个方面,将发生什么结果、发生不良结果的可能性以及时间点。研究和评级预后的目的,在于便于了解疾病对人类危害性的大小、探索影响预后的因素、研究改善预后的具体措施。预后分析是临床非常实用、对临床很有指导作用的临床研究。
3.肝脏是维持机体内环境稳定和机体健康的最重要的器官之一,脂肪肝、肝炎、肝硬化和肝癌是肝内最常见的四大严重疾病,也是危害人类健康的重要原因之一。事实上,每年大约有一百万人死于肝硬化和肝癌。特别需要指出的是,作为肝脏最常见的原发恶性肿瘤一肝癌因为发病率较高、发现困难、治疗方法少等原因已经在导致人类死亡的各种疾病中位居前列。目前,肝癌在全球范围内肿瘤致死率方面位列第五位,而在一些非洲和亚洲国家,肝癌在肿瘤性死因中已经位居首位。
4.经过几十年的努力,肝癌研究已取得很大进展,上世纪以“小肝癌的早治”及“肝癌的缩小后二期切除”为标志,分别为肝癌术后生存率的提高贡献了10个百分点,但由于肝癌病程进展速度快,有极高的复发率,致使肝癌总体疗效仍然不佳,肝癌人群总体5年生存率仍只有5%左右。近年,虽然在肝癌基础与临床研究方面取得了一些进展,但还未能明确阐明肝癌复发的机制,也未能找到有效的干预措施。肝癌高复发成为影响其疗效改善的瓶颈。
5.生物标志物是一种能客观测量并评价正常生物过程、病理过程或对药物干预反应的指示物,也是生物体受到损害时的重要预警指标,涉及细胞分子结构和功能的变化,生化代谢过程的变化,生理活动的异常表现,个体、群体或整个生态系统的异常变化等。生物标志物的研究不仅是生物化学基础研究的重要内容,同时在新药开发、医学诊断、临床研究方面具有重要的价值,有助于帮助研究人员提出更有效的诊疗手段,尤其在肿瘤、心血管疾病、糖尿病、神经性失调等慢性疾病与复杂疾病的防控上具有重要的价值。因此,寻找与肝癌预后复发相关的生物标志物,可以为进一步降低临床肝癌复发率和病死率提供新的方法。


技术实现要素:

6.本发明提供了一种肝癌预后模型的构建方法,所述构建方法包括:
7.获取多个肝癌患者和多个参考人的转录谱表达数据;
8.基于所述多个肺癌患者和所述多个参考人的转录谱表达数据,筛选候选基因;以及
9.基于所述候选基因,构建风险评分模型;
10.其中,所述肺癌预后模型包括所述风险评分模型。
11.进一步,基于所述候选基因,构建风险评分模型,包括:
12.获取训练数据集;
13.在所述训练数据集中,基于所述候选基因,通过单因素cox回归分析,确定与生存期相关的基因;以及
14.通过lasso cox回归分析对所述与生存期相关的基因进行筛选,以确定用于构建所述风险评分模型的基因以及所述风险评分模型,其中,用于构建所述风险评分模型的基因包括bzw2、rheb、mettl5。
15.进一步,所述风险评分模型表示为:风险评分=0.291403332*bzw2基因表达水平+0.19210998*mettl5基因表达水平+0.37397035*rheb基因表达水平。
16.进一步,基于所述候选基因,构建所述风险评分模型,还包括:基于所述训练数据集,评估所述风险评分模型的预测性能。
17.进一步,基于所述训练数据集,评估所述风险评分模型的预测性能,包括:
18.基于所述风险评分模型计算所述训练数据集中的每个受试者的风险评分;
19.使用所述训练数据集的时间依赖的受试者工作特征曲线分析评估风险评分模型的拟合优度;
20.依据所述训练数据集的时间依赖的受试者工作特征曲线分析确定分组截断值,并根据所述分组截断值将所述训练数据集中的受试者分为第一高风险组与第一低风险组;以及
21.使用所述训练数据集的kaplan

meier曲线评估所述第一高风险组与所述第一低风险组在生存情况方面是否具有显著差异。
22.进一步,基于所述候选基因,构建所述风险评分模型,还包括:
23.获取验证数据集;以及
24.基于所述验证数据集,验证所述风险评分模型的效能。
25.进一步,基于所述验证数据集,验证所述风险评分模型的效能,包括:
26.基于所述风险评分模型计算所述验证数据集中的每个受试者的风险评分;
27.使用所述验证数据集的时间依赖的受试者工作特征曲线分析验证风险评分模型的拟合优度;以及
28.根据所述分组截断值将所述验证数据集中的受试者分为第二高风险组与第二低风险组,并使用所述验证数据集的kaplan

meier曲线验证所述第二高风险组与所述第二低风险组在生存情况方面是否具有显著差异。
29.本发明还提供了利用前面所述的构建方法获得的肝癌预后模型。
30.本发明还提供了一种前面所述的肝癌预后模型的应用方法,所述应用方法包括:
31.所述肺癌预后模型包括根据前面所述的构建方法构建得到的所述风险评分模型,所述应用方法包括:
32.获取肝癌患者样本的转录谱表达数据,其中,所述肝癌样本的转录谱表达数据包括用于构建所述风险评分模型的基因的表达值;以及
33.基于所述肝癌样本转录谱表达数据,根据所述风险评分模型计算所述肝癌患者预后的风险评分。
34.本发明还提供了一种预测肝癌预后的产品。
35.作为所述产品的一种实例,所述产品可以是基因组合,所述基因组合包括bzw2、rheb、mettl5。
36.作为所述产品的一种实例,所述产品可以是预测肝癌预后的装置,所述装置包括预测预后分析单元,所述预测预后分析单元利用前面所述的肝癌预后模型对肝癌患者预后进行预测。
37.进一步,所述装置还包括数据收集单元,所述数据收集单元检测分子标志物的表达水平。
38.进一步,所述装置还包括显示单元,所述显示单元显示肝癌患者预后预测结果。
39.进一步,所述装置还包括评估结果发送单元,所述评估结果发送单元将所述预测预测分析单元获得的预后预测结果发送到所述显示单元。
40.作为所述产品的一种实例,所述产品可以是预测肝癌预后试剂盒,所述试剂盒包括检测前面所述的用于构建风险评分模型的基因表达水平的试剂。
41.进一步,所述试剂包括通过测序技术、核酸杂交技术、核酸扩增技术、蛋白免疫技术检测所述基因表达水平的试剂。
42.更进一步,所述试剂包括引物、探针、抗体、配体。
43.更进一步,所述试剂盒还包括选自下组的一种或多种物质:容器、使用说明书、阳性对照物、阴性对照物、缓冲剂、助剂或溶剂。
44.作为所述产品的一种实例,所述产品可以是预测肝癌预后的芯片,所述芯片包括检测前面所述的用于构建风险评分模型的基因表达水平的试剂。
45.进一步,所述试剂的限定同前。
46.作为所述产品的一种实例,所述产品可以是电子设备,所述电子设备包括:存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行前面所述的构建方法或者执行以下步骤:根据肝癌患者样本中的前面所述的用于构建风险评分模型的基因表达水平利用前面所述的风险评分模型计算风险评分。
47.作为所述产品的一种实例,所述产品可以是存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行根据前面所述的构建方法的指令或者执行以下步骤的指令:根据肝癌患者样本中的前面所述的用于构建风险评分模型的基因表达水平利用前面所述的风险评分模型计算风险评分。
48.本发明还提供了包括bzw2、rheb、mettl5的基因组合在制备预测肝癌预后的产品中的应用。
49.本发明还提供了前面所述的风险评分模型在制备预测肝癌预后的产品中的应用。
50.根据前面所述的构建方法获得的肝癌预后模型在制备预测肝癌预后的产品中的应用。
51.进一步,所述产品是前面所述的产品。
52.本文中的“bzw2”,指编码所有或部分bzw2蛋白或与所有或部分的核酸序列或其类似物大致相同的核酸,其gene id为28969。
53.本文中的“rheb”,指编码所有或部分rheb蛋白或与所有或部分的核酸序列或其类似物大致相同的核酸,其gene id为6009。
54.本文中的“mettl5”,指编码所有或部分mettl5蛋白或与所有或部分的核酸序列或其类似物大致相同的核酸,其gene id为29081。
55.本文中“样本”可以包括但不限于,单个细胞或多个细胞、细胞层、组织活检物、切除的组织、组织提取物、组织、组织培养提取物、组织培养介质、呼出的气体、全血、血小板、血清、血浆、红细胞、白细胞、淋巴细胞、中性粒细胞、巨噬细胞、b细胞或者其子集、t细胞或者其子集、造血细胞的子集、内皮细胞、滑液、淋巴液、腹水液、组织间液、骨髓、脑脊液、胸腔积液、肿瘤浸润物、唾液、黏液、痰、精液、汗水、尿、或任何其他体液。样本可以通过下列手段从对象获得,所述手段包括,但不限于,静脉穿刺、排泄、活组织检查、针刺抽吸、灌洗、刮擦、手术切除、或本领域中已知的其他手段。
附图说明
56.图1显示tcga数据集的生存曲线图;
57.图2显示tcga数据集的roc曲线图。
具体实施方式
58.以下通过具体的实施例进一步说明本发明的技术方案,具体实施例不代表对本发明保护范围的限制。其他人根据本发明理念所做出的一些非本质的修改和调整仍属于本发明的保护范围。
59.实施例1筛选肝癌预后相关基因
60.1、数据下载
61.在基因表达综合数据库(geo)和癌症基因组图谱数据库(tcga)中搜索公共基因表达数据和完整的临床注释。对于tcga中的数据集,基因表达的rna测序数据(fpkm值)和临床信息从ucsc xena(https://gdc.xenahubs.net)下载。然后将fpkm值转化为每千碱基百万(tpm)值的转录本。从geo数据库(http://www.ncbi.nlm.nih.gov/geo/)下载gse76427的基因表达数据,并利用注释文件对其注释,多个探针对应同一个基因的取平均值作为其表达量,然后获得基因表达矩阵文件。其中,tcga数据集作为发现队列,geo数据集作为验证队列。再去除临床信息不完整的样本后,tcga队列中包含的样本数为癌旁:癌=50:368,geo队列中的样本量为癌旁:癌=52:115。
62.2、差异表达分析
63.使用r软件中的“limma”包进行差异表达分析,差异基因的筛选标准为adj.pvalue<0.01,|log2fc|>1。在此标准下,tcga中差异表达的基因有1827个,上调的差异表达基因有1463个,下调的差异表达基因有364个。geo中差异表达的基因有724个,上调的差异表达基因有528个,下调的差异表达基因有196个。在两个数据库中差异表达一致的基因有456个,一致上调的有399个,一致下调的有157个。
64.3、单因素cox分析
65.对差异表达一致的456个基因进行单因素cox分析,p<0.05的基因被认为是对肝细胞癌患者的生存有影响。在此标准下,tcga数据库中有287个基因,geo数据库中有32个基因。两者进行取交集处理后,共18个基因。
66.4、lasso cox分析
67.在tcga数据集中对18个基因进行lasso cox分析,筛选出基因组成预后gene signature。根据公式计算每个样本的风险评分,根据风险评分的中位数,将所有样本分为高风险组与低风险组。
[0068][0069]
注:风险评分的计算公式,n为预后基因数,expi为基因i的表达值,βi为基因i的回归系数。
[0070]
最终筛选确定的用于构建风险评分模型的基因包括以下三个基因:bzw2、rheb、mettl5。表2列出了用于构建风险评分模型的3个基因的相关信息和参数。单因素cox回归分析中的hr用于表征相对危险度,其中,hr值大于1表示对应的基因的表达值与风险评分呈正相关关系,从而相应的lasso系数大于0,hr值小于1表示对应的基因的表达值与风险评分呈负相关关系,从而相应的lasso系数小于0。另外,在表2中,95%ci表示95%的置信区间(confidenceinterval)。
[0071]
表2 风险评分模型中的3个基因
[0072][0073]
根据表2的结果可知,3个基因对应的风险评分模型表示为:
[0074]
风险评分=0.291403332*bzw2基因表达水平+0.19210998*mettl5基因表达水平+0.37397035*rheb基因表达水平
[0075]
生存分析结果表明,高风险组患者的生存时间明显短于低风险组(图1)。为了评估由3个基因组成的预后模型在预测肝细胞癌预后的准确性,进行了1年、3年和5年受试者工作特征(roc)曲线分析,比较各自的auc值。结果表明,1年、3年和5年的auc分别是0.73、0.65、0.64(图2)。auc值表明,由3个基因组成的预后模型对肝细胞癌患者的预后具有较好的区分性能。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1