基于MLP构建结直肠癌血清外泌体miRNA诊断分类器的制作方法

文档序号:32705881发布日期:2022-12-27 23:59阅读:28来源:国知局
基于MLP构建结直肠癌血清外泌体miRNA诊断分类器的制作方法
基于mlp构建结直肠癌血清外泌体mirna诊断分类器
【技术领域】
1.本发明涉及基因工程技术领域,具体地说,是一种基于mlp构建结直肠癌血清外泌体mirna诊断分类器。


背景技术:

2.结直肠癌(crc)是常见的消化道恶性肿瘤,具有复发频繁、抵抗治疗和易转移等特点,是人类最致命的恶性肿瘤之一,目前缺乏有效的早期诊断方法。尽管近些年来诊断技术和治疗技术有所提升,但crc预后仍不理想,早期快速诊断对患者治疗和生存具有重要意义,急需开发新的诊断标志物,用于crc早期诊断以改善患者预后。
3.肿瘤标志物是由恶性肿瘤细胞异常产生的物质,能够反映肿瘤发生、发展和预测肿瘤治疗反应的一类物质。广泛存在于癌症患者肿瘤组织、血液和排泄物中,能通过免疫学、生物学和化学等方法检测。肿瘤标志物对于癌症早期临床诊断具有重要意义。cea、ca15-3、cyfra21-1、ca19-9和ca125等血清肿瘤标志物是临床中已被发现具有诊断价值的肿瘤标志物。cea、ca15-3和cyfra21-1的组合能够提高肺癌临床诊断准确性。cea、ca19-9、ca125和ca15-3的组合能够诊断转移性乳腺癌(mbc),而且不同血清标志物的组合能用于mbc不同亚型的临床诊断。目前,肿瘤诊断标志物的敏感性不佳是急需解决的问题。近年来研究发现mirna在癌症发展、诊断和预后中发挥重要作用,mirna有可能是癌症诊断标志物的新方向,mirna大量存在于人体血液中,易收集和更好的稳定性使其成为肿瘤血清标志物的新宠。
4.机器学习是现代医学非常重要的研究手段,在生物信息学领域,机器学习主要用于疾病诊断标志物筛选和预后模型的构建,在挖掘癌症诊断标志物和预后标志物等研究中具有重大潜力。将mirna作为癌症诊断标志物结合机器学习构建分类器是发明癌症分类及早期诊断的明智之举,目前急需挖掘更多更合适的mirna作为分子生物标志物,将其与机器学习的分类程序相结合,对于诊断方案的确定具有重要的指导意义。


技术实现要素:

5.鉴于此,本发明的目的是筛选出与可用于crc早期诊断的血清mirna作为生物标志物,通过机器学习算法构建相应的分类模型,基于临床样本验证分类器诊断crc患者的有效性。
6.为了达到上述目的,本研究采用下述技术方案实现:
7.step1:收集结直肠癌(crc)患者的血清mirna表达数据。以健康人的血清外泌体为对照,分析在crc血清中有差异的mirna。
8.step2:根据差异血清外泌体mirna表达量对患者建立行为特征与分类之间的联系,根据特征重要性排序和递归消除确定关键特征。
9.step3:为保证样本均衡性,进行上采样的方法进行模型训练,并用增量特征选择(ifs)方法来识别最优mirna作为生物标志物。
10.step4:主成分分析(principal component analysis,pca)确定特征mirna表达对健康样本与crc样本的区分度,基于样品层次聚类揭示分类器中的特征mirna对健康样本和crc样本的总体区分。
11.step5:募集结直肠癌患者与健康参与者作为临床受试者,收集受试者的临床信息及血清样本。
12.step6:提取受试者血清样本的总rna,逆转录获取cdna,采用挖掘的mirna相应的引物进行定量扩增。
13.step7:统计分析健康样本与肿瘤样本中mirna的相对表达结果,绘制箱线图及受试者工作特征曲线(roc)评估mirna诊断分类器的有效性。
14.进一步,技术方案step1中的数据包括crc患者血清外泌体的fpkm格式的mirna表达数据,利用“limma”包对数据集进行标准化处理,以正常样本为对照,对标准化数据进行差异分析,筛选crc血清有差异的mirna(|logfc|》1.5,fdr《0.05)。
15.进一步,技术方案step2通过python包“xgboost”建立行为特征与分类之间的联系,根据特征重要性排序和递归消除确定关键特征,得到5个mirna:mir-654-5p、mir-126、mir-10b、mir-144、mir-23a,基于这5个mirna,使用python包“sklearn”构建5个mirna的神经网络(mlp)分类器。
16.进一步,技术方案step3使用python包“imblearn”进行上采样的方法进行模型训练,并用增量特征选择来识别最优基因作为生物标志物。基于训练集每个候选mirna的10倍交叉验证mcc绘制ifs曲线。基于ifs曲线,最终选择的mcc最高的mirna数目截止值为4,即最终确定4个mirna:mir-654-5p、mir-126、mir-10b、mir-144作为分类器特征。
17.进一步,技术方案step4中为确定分类器对crc和健康样本的分类效果,利用r包“factominer”根据四个特征mirna的表达量对数据集进行pca分析。pca分析可以降低数据集中的维数,降维后的数据可以映射到2个代表性的维度pc_1和pc_2上,可以直观呈现出样本间的组间方差。利用r包“pheatmap”对上述样本进行分层聚类。利用pca和样本聚类分析来判断特征mirna的诊断效果。
18.进一步,技术方案step5中所有crc患者均未得到任何治疗,同时crc患者的癌症分期根据ajcc cancer staging manual(7thedition)进行判断。所有受试者的外周血(5ml)收集于5ml血液收集管,通过离心分离血清,并将血清储存于-80℃待提取mirna。
19.进一步,技术方案step6中利用trizol(invitrigen,usa)从血清中提取总rna。使用miscript ii rt kit(qiangen,germany)逆转录总rna获取cdna。基于获取的cdna,使用mir-x mirna first-strand synthesis kit(takara,japan)在bio-rad cfx96 qpcr仪进行定量扩增。mir-654-5p、mir-126、mir-10b、mir-144和u6(内参)的引物均购自genewiz(genewiz,china)。使用2-δδct法计算所有mirnas的相对表达量。
20.进一步,技术方案step7使用graphpad 8.0统计分析qrt-pcr结果,并绘制箱线图和roc曲线。利用t检验分析mirna在肿瘤和正常样本中相对表达差异。
21.通过以上步骤,本研究构建了一个基于crc血清外泌体4特征mirna的分类器,该分类器的诊断性能已经得到了评估,根据特征mirna的表达水平可以准确区分crc样本和健康样本。
22.本发明相对于现有技术,具有如下优点和积极效果:
23.本研究筛选出了可作为肿瘤标志物的血清mirna,基于这些特征mirna构建的分类器可有效且准确评估crc样本及健康样本,数据显示该分类器诊断crc的准确率均在0.97以上,为crc的早期诊断提供新工具。
【附图说明】
24.图1为4特征mirna的ifs曲线;
25.图2为基于分类器中特征mirna的pca分析和样品层次聚类分析。a:pca显示4特征mirna在crc患者和正常个体人群中的诊断效能。b:4特征mirna在crc患者和正常个体人群中的表达热图;
26.图3为gse39833数据集中4特征mirna表达水平箱形图。a:mir-654-5p在crc患者和健康人血液中的表达水平箱形图。b:mir-126在crc患者和健康人血液中的表达水平箱形图。c:mir-10b在crc患者和健康人血液中的表达水平箱形图。d:mir-144在crc患者和健康人血液中的表达水平箱形图。红色为crc患者,蓝色为正常样本;
27.图4为临床血液样本中4特征mirna在crc患者和健康人血液中的表达水平。a:mir-654-5p在crc患者和健康人血液中的表达水平箱线图;b:mir-126在crc患者和健康人血液中的表达水平箱线图;c:mir-10b在crc患者和健康人血液中的表达水平箱线图;d:mir-144在crc患者和健康人血液中的表达水平箱线图;
28.图5为临床样本评估4特征mirna诊断性能的roc曲线。
【具体实施方式】
29.本发明将结合附图参照以下实施例进行阐述,但本发明将不限制于下面的实施例。
30.(1)构建crc血清mirna诊断分类器
31.从geo(gene expression omnibus)数据库下载健康对照和结直肠癌患者的血清外泌体mirna表达数据,利用r包“limma”对数据进行标准化处理并进行差异分析,以log2fc》1.5,fdr《0.05为筛选标准获得crc差异表达的血清外泌体mirna。利用python包“xgboost”对差异血清外泌体mirna建立行为特征与分类之间的联系,根据特征重要性排序和递归消除确定了5个关键特征mirna,并构建mlp分类器(表1)。由于样本不均衡,使用python包“imblearn”进行上采样的方法进行模型训练,并用增量特征选择的方法来识别最优基因作为诊断标志物,ifs曲线结果表明,前4个mirna构建的分类器对crc具有最好的诊断性能,其中灵敏度为0.977,特异度为1.000,准确度为0.980,mcc值为0.909。以上结果表明前4个mirna构建的mlp分类器能较好的区分结直肠癌样本和肿瘤样本。
32.表1:初步筛选mlp分类器中前5个特征mirna
[0033][0034]
(2)回顾性数据集评估诊断分类器的分类性能
[0035]
为了评估该分类器对数据集样本的分类效果,利用r包“factominer”根据4个特征mirna的表达量对数据集样本进行pca分析。对crc患者和正常个体进行的pca分析结果表明,pca分析可以显著的区分crc肿瘤患者和非肿瘤患者,dim1贡献率为41.6%,dim2贡献率为32.3%(图2a)。为进一步区分4特征mirna在样本间的表达模式,以验证分类器的分类价值。利用r包“pheatmap”对上述样本进行系谱分层聚类。根据4特征mirna表达量对肺腺癌样本和正常样本进行层次聚类结果显示,4个特征mirna可以大致区分crc患者和正常个体(图2b)。从4特征mirna在健康样本和crc样本间的表达差异箱线图可看出,crc患者血清中mir-654-5p、mir-126和mir-10b表达量显著高于非肿瘤患者,mir-144则显著低于非肿瘤患者(图3a-d)。以上结果证明,我们构建的mlp模型中的4个特征mirna具有一定的诊断价值。
[0036]
(3)临床评估crc诊断分类器的分类性能
[0037]
为进一步验证由4个特征mirna构成的mlp分类器的诊断价值,本研究募集了crc患者及健康参与者的临床血液样本,同时记录受试者的临床信息。受试者的临床信息包括姓名、年龄、临床分期、肿瘤部位等(表2)。根据厂商使用说明书,使用trizol(invitrigen,usa)从血清中提取总rna。使用miscript iirtkit(qiangen,germany)逆转录总rna获取cdna。基于获取的cdna,使用mir-x mirna first-strand synthesis kit(takara,japan)在bio-radcfx96qpcr仪对mirna进行定量扩增。mir-654-5p、mir-126、mir-10b、mir-144和u6(内参)的引物均购自genewiz(genewiz,china),引物信息如表3所示。使用2-δδct法计算所有mirnas的相对表达量。qrt-pcr结果显示,mir-654-5p、mir-126、mir-10b在crc患者血液中的表达水平显著高于健康样本(图4a-c),mir-144表达水平则显著低于健康人(图4d)。该结果与geo数据集mirna表达水平结果一致。本研究进一步构建了血液样本中4特征mirna用于诊断crc的roc曲线,分类器诊断crc的acu值为0.976(图5a)。综上,临床样本验证实验显示4特征mirna可以区分crc患者和健康个体,可以作为crc的诊断标志物。
[0038]
表2:220名受试者临床信息概要
[0039][0040][0041]
表3:mirna和u6 snrna引物序列
[0042][0043]
综上,我们构建了一个crc诊断相关的4特征mirna分类器,并基于回顾性数据和临床样本评估了分类器良好预测能力,可以为crc的早期诊断提供指导。
[0044]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1