一种特征筛选方法、系统、电子设备及介质与流程

文档序号:36385075发布日期:2023-12-14 21:27阅读:33来源:国知局
一种特征筛选方法与流程

本发明属于生物医药领域,具体涉及特征筛选方法、系统、电子设备及介质。


背景技术:

1、高通量组学测序技术已成为当前生物标志物探究和挖掘的有力手段,在临床诊断、治疗、预后和用药等方面得到广泛应用。多组学整合的方法可以通过多维度、多层次的不同组学数据整合和挖掘,进一步全面、深刻的理解和挖掘疾病背后的分子机制全景。但是,如何全面、准确、大规模地整合不同颗粒度、高异质、高噪声的多组学数据,依然有待解决提升。

2、基于组学数据可先通过统计学分析或生物信息学分析的方法得到若干候选生物标志物,由于候选生物标志物往往数量多、噪声大、有一定假阳性,且存在广泛、复杂的交互效应,为了进一步降低检测成本、提升预测效能,需要从这些候选生物标志物中筛选得到最优生物标志物组合。

3、若将候选生物标志物视为候选特征,那么筛选最优生物标志物组合也可视为机器学习中的从稠密、冗余、超高维、大规模的若干候选特征中筛选得到最优特征组合的问题。超高维、大规模的候选特征不仅会导致梯度爆炸、维度灾难,也会提高预测成本、降低预测效能。但是,如何既无偏地考虑到每个单个组学的候选生物标志物(候选特征)重要性和可解释性,又全面地考虑到不同候选标志物(候选特征)之间的交互效应,进而从候选生物标志物(候选特征)中筛选得到数量少、非冗余、可解释、且预测效能高的最优生物标志物组合(最优特征组合)的问题,依然有待解决提升。

4、本发明创造性地提出一种基于元启发式算法和图神经网络解释器进行特征筛选的方法,可从类似多组学这样多个特征域的候选特征中筛选出数量少、非冗余、可解释、且预测效能高的最优特征组合,有效解决了现有技术中的不足,并取得了积极的技术效果。


技术实现思路

1、本发明的目的在于,针对上述现有技术中的不足,提供一种特征筛选方法、系统、电子设备及介质,以便解决相关技术中所存在的上述技术问题。

2、为实现上述目的,本发明实施例采用的技术方案如下:

3、第一方面,本发明提供了一种特征筛选方法,包括:

4、构建训练集,所述训练集包含若干样本,所述若干样本中每个样本包含类别标签、候选特征和所述候选特征对应的候选特征数据,所述候选特征和所述候选特征对应的候选特征数据构成特征域;

5、为所述每个样本构建一个对应的异构图,所述异构图的类别标签即是所述每个样本包含的类别标签;所述异构图包括具有若干节点类型的节点与节点数据,及具有若干边类型的边与边数据;每个节点类型对应表示一个特征域,每个节点对应表示一个候选特征,每个节点数据包含所述候选特征对应的候选特征数据和所述候选特征的特征域内重要性;每个边类型表示两个节点类型间的关系,每个边表示所述两个节点间的关系,每个边数据包括所述两个节点间的权重;

6、构建用于对所述类别标签预测的图神经网络模型,将所述每个样本对应的异构图输入所述图神经网络模型,使用损失函数训练所述图神经网络模型,并得到已训练的图神经网络模型;

7、将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器中,得到每个候选特征的特征域间重要性;

8、构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型。

9、进一步,所述候选特征的特征域内重要性的计算过程为:

10、针对一个特征域,获取每个样本及所述样本的类别标签、所述特征域的候选特征和候选特征数据;

11、构建分类器模型;

12、基于元启发式算法,利用每个样本及所述样本的类别标签、所述特征域的候选特征和候选特征数据多次迭代训练所述分类器模型,得到每次迭代时所述特征域的每个候选特征的重要性;

13、将每次迭代时所述特征域的每个候选特征的重要性加和并降序排序,得到所述特征域的每个候选特征的重要性排序位置,即为候选特征的特征域内重要性。

14、进一步,所述候选特征的特征域内重要性包括进一步进行归一化处理并更新。

15、进一步,所述归一化处理的方法包括min-max方法。

16、进一步,所述构建用于类别标签预测的图神经网络模型包括:u个深度不同且级联的gcn层、v个深度不同且级联的gat层、拼接层、全局池化层、多个全连接层和softmax层;其中第1个gcn层用于输入所述每个样本对应的异构图并计算得到第1个gcn层的输出,第i个gcn层用于接收第i-1个gcn层的输出并计算得到第i个gcn层的输出;第1个gat层用于输入所述每个样本对应的异构图并计算得到第1个gat层的输出,第j个gat层用于接收第j-1个gat层的输出并进计算得到第j个gat层的输出;i取值为i=2至u,j取值为j=2至v,u和v为不小于2的整数;拼接层分别接收u个gcn层的输出和v个gat层的输出并拼接输出;全局池化层接收拼接层的输出进行全局池化操作并输出;多个全连接层接收全局池化层的输出进行非线性融合后输出;softmax层接收多个全连接层的输出并计算后再输出,用于所述损失函数的计算。

17、进一步,所述gcn层和gat层的输出包括进一步增加激活操作。

18、进一步,所述激活操作包括relu激活操作。

19、进一步,所述全局池化操作包括使用global add pooling方法操作。

20、进一步,所述全局池化层的输出包括进一步连接dropout层增加设定概率的舍弃操作和激活操作。

21、进一步,所述设定概率为0.2。

22、进一步,所述激活操作包括relu激活操作。

23、进一步,所述损失函数包括交叉熵损失函数。

24、进一步,所述softmax层包括进一步进行对数转换。

25、进一步,将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器中,得到每个候选特征的特征域间重要性的实现包括:

26、所述图神经网络解释器为gnnexplainer,将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至gnnexplainer中,计算所述异构图中每个节点的重要性并降序排序,进而得到每个节点所对应的候选特征的重要性排序位置,即为每个候选特征的特征域间重要性。

27、进一步,所述候选特征的特征域间重要性包括进一步进行归一化处理并更新。

28、进一步,构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型的实现包括:

29、将所述每个候选特征的特征域间重要性降序排序,得到前k个候选特征的全部非空子集,即为k2-1个候选特征组合,其中k为整数;

30、针对每个所述候选特征组合,采用所述每个样本的类别标签、所述候选特征组合的候选特征和候选特征数据训练所述机器学习模型,评估已训练的机器学习模型并计算性能指标;

31、选取性能指标最优的所述已训练的集成学习模型作为最优机器学习模型,所述最优机器学习模型所使用的候选特征组合即为最优特征组合;

32、所述性能指标可选为auc-rmse+spe,其中auc表示roc曲线下面积,rmse表示均方根误差,spe表示特异性,当所述性能指标的数值最大时表示所述性能指标最优。

33、进一步,所述机器学习模型包括集成学习模型。

34、进一步,所述集成学习模型包括catboost。

35、进一步,所述类别标签为msi类别标签,所述msi类别标签包括msi-h、msi-l和mss;

36、所述特征域包括甲基化位点特征域和基因特征域,所述候选特征包括甲基化位点候选特征和基因候选特征,所述甲基化位点候选特征属所述甲基化组特征域,所述基因候选特征属所述转录组特征域,所述甲基化位点候选特征的候选特征数据为甲基化程度值,所述基因候选特征的候选特征数据为基因表达值;

37、所述异构图的节点类型包括甲基化位点节点类型和基因节点类型,所述甲基化节点类型表示所述甲基化位点特征域,所述基因节点类型表示所述基因特征域,所述甲基化节点类型包括甲基化位点候选特征节点,所述基因节点类型包括所述基因候选特征节点,所述甲基化位点候选特征节点表示所述甲基化位点候选特征,所述基因候选特征节点表示所述基因候选特征,所述甲基化位点候选特征节点的节点数据包括所述甲基化位点候选特征的候选特征数据和所述甲基化位点候选特征的特征域内重要性,所述基因候选特征节点的节点数据包括所述基因候选特征的候选特征数据和所述基因候选特征的特征域内重要性;

38、所述异构图的所述边类型包括甲基化位点节点类型-甲基化位点节点类型边类型、基因节点类型-基因节点类型边类型和甲基化位点节点类型-基因节点类型边类型;所述甲基化位点节点类型-甲基化位点节点类型边类型包括甲基化位点候选特征节点-甲基化位点候选特征节点边,表示两个所述甲基化位点类型间的关系;所述基因节点类型-基因节点类型边类型包括基因候选特征节点-基因候选特征节点边,表示两个所述基因节点类型间的关系;所述甲基化位点节点类型-基因节点类型边类型包括甲基化位点候选特征节点-基因候选特征节点边,表示所述甲基化位点类型和所述基因节点类型间的关系。

39、进一步,所述最优特征组合包括4个甲基化位点和2个基因,所述4个甲基化位点为cg14598950、cg27331401、cg05428436和cg15048832,所述2个基因为rpl22l1和msh4,所述最优机器学习模型用于对所述msi类别标签预测。

40、第二方面,本发明还提供了一种特征筛选系统,包括:

41、训练集构建模块,用于构建训练集,所述训练集包含若干样本,所述若干样本中每个样本包含类别标签、候选特征和所述候选特征对应的候选特征数据,所述候选特征和所述候选特征对应的候选特征数据构成特征域;

42、异构图构建模块,用于为所述每个样本构建一个对应的异构图,所述异构图的类别标签即是所述每个样本包含的类别标签;所述异构图包括具有若干节点类型的节点与节点数据,及具有若干边类型的边与边数据;每个节点类型对应表示一个特征域,每个节点对应表示一个候选特征,每个节点数据包含所述候选特征对应的候选特征数据和所述候选特征的特征域内重要性;每个边类型表示两个节点类型间的关系,每个边表示所述两个节点间的关系,每个边数据包括所述两个节点间的权重;

43、图神经网络模型模块,用于构建用于对所述类别标签预测的图神经网络模型,将所述每个样本对应的异构图输入所述图神经网络模型,使用损失函数训练所述图神经网络模型,并得到已训练的图神经网络模型;

44、图神经网络解释器模块,用于将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器,得到每个候选特征的特征域间重要性;

45、最优特征组合筛选模块,用于构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型。

46、第三方面,本发明还提供了一种设备,包括:

47、存储器:用于存储程序指令;

48、处理器:用于执行程序指令,当所述程序指令被执行时,实现上述第一方面任一项所述的特征筛选方法或上述第一方面任一项所述的特征筛选方法得到的所述最优特征组合或上述第一方面任一项所述的特征筛选方法得到的所述利用最优特征组合的最优机器学习模型或上述第二方面所述的特征筛选系统。

49、第四方面,本发明还提供了一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时,实现上述第一方面任一项所述的特征筛选方法或上述第一方面任一项所述的特征筛选方法得到的所述最优特征组合或上述第一方面任一项所述的特征筛选方法得到的所述利用最优特征组合的最优机器学习模型或上述第二方面所述的特征筛选系统。

50、本发明的有益效果包括如下:

51、1)构建异构图利用候选特征节点间的边表示若干特征域的侯选特征间广泛、复杂的交互效应,同时将每个候选特征无偏、稳定的特征域内重要性作为关键的节点数据纳入到异构图中;

52、2)构建图神经网络模型同时采用多个不同深度且级联的gcn层和gat层,并将浅层、深层gcn层和gat层的输出拼接和融合,这样不仅可以学习到异构图中的一般化信息和特异化信息,而且可以学习到异构图不同粒度、不同尺度的信息,既提升了图神经网络模型对异构图的表示能力,也避免了梯度爆炸、梯度消失、过平滑和过拟合等问题;

53、3)使用图神经网络解释器基于异构图可整合、拓扑地得到每个候选特征无偏、稳定的特征域间重要性,进而筛选得到数量少、非冗余、可解释、且预测效能高的最优特征组合;

54、总之,本发明通过上述技术方案的组合,尤其是创造性地将每个候选特征无偏、稳定的特征域内重要性作为关键的节点数据纳入到异构图中并使用图神经网络解释器基于异构图可整合、拓扑地得到每个候选特征无偏、稳定的特征域间重要性,经过反复研究和试验证明可从稠密、冗余、超高维、大规模的候选特征中筛选得到数量少、非冗余、可解释、且预测效能高的最优特征组合,最优特征组合以及利用最优特征组合的最优机器学习模型预测性能优异且泛化能力和抗过拟合能力强,说明了本发明的创新方案达到了意想不到、有益积极的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1