一种基于正则化模型的数据整合方法及系统

文档序号:37359685发布日期:2024-03-22 10:13阅读:7来源:国知局
一种基于正则化模型的数据整合方法及系统

本发明涉及数据处理,尤其涉及一种基于正则化模型的数据整合方法及系统。


背景技术:

1、随着现代高通量生物医学仪器的快速发展,生命科学领域的数据已积累众多。例如,基因表达全景图(geo)已经收集了超过340万个样本数据。由于大量的数据积累,如何从庞大的数据池中识别出与某些疾病的发病和进展相关的稳健基因生物标记数据成为一个巨大的挑战。

2、在使用机器学习技术分析基因表达数据时,研究人员通常会面临“大p,小n”、数据异质性和低复现性三个主要问题。现有技术中,解决这三个问题的主要途径是通过元分析或集成分析来处理各种基因数据集,以使其在基因组研究中提升统计性能。其中,典型的基因数据集集成方法包括元阈值梯度下降正则化、元-lasso、元-非凸优化、数据共享lasso(dsl)和dsl2等。

3、然而,上述典型的基因数据集集成方法未充分利用外部的生物学知识,如基因-基因或蛋白质-蛋白质交互网络,从而限制数据集集成方法的性能。在对基因数据集和外部网络知识数据集的整合分析方法中,l1罚项可被应用于各种模型中处理先验的网络知识,然而l1罚项容易使得模型系数,产生额外的偏差,特别是在处理基因组数据这种高维数据的时候。lq罚项(0<q<1)从理论上看能够提供比l1罚项更优的稀疏性、计算效率和计算准确率。


技术实现思路

1、本发明提供一种基于正则化模型的数据整合方法及系统,在正则化模型中使用正则化项对生物学数据和网络知识数据进行整合分析,提高了高维数据整合分析的准确性和效率。

2、为了解决上述技术问题,本发明提供了一种基于正则化模型的数据整合方法,包括:

3、获取网络知识数据集和基因数据集;

4、在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型;

5、对所述dsnet模型进行转换得到转换后的dsnet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解;其中,所述第一特征算子用于表示数据共享效应;所述第二特征算子用于表示数据独特效应;

6、根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特征维度的最优解,在各个特征维度上整合网络知识数据集和基因数据集,获得所述网络知识数据集和所述基因数据集的整合结果。

7、本发明通过在预测模型中加入拉普拉斯正则化项和lq范数罚项作约束,得到dsnet模型;继而将待整合的网络知识数据集和基因数据集输入至dsnet模型中,计算特征算子在各个特征维度上的最优解,并根据所得最优解在特征维度上整合数据。本发明使用正则化模型对生物学数据和网络知识数据进行整合分析,提高了高维数据整合分析的准确性和效率。

8、进一步的,所述在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型,包括:

9、在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型;其中,所述dsnet模型具体如下:

10、

11、式中,β表示在d个数据集中保持一致的共享效应,δd表示特定于一个数据集的独特效应,λ1和λ2表示控制模型稀疏性的参数,λ3和λ4表示调节模型平滑性的参数;xi表示输入矩阵,yi表示输出的真实标签值,矩阵上标t表示转置操作;表示范数,d表示正在处理的数据集数量,rd表示每个数据集的独特效应的权重;l表示用对称的拉普拉斯矩阵表示的网络知识数据集,|β|l|β|表示在网络知识数据集中对β执行平滑处理;|δd|l|δd|表示在网络知识数据集中δd对执行平滑处理。

12、本发明使用正则化dsnet模型来整合基因数据集和网络知识数据集,在dsnet模型中设置正则化项,以提高模型泛化能力和防止模型过拟合,从而通过基因数据集和网络知识数据集的整合分析来推进基因数据集的元分析,提高模型性能和数据整合结果的准确性。

13、进一步的,所述对所述dsnet模型进行转换得到转换后的dsnet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解,包括:

14、基于各个特征维度,对所述dsnet模型进行转换,得到dsnet模型的转换表达式;其中,dsnet模型的转换表达式具体如下:

15、

16、式中,β表示在d个数据集中保持一致的共享效应,δd表示特定于一个数据集的独特效应,λ1和λ2表示控制模型稀疏性的参数,λ3和λ4表示调节模型平滑性的参数;xi表示输入矩阵,yi表示输出的真实标签值,矩阵上标t表示转置操作;表示范数,d表示正在处理的数据集数量,rd表示每个数据集的独特效应的权重;ii表示基因数据集特征i的度,即与i连接的边的数量;ik表示网络知识数据集特征k的度,即与k连接的边的数量;当基因数据集中的数据i和网络知识数据集中的数据k存在链接时,bik等于1,否则bik等于0;βi表示β的第i个维度,βk表示β的第k个维度,δd,i表示δd的第i个维度,δd,k表示δd的第k个维度;

17、从dsnet模型的转换表达式中获得第一特征算子β和第二特征算子δd;其中,所述第一特征算子用于表示数据共享效应;所述第二特征算子用于表示数据独特效应;

18、将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子δd所有特征维度的最优解。

19、进一步的,所述利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子δd所有特征维度的最优解,包括:

20、计算第一特征算子β所有特征维度的最优解,具体如下:

21、

22、其中,

23、

24、

25、

26、

27、

28、式中,βk表示β的第j个维度,β表示在d个数据集中保持一致的共享效应,j表示β的维度;bik表示基因数据集中的数据i和网络知识数据集中的数据k之间的链接情况,xik表示基因数据集中第i个样本数据中的k基因,xij表示基因数据集中第i个样本数据中的j基因,yi表示真实的标签值,ωk、λ1,k、m1,k、vi、m2,k、ωk和表示计算过程中的抽象中间量;

29、计算第二特征算子δd所有特征维度的最优解,具体如下:

30、

31、其中,

32、

33、

34、m1,k=1+λ4sgn(δd,k)

35、

36、

37、

38、式中,δd,k表示δd的第k个维度,δd表示特定于一个数据集的独特效应,k表示δd的维度;xik表示基因数据集中第i个样本数据中的k基因,xij表示基因数据集中第i个样本数据中的j基因,yi表示真实的标签值,λ2,k、ωk、m1,k、δd,d、m2,k、rik、ωk和表示计算过程中的抽象中间量。

39、本发明计算表征数据共享效应的特征算子和表征数据独特效应的特征算子在所有特征维度上的最优解,平衡了对所有数据集的统一模型和对每个数据集的个别模型,提高了可靠性和准确性;既强调数据集的独特性,同时利用数据集的公共性,来进行全面精确的数据整合分析。

40、进一步的,所述根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特征维度的最优解,在各个特征维度上整合网络知识数据集和基因数据集,获得所述网络知识数据集和所述基因数据集的整合结果,包括:

41、根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特征维度的最优解,判断网络知识数据集和基因数据集在各个特征维度上是否存在链接;

42、若网络知识数据集和基因数据集在任意一个特征维度上存在链接,则在存在链接的特征维度上对网络知识数据集和基因数据集进行整合,得到数据整合结果;

43、若网络知识数据集和基因数据集在所有特征维度上均不存在链接,则对网络知识数据集和基因数据集进行分类,得到数据分类结果;

44、将所述数据整合结果和数据分类结果在所有特征维度上进行整合,输出所述网络知识数据集和所述基因数据集的整合结果。

45、本发明根据基因数据集和网络知识数据集的在各个维度上链接情况,分析基因数据集和网络知识数据集的同质性和异质性,从而进行特征维度上的整合和分类,在考虑数据的同质性、异质性和先验外部知识的基础上,推进稳健、可靠的基因数据元分析。

46、在上述方法项实施例的基础上,本发明对应提供了系统项实施例,提供了一种基于正则化模型的数据整合系统,包括:数据获取模块、设置罚项模块、特征求解模块和数据整合模块;

47、所述数据获取模块,用于获取网络知识数据集和基因数据集;

48、所述设置罚项模块,用于在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型;

49、所述特征求解模块,用于对所述dsnet模型进行转换得到转换后的dsnet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解;其中,所述第一特征算子用于表示数据共享效应;所述第二特征算子用于表示数据独特效应;

50、所述数据整合模块,用于根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特征维度的最优解,在各个特征维度上整合网络知识数据集和基因数据集,获得所述网络知识数据集和所述基因数据集的整合结果。

51、进一步的,所述设置罚项模块,用于在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型,具体为:

52、所述设置罚项模块,用于在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型,得到dsnet模型;

53、其中,所述dsnet模型具体如下:

54、

55、式中,β表示在d个数据集中保持一致的共享效应,dd表示特定于一个数据集的独特效应,λ1和λ2表示控制模型稀疏性的参数,λ3和λ4表示调节模型平滑性的参数;xi表示输入矩阵,yi表示输出的真实标签值,矩阵上标t表示转置操作;表示范数,d表示正在处理的数据集数量,rd表示每个数据集的独特效应的权重;l表示用对称的拉普拉斯矩阵表示的网络知识数据集,|β|l|β|表示在网络知识数据集中对β执行平滑处理;|δd|l|δd|表示在网络知识数据集中δd对执行平滑处理。

56、进一步的,所述特征求解模块,包括:模型转换单元、特征算子单元和多维度求解单元;

57、所述模型转换单元,用于基于各个特征维度,对所述dsnet模型进行转换,得到dsnet模型的转换表达式;其中,dsnet模型的转换表达式具体如下:

58、

59、式中,β表示在d个数据集中保持一致的共享效应,δd表示特定于一个数据集的独特效应,λ1和λ2表示控制模型稀疏性的参数,λ3和λ4表示调节模型平滑性的参数;xi表示输入矩阵,yi表示输出的真实标签值,矩阵上标t表示转置操作;表示范数,d表示正在处理的数据集数量,rd表示每个数据集的独特效应的权重;ii表示基因数据集特征i的度,即与i连接的边的数量;ik表示网络知识数据集特征k的度,即与k连接的边的数量;当基因数据集中的数据i和网络知识数据集中的数据k存在链接时,bik等于1,否则bik等于0;βi表示β的第i个维度,βk表示β的第k个维度,δd,i表示δd的第i个维度,δd,k表示δd的第k个维度;

60、所述特征算子单元,用于从dsnet模型的转换表达式中获得第一特征算子β和第二特征算子δd;其中,所述第一特征算子用于表示数据共享效应;所述第二特征算子用于表示数据独特效应;

61、所述多维度求解单元,用于将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子δd所有特征维度的最优解。

62、进一步的,所述多维度求解单元,包括:共享效应子单元和独特效应子单元;

63、所述共享效应子单元,用于计算第一特征算子β所有特征维度的最优解,具体如下:

64、

65、其中,

66、

67、

68、

69、

70、

71、式中,βk表示β的第k个维度,β表示在d个数据集中保持一致的共享效应,k表示β的维度;bik表示基因数据集中的数据i和网络知识数据集中的数据k之间的链接情况,xik表示基因数据集中第i个样本数据中的k基因,xij表示基因数据集中第i个样本数据中的j基因,yi表示真实的标签值,ωk、λ1,k、m1,k、vi、m2,k、ωk和表示计算过程中的抽象中间量;

72、所述独特效应子单元,用于计算第二特征算子δd所有特征维度的最优解,具体如下:

73、

74、其中,

75、

76、

77、m1,k=1+λ4sgn(δd,k)

78、

79、

80、

81、式中,δd,k表示δd的第k个维度,δd表示特定于一个数据集的独特效应,k表示δd的维度;xik表示基因数据集中第i个样本数据中的k基因,xij表示基因数据集中第i个样本数据中的j基因,yi表示真实的标签值,λ2,k、ωk、m1,k、δd,k、m2,k、rik、ωk和表示计算过程中的抽象中间量。

82、进一步的,所述数据整合模块,包括:维度链接单元、整合单元、分类单元和特征合并单元;

83、所述维度链接单元,用于根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特征维度的最优解,判断网络知识数据集和基因数据集在各个特征维度上是否存在链接;

84、所述整合单元,用于若网络知识数据集和基因数据集在任意一个特征维度上存在链接,则在存在链接的特征维度上对网络知识数据集和基因数据集进行整合,得到数据整合结果;

85、所述分类单元,用于若网络知识数据集和基因数据集在所有特征维度上均不存在链接,则对网络知识数据集和基因数据集进行分类,得到数据分类结果;

86、所述特征合并单元,用于将所述数据整合结果和数据分类结果在所有特征维度上进行整合,输出所述网络知识数据集和所述基因数据集的整合结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1