基于图注意力和多元损失函数的空间多组学数据整合方法

文档序号:42356103发布日期:2025-07-04 17:21阅读:70来源:国知局

本发明涉及计算生物学的,尤其涉及一种基于图注意力和多元损失函数的空间多组学数据整合方法。


背景技术:

1、空间组学技术是一种新兴的细胞组学测量方法,相比传统的批量细胞测序和单细胞测序技术,它能够额外提供样本的空间位置信息,从而为研究细胞的空间分布和生理现象提供了重要途径。空间组学数据的分析具有较高的复杂性,主要因为不同组学之间存在显著的异质性,不同切片之间存在显著的批次效应,且不同切片的组学组成可能有所不同,形成“马赛克”数据。空间马赛克数据的整合涉及将不同组学的信息对齐,去除不同批次数据之间的批次效应,解决模态缺失问题,并最终实现数据的统一表示。通过将不同组学融合,能够提供更多信息,帮助全面理解细胞,且将不同切片的数据进行统一表示,有助于对比分析细胞的空间分布和生理行为。

2、近年来,随着深度学习技术的飞速进展,深度学习在数据挖掘领域展现出巨大潜力,成为空间马赛克数据分析的高效、高性能方案。通过深度学习对空间组学数据进行整合,可以将高维、稀疏的数据转化为统一的低维表示,并利用该低维表示实现聚类、标签迁移等任务,成为一种可靠且有效的方法。

3、在过去的研究中,已有多种针对空间组学数据的整合方法提出。例如,在多批次空间多组学整合方面,chen等人提出了spamosaic方法,该方法先通过第三方去批次方法对单组学数据进行去批次处理,然后利用多层图神经网络提取组学数据和空间信息,并通过对比学习实现模态对齐,最终实现了空间多批次多组学的马赛克整合。

4、然而,spamosaic方法的去批次处理完全依赖于第三方harmony去批次方法,当第三方方法不稳定时,可能会对结果产生负面效应,并且降维过程会造成信息损失。此外,传统的单细胞多组学方法虽已能够实现单细胞层级的马赛克数据整合,但由于未能充分考虑空间信息,最终结果在空间上常表现为不够平滑,影响了空间分析的准确性。


技术实现思路

1、现有技术在空间组学数据整合过程中存在去批次、组学对齐、空间平滑等方面仍存在一定的局限性,因此,本发明的目的在于提出一种基于图注意力和多元损失函数的空间多组学数据整合方法,能够结合多种损失来有效解决批次效应,并充分考虑空间信息,以提升最终结果在空间上的平滑性和组学对齐的准确性,从而实现空间多组学数据的整合。

2、为实现本发明的目的,本发明采用如下技术方案实现:

3、一种基于图注意力和多元损失函数的空间多组学数据整合方法,所述方法包括以下步骤:

4、获取空间多组学数据及其对应的空间位置坐标,并输入预设的空间多组学数据模型,所述模型包括图注意力编码器和解码器;

5、空间多组学数据模型根据空间多组学数据和空间位置坐标构造图结构,图注意力编码器基于构建的图结构进行细胞空间多组学数据融合,解码器基于融合数据进行数据重构,完成细胞空间多组学数据整合;

6、构建多元损失函数对空间多组学数据模型的细胞空间多组学数据整合过程进行迭代优化,输出最优的细胞空间多组学数据整合结果。

7、在上述技术方案中,通过预设的空间多组学数据模型根据空间多组学数据和空间位置坐标构造图结构,能够提高组学数据的表示能力,采用图注意力编码器基于构建的图结构进行细胞空间多组学数据融合,并采用解码器基于融合数据进行数据重构,完成细胞空间多组学数据整合,能够充分考虑空间信息,从而使模型能够高效的掌握空间多组学数据和空间位置坐标信息;此外,构建的多元损失函数在对模型的细胞空间多组学数据整合过程进行迭代优化的过程中,能够通过多种损失并结合图注意力网络来有效解决去批次效应和多组学数据融合的挑战,提升最终结果在空间上的平滑性、组学对齐的准确性及空间分析的准确性,从而实现空间马赛克组学数据(即空间多组学数据)的整合。

8、进一步地,空间多组学数据模型对输入的空间多组学数据进行预处理,过程包括:

9、所述空间多组学数据包括转录组学数据和表观遗传学数据;

10、对所述转录组学数据进行log1p转换,并对转换后的转录组学数据进行标准化与降维处理;

11、将所述表观遗传学数据的格式转换为peak形式,并对peak形式的表观遗传学数据进行高变特征筛选与降维处理。

12、在上述技术方案中,对所述转录组学数据进行log1p转换,以便选出数据中的高变基因,对转换后的转录组学数据进行标准化与降维处理,能够有效减少数据中的冗余特征,将所述表观遗传学数据的格式转换为peak形式,并对peak形式的表观遗传学数据进行高变特征筛选与降维处理,能够提高数据的实用性与可靠性。

13、进一步地,空间多组学数据模型根据空间多组学数据和空间位置坐标构造图结构的过程包括:

14、根据每一个空间组学数据对应的空间位置坐标,采用k近邻算法计算对应的邻接矩阵,表达式为:

15、as∈{0,1}n×n

16、基于邻接矩阵及其对应的空间组学数据构造图结构表达式为:

17、

18、其中,s表示空间组学数据中第s个切片,n表示自然数,表示第s个切片上所有点的m组学数据的集合。

19、在上述技术方案中,采用k近邻算法能够有效根据每一个空间组学数据对应的空间位置坐标计算对应的邻接矩阵,从而邻接矩阵及其对应的空间组学数据构造图结构,进而提高组学数据的表示能力。

20、进一步地,完成细胞空间多组学数据整合的过程包括:

21、图注意力编码器基于构建的图结构进行细胞空间多组学数据融合的过程中,对每一个组学数据的图结构设置独立的图注意力编码器;所述图注意力编码器中包含了注意力机制的图注意力网络和多层感知机,所述解码器中包含了多层感知机和图注意力网络;

22、图注意力编码器通过注意力机制的图注意力网络和多层感知机对图结构进行编码,以提取图结构中组学数据对应的低维表示,并对得到的低维表示进行融合;

23、解码器通过多层感知机和图注意力网络对融合后的低维表示进行数据重构,并根据重构的数据进行细胞空间多组学数据整合,输出整合结果。

24、进一步地,图注意力编码器提取图结构中组学数据对应的低维表示的过程中,采用图注意力网络将组学数据和邻接矩阵映射到低维空间,并设置多层感知机进行低维表示学习,提取出图结构中组学数据对应的低维表示zm。

25、进一步地,采用平均池化的方法对得到的低维表示zm进行融合,得到联合表示zjoint,表达式为:

26、

27、其中,表示空间组学数据的集合。

28、进一步地,设置图注意力和多层感知机进行低维表示学习的过程包括:

29、对任意组学,都有第0层隐变量为原始数据,表达式为:

30、

31、第k∈{1,...,k-1}层隐变量表示为:

32、

33、最后一层不采用注意力层,表达式为:

34、

35、在第k层中,点n和点j的注意力强度为:

36、

37、对注意力强度向量进行进行归一化处理,得到最终的图注意力网络的注意力,表达式为:

38、

39、图注意力网络采用注意力提取出图结构中组学数据对应的低维表示zm;

40、其中,wk表示可训练的权重矩阵,σ表示非线性激活函数,si表示点i的邻居集合,和表示可训练向量。

41、在上述技术方案中,对每一个组学数据的图结构设置独立的图注意力编码器进行编码,能够有效针对不同组学数据进行不同的空间信息考虑,采用图注意力网络将组学数据和邻接矩阵映射到低维空间,并设置多层感知机进行低维表示学习,从而提升最终结果在空间上的平滑性、组学对齐的准确性和空间分析的准确性,以提取图结构中不同组学数据对应的低维表示。

42、进一步地,构建多元损失函数对空间多组学数据模型的细胞空间多组学数据整合过程进行迭代优化的过程包括:

43、设置若干轮次的训练对所述空间多组学数据模型的参数进行迭代优化,具体为:

44、训练过程中,设置均方差损失函数计算对融合后的低维表示进行数据重构过程中的损失,表达式为:

45、

46、设置低维表示一致性约束损失函数对组学数据的低维表示之间的一致性进行约束,表达式为:

47、

48、对任意两个切片的低维表示和设置切片对齐损失函数来约束不同切片的表达的一致性,表达式为:

49、

50、其中,表示第m个组学数据中第s个切片上第n个点的数据,表示重构得到的第m个组学数据中第s个切片上第n个点的数据。

51、进一步地,根据均方差损失函数、低维表示一致性约束损失函数及切片对齐损失函数构建总损失函数,表达式为:

52、ltotal=λ1lrecon+λ2lconsist+λ3lmmd

53、其中,λ1、λ2及λ3表示预设的用来平衡各项损失之间的超参数;

54、进一步地,设置优化器adam对训练过程中的空间多组学数据模型进行参数优化,并设置权重衰减为0.0005。

55、在上述技术方案中,设置的均方差损失函数能够有效减少低维表示重构过程中的损失,从而提高空间分析的准确性,设置的低维表示一致性约束损失函数能够确保组学数据的低维表示之间的一致性,设置的切片对齐损失函数能够提高组学对齐的准确性,根据均方差损失函数、低维表示一致性约束损失函数及切片对齐损失函数构建总损失函数,并为每一项损失设置对应的超参数,能够有效平衡不同损失之间的贡献,在多元损失函数的基础上设置优化器adam对训练过程中的模型进行参数优化,能够从整体上提高最终结果在空间上的平滑性、组学对齐的准确性和空间分析的准确性,从而实现空间马赛克组学数据(即空间多组学数据)的整合。

56、相比现有技术,本发明的有益效果在于:

57、本发明提出一种基于图注意力和多元损失函数的空间多组学数据整合方法,通过预设的空间多组学数据模型根据空间多组学数据和空间位置坐标构造图结构,能够提高组学数据的表示能力,采用图注意力编码器基于构建的图结构进行细胞空间多组学数据融合,并采用解码器基于融合数据进行数据重构,完成细胞空间多组学数据整合,能够充分考虑空间信息,从而使模型能够高效的掌握空间多组学数据和空间位置坐标信息;此外,构建的多元损失函数在对空间多组学数据模型的细胞空间多组学数据整合过程进行迭代优化的过程中,能够通过多种损失并结合图注意力网络来有效解决去批次效应和多组学数据融合的挑战,提升最终结果在空间上的平滑性、组学对齐的准确性及空间分析的准确性,从而实现空间马赛克组学数据(即空间多组学数据)的整合。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1