一种用于空间转录组数据的空间可变基因识别方法及系统

文档序号:34856114发布日期:2023-07-22 20:25阅读:87来源:国知局
一种用于空间转录组数据的空间可变基因识别方法及系统

本发明涉及生物信息,尤其是涉及一种用于空间转录组数据的空间可变基因识别方法及系统。


背景技术:

1、空间转录组学技术的快速发展推动了组织结构的重建、发育和疾病等方面的研究,大规模的空间转录组学研究也愈发流行。空间转录组学分析方法中一个十分重要且独有的问题是识别空间可变基因。空间可变基因的具体含义是指在组织的空间分布中基因表达具有一定的空间模式的基因。从数据上来看,空间可变基因的表达计数与空间位置存在特定关系。

2、传统的空间统计学模型面对数量大、结构复杂、维度高且稀疏的空间转录组学数据往往失效,因此需要开发适应空间转录组数据特点的空间可变基因识别方法。


技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种识别准确度高,计算速度快的用于空间转录组数据的空间可变基因识别方法及系统。

2、本发明的目的可以通过以下技术方案来实现:

3、根据本发明的第一方面,提供了一种用于空间转录组学数据的空间可变基因识别方法,该方法包括以下步骤:

4、步骤s1、对每个基因的原始基因表达数据进行半池化处理;

5、步骤s2、对半池化处理后的输出数据进行稳定性检验;

6、步骤s3、对于多个稳定性检验结果进行组合测试;

7、步骤s4、根据组合测试结果判断是否为空间可变基因。

8、优选地,所述步骤s1中的半池化处理,具体为:按照给定的k组半池化参数分别对空间转录组学数据进行平均值计算,将得到的输出数据按照空间位置重新排列为一维序列;其中,半池化参数包括方向参数和步长参数。

9、优选地,所述半池化处理包括四组不同的半池化参数,分别为:

10、1)方向:行方向,步长:nrow;

11、2)方向:行方向,步长:

12、3)方向:列方向,步长:ncol;

13、4)方向:列方向,步长:

14、其中,ncol为空间转录组数据包含的列数,nrow为空间转录组数据包含的行数,[·]表示取整数。

15、优选地,所述步骤s2中的稳定性检验为box-pierce检验,用于对于不同半池化参数处理的输出数据分别进行稳定性检验。

16、优选地,所述box-pierce检验中的参数设置包括:最大延迟阶参数m=[ln(t)],其中,t为半池化处理后的输出数据长度,[·]表示取整数。

17、优选地,所述步骤s3中的组合测试采用stouffer组合方法,具体计算方式为:

18、

19、其中,φ-1(·)是标准正态分布的累积分布函数的反函数,k为半池化参数的组别数,n(0,1)为标准正态分布。

20、优选地,所述步骤s4还包括对组合测试结果进行holm方法校正。

21、根据本发明的第二方面,提供了一种基于空间转录组学数据的空间可变基因识别系统,该系统包括:

22、半池化处理模块,用于对每个基因的原始基因表达数据进行半池化处理;

23、稳定性检验模块,用于对半池化处理后的输出数据进行稳定性检验;

24、组合测试模块,用于对于多个稳定性检验结果进行组合测试;

25、空间可变基因判断模块,用于根据组合测试结果判断是否为空间可变基因。

26、根据本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。

27、根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。

28、与现有技术相比,本发明具有以下优点:

29、1)本发明通过半池化方法对原始数据进行数据转换和特征提取,对半池化处理得到的输出数据进行稳定性检验,对稳定性检验结果进行组合测试,从而识别空间可变基因,具有识别准确度高,计算速度快的优点;

30、2)本发明采用包含有方向参数和步长参数的半池化方法进行数据转换和特征提取,用于数量大、结构复杂、维度高且稀疏的大规模空间转录组数据;

31、3)采用box-pierce检验对半池化处理后的输出数据进行稳定性检验,准确性高;

32、4)采用stouffer组合方法对多个稳定性检验结果进行组合测试,提高了测试结果的准确性;

33、5)对组合测试的p值使用holm方法进行校正,可有效控制假阳性率,提高了识别的准确性。



技术特征:

1.一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s1中的半池化处理,具体为:按照给定的k组半池化参数分别对空间转录组学数据进行平均值计算,将得到的输出数据按照空间位置重新排列为一维序列;其中,半池化参数包括方向参数和步长参数。

3.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述半池化处理包括四组不同的半池化参数,分别为:

4.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s2中的稳定性检验为box-pierce检验,用于对于不同半池化参数处理的输出数据分别进行稳定性检验。

5.根据权利要求4所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述box-pierce检验中的参数设置包括:最大延迟阶参数m=[ln(t)],其中,t为半池化处理后的输出数据长度,[·]表示取整数。

6.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s3中的组合测试采用stouffer组合方法,具体计算方式为:

7.根据权利要求1所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s4还包括对组合测试结果进行holm方法校正。

8.一种用于空间转录组学数据的空间可变基因识别系统,其特征在于,采用权利要求1所述的方法,该系统包括:

9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。


技术总结
本发明涉及一种用于空间转录组学数据的空间可变基因识别方法,该方法包括:通过半池化方法对原始数据进行数据转换和特征提取;对半池化处理得到的输出数据进行稳定性检验;对稳定性检验结果进行组合测试,从而识别空间可变基因。与现有技术相比,本发明具有识别准确度高,计算速度快等优点。

技术研发人员:俞章盛,袁欣,马嫣然
受保护的技术使用者:上海交通大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1