单细胞miRNA海绵网络推理方法、装置、设备及存储介质

文档序号:34946891发布日期:2023-07-29 04:33阅读:31来源:国知局
单细胞miRNA海绵网络推理方法、装置、设备及存储介质与流程

本发明涉及基因识别,具体而言,涉及一种单细胞mirna海绵网络推理方法、装置、设备及存储介质。


背景技术:

1、竞争性内源核糖核酸(competing endogenous ribonucleic acid,cerna)假说揭示了:为了吸附微小rna(micro rna,mirna),不同非编码rna和编码rna转录本相互竞争,形成复杂的rna串扰网络,该串扰网络可以称作cerna网络或mirna海绵网络。

2、mirna海绵网络中可以包括多种mirna海绵,mirna海绵也即mirna海绵网络中具有竞争关系的转录物。目前,蛋白质编码基因/信使rna(messenger rna,mrna)、长链非编码rna(long non-coding,lncrna)、假基因(pseudogene)转录本、以及环状rna(circular,circrna)是四种代表性mirna海绵。

3、已有研究表明:mirna海绵以及mirna海绵网络在恶性肿瘤发生、发展、侵袭、转移、以及恶化等生物过程中可以起到重要作用,并且可以作为潜在生物标志物,为疾病诊断和靶向治疗提供支持。

4、目前已有研究方法主要基于群细胞(bulk)水平的转录组数据来识别群细胞水平mirna海绵网络。但是,由于每个单细胞存在异质性特征,导致目前的研究方法不能构建在单细胞水平下的mirna海绵网络。也即,目前的研究方法不能够用于研究单细胞水平mirna海绵网络。


技术实现思路

1、本发明的目的在于,针对上述现有技术中的不足,提供一种单细胞mirna海绵网络推理方法、装置、设备及存储介质,能够在单细胞水平下识别mirna海绵网络。

2、为实现上述目的,本发明采用的技术方案如下:

3、第一方面,本发明提供一种单细胞mirna海绵网络推理方法,包括:

4、获取多个细胞中每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据;根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中的mirna海绵竞争关系对;mirna海绵竞争关系对是指竞争关系参数满足预设条件的第一靶基因和第二靶基因;根据每个细胞中的mirna海绵竞争关系对,确定每个细胞的mirna海绵网络。

5、可选地,竞争关系参数包括:第一靶基因和第二靶基因之间的共享mirna的显著性值、第一靶基因和第二靶基因之间的正相关系数的显著性值、以及第一靶基因和第二靶基因之间的敏感相关系数的显著性值;根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中的mirna海绵竞争关系对,包括:根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中任意一对第一靶基因和第二靶基因的共享mirna的显著性值、正相关系数的显著性值、以及敏感相关系数的显著性值;将每个细胞中任意两个共享mirna的显著性值小于第一阈值、正相关系数的显著性值小于第二阈值、且敏感相关系数的显著性值小于第三阈值的第一靶基因和第二靶基因作为mirna海绵竞争关系对。

6、可选地,针对多个细胞中任意一个第一细胞所对应的共享mirna的显著性值,根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中任意一对第一靶基因和第二靶基因的共享mirna的显著性值、正相关系数的显著性值、以及敏感相关系数的显著性值,包括:

7、按照下述公式计算共享mirna的显著性值:

8、

9、其中,p表示共享mirna的显著性值;n表示多个细胞对应的mirna的表达谱数据中mirna的个数;m表示多个细胞对应的mirna的表达谱数据中,与第一细胞对应的第一靶基因相互作用的mirna的个数;k表示多个细胞对应的mirna的表达谱数据中,与第一细胞对应的第二靶基因相互作用的mirna的个数;l表示表示第一细胞的第一靶基因和第二靶基因共享的mirna的个数。

10、可选地,针对多个细胞中任意一个第一细胞所对应的正相关系数的显著性值,根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中任意一对第一靶基因和第二靶基因的共享mirna的显著性值、正相关系数的显著性值、以及敏感相关系数的显著性值,包括:

11、按照下述公式计算正相关系数的显著性值:

12、

13、其中,表示第一细胞的第一靶基因和第二靶基因之间的相关系数;c表示多个细胞的细胞个数;rxy表示去除第一细胞之前第一靶基因和第二靶基因的相关系数;表示去除第一细胞之后第一靶基因和第二靶基因的相关系数;

14、

15、其中,表示归一化的表示第一细胞内所有相关系数的均值;表示第一细胞内所有相关系数的标准差;

16、

17、其中,表示正相关系数的显著性值;表示利用pnorm函数计算标准正态分布随机数小于的概率。

18、可选地,针对多个细胞中任意一个第一细胞所对应的敏感相关系数的显著性值,根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中任意一对第一靶基因和第二靶基因的共享mirna的显著性值、正相关系数的显著性值、以及敏感相关系数的显著性值,包括:

19、按照下述公式计算敏感相关系数的显著性值:

20、

21、其中,表示在共享基因z的条件下,第一细胞的第一靶基因和第二靶基因之间的偏相关系数,基因z为mirna;rxy|z表示去除第一细胞之前第一靶基因和第二靶基因的偏相关系数;表示去除第一细胞之后第一靶基因和第二靶基因的偏相关系数;

22、

23、其中,表示在第一细胞中,第一靶基因和第二靶基因之间的敏感相关系数;

24、

25、其中,表示归一化的表示第一细胞内所有敏感相关系数的均值;表示第一细胞内所有敏感系数的标准差;

26、

27、其中,表示敏感相关系数的显著性值;表示的绝对值;表示利用pnorm函数计算标准正态分布随机数小于的概率。

28、可选地,该方法还包括:根据多个细胞的mirna海绵网络,得到多个细胞的mirna海绵网络相似性矩阵;根据多个细胞的mirna海绵网络相似性矩阵,得到单细胞距离矩阵;基于单细胞距离矩阵,利用层次聚类法对多个细胞进行层次聚类分析,得到多个类别的细胞。

29、可选地,第一靶基因和第二靶基因为以下任意一种:长链非编码rna、环状rna、伪基因、以及信使rna。

30、第二方面,本发明提供一种单细胞mirna海绵网络推理装置,该装置可以包括:获取模块和处理模块。

31、获取模块,用于获取多个细胞中每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据。

32、处理模块,用于根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中的mirna海绵竞争关系对;mirna海绵竞争关系对是指竞争关系参数满足预设条件的第一靶基因和第二靶基因;根据每个细胞中的mirna海绵竞争关系对,确定每个细胞的mirna海绵网络。

33、可选地,竞争关系参数包括:第一靶基因和第二靶基因之间的共享mirna的显著性值、第一靶基因和第二靶基因之间的正相关系数的显著性值、以及第一靶基因和第二靶基因之间的敏感相关系数的显著性值;处理模块,具体用于根据预设的mirna-靶基因调控关系数据和每个细胞各自对应的多个第一靶基因的表达谱数据、多个第二靶基因的表达谱数据、以及mirna的表达谱数据,确定每个细胞中任意一对第一靶基因和第二靶基因的共享mirna的显著性值、正相关系数的显著性值、以及敏感相关系数的显著性值;将每个细胞中任意两个共享mirna的显著性值小于第一阈值、正相关系数的显著性值小于第二阈值、且敏感相关系数的显著性值小于第三阈值的第一靶基因和第二靶基因作为mirna海绵竞争关系对。

34、可选地,针对多个细胞中任意一个第一细胞所对应的共享mirna的显著性值,处理模块,具体用于按照下述公式计算共享mirna的显著性值:

35、

36、其中,p表示共享mirna的显著性值;n表示多个细胞对应的mirna的表达谱数据中mirna的个数;m表示多个细胞对应的mirna的表达谱数据中,与第一细胞对应的第一靶基因相互作用的mirna的个数;k表示多个细胞对应的mirna的表达谱数据中,与第一细胞对应的第二靶基因相互作用的mirna的个数;l表示表示第一细胞的第一靶基因和第二靶基因共享的mirna的个数。

37、可选地,针对多个细胞中任意一个第一细胞所对应的正相关系数的显著性值,处理模块,具体用于按照下述公式计算正相关系数的显著性值:

38、

39、其中,表示第一细胞的第一靶基因和第二靶基因之间的相关系数;c表示多个细胞的细胞个数;rxy表示去除第一细胞之前第一靶基因和第二靶基因的相关系数;表示去除第一细胞之后第一靶基因和第二靶基因的相关系数;

40、

41、其中,表示归一化的表示第一细胞内所有相关系数的均值;表示第一细胞内所有相关系数的标准差;

42、

43、其中,表示正相关系数的显著性值;表示利用pnorm函数计算标准正态分布随机数小于的概率。

44、可选地,针对多个细胞中任意一个第一细胞所对应的敏感相关系数的显著性值,处理模块,具体用于按照下述公式计算敏感相关系数的显著性值:

45、

46、其中,表示在共享基因z的条件下,第一细胞的第一靶基因和第二靶基因之间的偏相关系数,基因z为mirna;rxy|z表示去除第一细胞之前第一靶基因和第二靶基因的偏相关系数;表示去除第一细胞之后第一靶基因和第二靶基因的偏相关系数;

47、

48、其中,表示在第一细胞中,第一靶基因和第二靶基因之间的敏感相关系数;

49、

50、其中,表示归一化的表示第一细胞内所有敏感相关系数的均值;表示第一细胞内所有敏感系数的标准差;

51、

52、其中,表示敏感相关系数的显著性值;表示的绝对值;表示利用pnorm函数计算标准正态分布随机数小于的概率。

53、可选地,处理模块,还用于根据多个细胞的mirna海绵网络,得到多个细胞的mirna海绵网络相似性矩阵;根据多个细胞的mirna海绵网络相似性矩阵,得到单细胞距离矩阵;基于单细胞距离矩阵,利用层次聚类法对多个细胞进行层次聚类分析,得到多个类别的细胞。

54、可选地,第一靶基因和第二靶基因为以下任意一种:长链非编码rna、环状rna、伪基因、以及信使rna。

55、第三方面,本发明提供一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行上述第一方面任一方法的步骤。

56、第四方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如上述第一方面任一方法的步骤。

57、本发明的有益效果是:本发明可以通过计算单个细胞内的第一靶基因和第二靶基因之间的竞争关系参数来识别单个细胞的mirna海绵竞争关系对,进而推理得到单细胞的mirna海绵网络,考虑每个细胞的异质性,本发明可以为每个细胞构建特异性mirna海绵网络,即一个细胞对应一个mirna海绵网络。本发明可以应用于于疾病转录组数据中,对于探索恶性肿瘤发病机理、恶性肿瘤亚型分类以及诊断和治疗提供技术支持。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1