一种基于反卷积的转录测序数据处理方法、系统及终端

文档序号:37274652发布日期:2024-03-12 21:07阅读:26来源:国知局
一种基于反卷积的转录测序数据处理方法、系统及终端

本发明涉及数据处理领域,尤其涉及的是一种基于反卷积的转录测序数据处理方法、系统及终端。


背景技术:

1、批量测序技术使用生物组织(细胞群)作为测序样本,得到数十(百)万个细胞的基因表达总和,而针对高度异质性的细胞,如肿瘤样本,由于每个肿瘤细胞都是独一无二的,肿瘤细胞的基因特征在肿瘤细胞之间和肿瘤微环境内具有高度异质性,这些特异性会在转录组测序的大量细胞基因表达累加计算中被掩盖。然而,单细胞测序技术的高稀疏性、批次效应等问题导致难以整合数据构建模型,并且现有海量的批量转录组测序数据因为无法直观提供细胞层面的信息而难以被应用。

2、目前传统的批量转录组测序数据反卷积方法选择相似样本的单细胞数据作为模板,推测批量转录组测序数据中的各个细胞类型占比和细胞类型表达矩阵。传统批量转录组测序数据反卷积方法要求批量转录组测序数据与作为模板的单细胞样本尽可能相似,而由于肿瘤异质性的存在,不同肿瘤在细胞组成和基因表达上存在较高的异质性,难以为每个批量转录组测序数据都匹配相似的单细胞样本做模板,因此也无法从批量转录组测序数据中提取出方便于研究的单细胞基因表达矩阵。

3、因此,现有技术还有待改进和发展。


技术实现思路

1、本发明的主要目的在于提供一种基于反卷积的转录测序数据处理方法、系统、终端及存储介质,旨在解决现有技术中由于不同肿瘤在细胞组成和基因表达上存在较高的异质性,导致无法从批量转录组测序数据中提取出方便于研究的单细胞基因表达矩阵的问题。

2、为了实现所述目的,本发明第一方面提供一种基于反卷积的转录测序数据处理方法,其中,所述一种基于反卷积的转录测序数据处理方法包括:

3、获取待处理的批量转录组测序数据;

4、将所述批量转录组测序数据输入到训练完成的生成对抗网络中,输出细胞类型表达矩阵和细胞比例向量;

5、将所述细胞类型表达矩阵和所述细胞比例向量输入到训练完成的条件生成模型中,生成单细胞表达矩阵,并输出;

6、其中,根据单细胞转录组测序数据生成伪批量转录组测序数据,根据所述伪批量转录组测序数据训练所述生成对抗网络。

7、可选的,所述生成对抗网络的训练过程包括:

8、获取第一预设数量的单细胞转录组测序数据,根据奇异分解算法和基于图的聚类算法对第一预设数量的所述单细胞转录组测序数据进行处理,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵,根据每个单细胞转录组测序数据的训练细胞类型平均表达矩阵生成每个单细胞转录组测序数据的训练细胞比例向量;

9、将第一预设数量的所述单细胞转录组测序数据中的每个细胞的基因表达数据加和,得到第一预设数量个伪批量转录组测序数据;

10、根据所述伪批量转录组测序数据、每个单细胞转录组测序数据的训练细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的训练细胞比例向量,生成训练数据集,并根据所述训练数据集训练所述生成对抗网络。

11、可选的,所述获取第一预设数量的单细胞转录组测序数据,根据奇异分解算法和基于图的聚类算法对第一预设数量的所述单细胞转录组测序数据进行处理,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵的步骤包括:

12、根据所述奇异分解算法对第一预设数量的所述单细胞转录组测序数据降维,得到每个单细胞转录组测序数据的降维单细胞转录组测序数据;

13、根据所述基于图的聚类算法对每个单细胞转录组测序数据的所述降维单细胞转录组测序数据聚类,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵。

14、可选的,所述将第一预设数量的所述单细胞转录组测序数据中的每个细胞的基因表达数据加和,得到第一预设数量个伪批量转录组测序数据的步骤包括:

15、获取所述第一预设数量的所述单细胞转录组测序数据;

16、将所述单细胞转录组测序数据中每个细胞的基因表达量加和,得到第一预设数量个所述伪批量转录组测序数据。

17、可选的,所述根据所述伪批量转录组测序数据、每个单细胞转录组测序数据的细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的细胞比例向量,生成训练数据集,并根据所述训练数据集训练所述生成对抗网络的步骤包括:

18、将每个所述伪批量转录组测序数据与对应的训练细胞类型表达矩阵和训练细胞比例向量组合为所述训练数据集中的一组数据;

19、根据所述训练数据集训练所述生成对抗网络,其中所述生成对抗网络包括生成器和判别器,在每次训练过程中通过对抗目标函数生成训练细胞类型表达矩阵和训练细胞比例向量,并通过重构目标函数计算损失。

20、可选的,其特征在于,所述条件生成模型的训练过程包括:

21、根据所述单细胞转录组测序数据获取训练单细胞表达矩阵;

22、根据所述训练单细胞表达矩阵、每个所述单细胞转录组测序数据的训练细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的训练细胞比例向量,生成条件生成模型训练数据集;

23、根据所述条件生成模型训练数据集训练所述条件生成模型。

24、可选的,所述根据所述训练单细胞表达矩阵、每个所述单细胞转录组测序数据的训练细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的训练细胞比例向量,生成条件生成模型训练数据集的步骤包括:

25、根据第一预设数量的所述训练细胞类型平均表达矩阵和所述训练细胞比例向量,生成所述条件生成模型训练数据集中的训练数据,并根据所述训练单细胞表达矩阵生成所述条件生成模型训练数据集中的训练数据的标签;

26、其中,所述条件生成模型训练数据集中每组训练数据中的训练细胞类型平均表达矩阵、训练细胞比例向量和所述训练单细胞表达矩阵都基于相同的单细胞转录组测序数据所生成。

27、本发明第二方面提供一种基于反卷积的转录测序数据处理系统,其中,所述一种基于反卷积的转录测序数据处理系统包括:

28、数据获取模块,用于获取待处理的批量转录组测序数据;

29、生成对抗网络处理模块,用于将所述批量转录组测序数据输入到训练完成的生成对抗网络中,输出细胞类型表达矩阵和细胞比例向量;

30、结果输出模块,用于将所述细胞类型表达矩阵和所述细胞比例向量输入到训练完成的条件生成模型中,生成单细胞表达矩阵,并输出。

31、本发明第三方面提供一种终端,所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种基于反卷积的转录测序数据处理程序,所述一种基于反卷积的转录测序数据处理程序被所述处理器执行时实现任意一项所述一种基于反卷积的转录测序数据处理方法的步骤。

32、本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有一种基于反卷积的转录测序数据处理程序,所述一种基于反卷积的转录测序数据处理程序被处理器执行时实现任意一项所述一种基于反卷积的转录测序数据处理方法的步骤。

33、由上可见,本发明方案中,获取待处理的批量转录组测序数据;将所述批量转录组测序数据输入到训练完成的生成对抗网络中,输出细胞类型表达矩阵和细胞比例向量;将所述细胞类型表达矩阵和所述细胞比例向量输入到训练完成的条件生成模型中,生成单细胞表达矩阵,并输出;其中,根据单细胞转录组测序数据生成伪批量转录组测序数据,根据所述伪批量转录组测序数据训练所述生成对抗网络。

34、与现有技术相比,现有技术中由于不同肿瘤在细胞组成和基因表达上存在较高的异质性,导致无法从批量转录组测序数据中提取出方便于研究的单细胞基因表达矩阵的问题,本发明利用现有的单细胞转录组测序数据去训练生成对抗网络,使得训练完成的生成对抗网络可以处理海量批量转录组测序数据,再同样利用现有的单细胞转录组测序数据去训练条件生成模型,从而可以从批量转录组测序数据中分解出与单细胞测序方法粒度相同、且基因表达量近似的单细胞表达矩阵,从而方便相应的研究人员从异质性较大的批量转录组测序数据中提取出需要的单细胞表达矩阵,进而可以得到较为真实准确的肿瘤与其他免疫浸润细胞类型的基因表达矩阵与比例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1