一种可解释的基于基因选择的细胞数据分析方法与流程

文档序号:35682976发布日期:2023-10-08 22:49阅读:54来源:国知局
一种可解释的基于基因选择的细胞数据分析方法与流程

本发明属于单细胞rna序列分析领域,具体涉及一种可解释的基于基因选择的细胞数据分析方法。


背景技术:

1、单细胞rna测序(sc-rna seq)的兴起,使得在分子水平上能够检测细胞类型,其在分析糖尿病、阿尔兹海默病和癌症的病理学中发挥了独特的作用,包括揭示患病组织中基因表达的动态,剖析高度异质细胞的功能或功能障碍,以及分析癌细胞的演变和转移。而聚类是sc-rna seq分析中的关键步骤,可以识别隐藏的细胞亚型,推断细胞的拓扑排列,描述复杂疾病中的细胞异质性。然而,由于细胞rna序列数据维度极高,具有大量噪声,同时具有复杂的数据结构和属性,这大大增加了聚类的难度。

2、现有的单细胞rna序列分析技术多有缺陷。由于数据具有复杂的空间分布,巨大的噪声和测量误差,seurat方法(一种分析单细胞转录组的方法)和sc3(single cellconsensus clustering,单细胞一致性聚类)方法,难以实现高于80%的聚类精度。而基于深度学习的聚类方法,由于其具有极强的表示性而显著提高了聚类精度,但其问题依然存在。其一,深度学习是黑箱模型,其操作的可解释性较差。其二,深度学习通过梯度下降训练大量的参数用于数据的良好表示,这一过程非常耗时。其三,深度学习需要针对不同规模,不同类型的细胞设计网络的结构和超参数,这限制了深度学习框架的可扩展性。


技术实现思路

1、为解决现有技术的不足,实现提高基因聚类精度,更准确的度量细胞间相似度,提升序列分析的可解释性、计算效率和可扩展性的目的,本发明采用如下的技术方案:

2、一种可解释的基于基因选择的细胞数据分析方法,包括如下步骤:

3、步骤一,通过基因选择,得到一组细胞数据;具体地,根据基因最值和方差初步选择基因;

4、步骤二,通过计算细胞间序距离,并基于序距离构造细胞数据的邻接矩阵;

5、步骤三,通过邻接矩阵计算分类伪标签,并基于基因与伪标签的同质性进行进一步基因选择;

6、步骤四,为进一步基因选择的细胞数据计算细胞孤立系数,并基于孤立系数去除异常细胞;

7、步骤五,将去除异常的细胞数据,通过序距离构建的无向图转化出新的邻接矩阵,新的邻接矩阵基于无向图中的连通分支计算出分类标签,同类标签再次构建无向图,并计算前后无向图的一致性,基于一致性得到细胞类数;

8、步骤六,根据细胞类数和稀疏邻接矩阵对细胞进行聚类,得到聚类结果。

9、进一步地,所述步骤二中,根据两个细胞的序距离及其他细胞分别与两个细胞的序距离比,构建邻接矩阵。

10、进一步地,所述步骤三包括如下步骤:

11、步骤3.1,计算邻接矩阵的正规化矩阵,并对正规化矩阵进行特征值分解;

12、步骤3.2,基于最大的一组特征值对应的特征向量,构建谱投影;

13、步骤3.3,对谱投影的行向量进行分类,得到对应的伪标签;

14、步骤3.4,获取细胞数据中基因对应的行向量,计算行向量关于伪标签的量子化;

15、步骤3.5,计算量子化的基因与伪标签的同质性,得到细胞数据关于伪标签的互信息;

16、步骤3.6,基于互信息对应的基因,得到进一步基因选择的细胞数据。

17、根据步骤三的方法进行进一步的基因选择,能够选择几乎所有的类指示基因。

18、进一步地,所述步骤四包括如下步骤:

19、步骤4.1,为进一步基因选择的细胞数据构建距离矩阵;

20、步骤4.2,基于距离矩阵中,与细胞距离最近的一组细胞对应的元素,计算细胞的紧密系数;

21、步骤4.3,将紧密系数最小的一组细胞作为异常细胞并移除。

22、进一步地,所述步骤五包括如下步骤:

23、步骤5.1,在去除异常的细胞数据中,将细胞作为顶点,基于序距离进行顶点连接,构建第一无向图,并将第一无向图转化为第一图邻接矩阵;基因选择和异常细胞处理后,构造的系数邻接矩阵具有更准确、更强的类内连接,和更稀疏、更弱的类间连接;

24、步骤5.2,寻找无向图的所有连通分量,满足连通分量内顶点之间存在一条连接路径,且连通分量间不存在任何边;

25、步骤5.3,计算第一图邻接矩阵的正规化矩阵,并对正规化矩阵进行特征值分解;

26、步骤5.4,基于连通分量个数设定最大的一组特征值,通过特征值对应的特征向量,构建谱投影;

27、步骤5.5,对谱投影的行向量进行分类,得到对应的标签;

28、步骤5.6,对于标签对应的同类细胞,建立顶点连接,构建第二无向图,并将第二无向图转化为第二图邻接矩阵;

29、步骤5.7,获取第一无向图和第二无向图的一致性;

30、步骤5.8,基于标签对应的所述一致性,以及标签对应的分类数,选取聚类类数,得到细胞类数。

31、进一步地,所述细胞间序距离的计算如下:

32、通过基因表达水平对细胞进行排列,基于排列后的位置,计算细胞间的相关性,根据相关性构建细胞数据的距离矩阵;

33、确定两个细胞的间距,从两个细胞周围,分别获取距离小于间距的细胞数,将少的细胞数作为两个细胞间的序距离。相比于传统的欧氏距离或斯皮尔曼spearman距离,序距离更准确表达了细胞的高维分布,为后续分析过程奠定坚实基础。

34、进一步地,基于其他细胞分别与两个细胞的序距离对邻接矩阵稀疏化。构造的稀疏邻接矩阵具有弱类间连接和强类内连接。

35、进一步地,所述步骤六中,根据聚类结果和稀疏邻接矩阵对细胞数据得到不同分辨率的可视化;

36、所述方法还包括步骤七,根据聚类结果与可视化结果,选取不同分辨率下不同类型细胞的标记基因。

37、进一步地,所述步骤六中,设定细胞数据的初始二维可视化样本,并定义样本间有理相似度,基于有理相似度定义样本与所述邻接矩阵间引力散度、斥力散度,并将可视化目标优化问题转化为同时最小化引力散度和斥力散度,采用梯度下降优化样本,选择所述新的邻接矩阵,求解可视化目标优化问题得到低分辨率可视化结果,对新的邻接矩阵稀疏化,进而求解可视化目标优化问题得到高分辨率可视化结果。

38、进一步地,所述步骤七包括如下步骤:

39、步骤7.1,对于聚类结果中某类细胞的标记基因,分别计算初步基因选择后并去除异常细胞的数据集在该类和其他类别上某个基因的均值与方差,基于均值与方差计算该基因与聚类结果单变量方差分析的p值,选取一组最大的p值对应的基因为最终选取的该类细胞的标记基因;

40、步骤7.2,针对高分辨率可视化结果,计算样本间距离矩阵;

41、步骤7.3,构造高分辨率无向图,图中每一个顶点对应可视化结果中的一个行向量,即对应一个细胞的二维投影,两个顶点间边的连接根据样本间距离阈值设定,定义无向图的连通分量满足连通分量内顶点之间存在一条连接路径,且连通分量间不存在任何边,寻找无向图的所有连通分量结果;

42、步骤7.4,将连通分量结果作为聚类结果,选取该聚类结果中某类细胞的标记基因,分别计算初步基因选择后并去除异常细胞的数据集在该类和其他类别上某个基因的均值与方差,基于均值与方差计算该基因与聚类结果单变量方差分析的p值,选取一组最大的p值对应的基因为最终选取的该类细胞的标记基因,得到高分辨率下不同类型细胞的标记基因。

43、本发明的优势和有益效果在于:

44、相比于传统方法,本发明能够筛选出有利于得到更准确聚类结果的基因并更准确的度量细胞之间的相似度,实现具有明显优势的高精度单细胞rna序列数据聚类以及更能反映数据结构的数据可视化方法;相比于近年兴起的深度学习方法,本发明提供了具有可解释性,计算快速简单,可扩展性优异的分析框架;本发明能够在多种类型的单细胞rna序列数据集上,实现简单,快速,准确的种类识别和可视化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1