一种基于URD的细胞轨迹分析方法

文档序号:37280380发布日期:2024-03-12 21:18阅读:13来源:国知局
一种基于URD的细胞轨迹分析方法

本发明涉及细胞轨迹分析,尤其涉及一种基于urd的细胞轨迹分析方法。


背景技术:

1、细胞轨迹分析通过构建细胞间的变化轨迹来重塑细胞随着时间的变化过程,帮助人们从单细胞水平推断细胞之间的演化及分化过程,挖掘一些稀少的中间状态细胞,解析细胞分化过程中的起调控作用的关键基因,在发育生物学中细胞分化、谱系发育和肿瘤/疾病微环境中免疫细胞的动态变化等研究中均有广泛应用。

2、monocle是目前使用率比较高的一款r语言集成包,提供了基于基因表达量的动态变化的算法来构建细胞轨迹。monocle2利用反向图嵌入(reversed graph embedding)算法从单细胞数据中学习显式的主图(monocle2使用ddtree降维图)来对细胞进行排序,并根据上述降维图形,学习描述细胞如何从一种状态过渡到另一种状态的轨迹。

3、urd是一种基于模拟扩散映射(diffusion map)的计算重建方法,其使用离散随机游走和图搜索来近似连续的扩散过程。此外,urd引入了一种在拟时序(一种反映其发育进程而非绝对时间的排序,以补偿发育的不同步)中对细胞进行排序的新思路,其原理是将空间距离转换为一种状态转移的概率,从而确定随机游走的方向,进而确定细胞发育轨迹。

4、在urd方法中,其采用的有偏随机游走策略由于具有随机性,造成在整个扩散过程中存在未被遍历到的点,最终导致在构建发育树时,无法给未被遍历到的细胞分配segment。


技术实现思路

1、本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于urd的细胞轨迹分析算法,以urd为基础,基于吸收马尔可夫链改进有偏随机游走策略,实现细胞轨迹的分析。

2、为解决上述技术问题,本发明所采取的技术方案是:一种基于urd的细胞轨迹分析方法,包括以下步骤:

3、步骤1:基于urd对所有细胞进行拟时序的计算和排序;

4、步骤1.1:根据已知的基因表达信息,对所有细胞使用knn算法构建一个k近邻网络,计算细胞之间的欧式距离,从而得到细胞之间的距离矩阵d;

5、步骤1.2:将细胞之间的距离矩阵d通过核函数转化为转移概率矩阵m,并通过对转移概率矩阵进行特征分解计算出细胞扩散图;

6、步骤1.3:采用概率广度优先搜索对细胞扩散图中细胞结点进行遍历,计算每个细胞结点的拟时序;

7、以细胞扩散图中构成根部结点的细胞为初始点v0,将初始点v0标记为“已访问”,其它细胞vi,i=1,...,c-1标记为“未访问”,其中c为细胞结点的个数;在扩散图上迭代执行概率广度优先搜索过程实现对细胞结点的遍历,直至扩散图上所有的结点都被访问过为止;

8、在遍历扩散图中细胞结点时,随着层次的扩展,通过计算访问结点所需的跳数得到每个细胞结点的拟时序,从而确定每个细胞结点与根部结点的距离;

9、步骤1.4:对所有访问到细胞的拟时序进行排序;

10、步骤2:基于吸收马尔可夫链在细胞回溯过程中进行有偏扩散,包括:

11、步骤2.1:根据分化末端细胞状态通过细胞聚类或注释结果确定末端细胞群;

12、步骤2.2:在扩散图中,通过末端结点细胞到根结点细胞的回溯确定细胞分化轨迹及分化过程中的分支点;

13、经过拟时序排序,将转移概率矩阵m处理为有向的转移概率矩阵w,用于绘制细胞轨迹图;

14、有向转移概率矩阵w中的元素如下公式所示:

15、

16、其中,mij是转移概率矩阵m的元素,wij是有向转移概率矩阵w的元素,ui、uj是细胞结点i和j的拟时序,δ为超参数;

17、步骤2.3:根据马尔可夫特性,将有向转移概率矩阵w转换为马尔可夫矩阵t;

18、马尔可夫矩阵t中的元素如下公式所示:

19、

20、其中,矩阵w中的元素wij表示细胞之间的亲和度,∑kwik代表该细胞结点的度数,k是指扩散图中与细胞结点i相连结点的个数,tij是马尔可夫矩阵t的元素;

21、步骤2.4:计算细胞扩散图中末端结点细胞到每个细胞的概率矩阵;

22、根据吸收马尔可夫链特性,使用公式将根结点细胞设为吸收状态,即没有出度;此时的马尔可夫矩阵t用分块矩阵表示,其中,q表示非吸收状态结点之间的转移概率;r表示非吸收状态结点到吸收状态结点的转移概率;i为单位矩阵;则细胞扩散图中末端结点细胞到每个细胞的概率矩阵

23、

24、步骤2.5:获取每个末端细胞簇对所有细胞的平均访问次数pcsj,如下公式所示:

25、pcsj=meani(pij),i∈terms

26、其中,terms是末端细胞簇的集合,s是terms中细胞簇的个数,pij是矩阵p的元素,meani是均值函数;

27、步骤2.6:将末端细胞簇对所有细胞的平均访问次数用于确定细胞的分支结点,进而生成游走轨迹的树状结构;

28、步骤3:估计树状结构中细胞分化轨迹上的分支结点;

29、步骤3.1:将当前得到的每个末端细胞簇到根结点细胞的轨迹看作独立的分化轨迹,沿拟时序排序采用滑动窗口k-s检验,计算两条分化轨迹上细胞结点的访问频率的差异;

30、步骤3.2:若两条轨迹上细胞结点的访问频率存在显著差异,即dn≥q,q是在α置信度下的临界值,则认为当前窗口所在位置即为两条分化轨迹的分支点;

31、步骤3.3:依次对每条轨迹检验分支点,若存在分支点,则将两条分化轨迹合并,并将两条分化轨迹的细胞访问频率的均值作为合并后的分化轨迹处的细胞访问频率,最终沿着拟时序顺序形成树结构形态的分化轨迹。

32、采用上述技术方案所产生的有益效果在于:本发明提供的一种基于urd的细胞轨迹分析方法,与urd相比,耗时低、运行效率更高,在估计分支点并确定分化轨迹的回溯阶段,优化后的有偏扩散算法能够增加细胞的覆盖量、构建更完整的发育树并且更加深入地探索细胞在发育过程中的分化路径。



技术特征:

1.一种基于urd的细胞轨迹分析方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于urd的细胞轨迹分析方法,其特征在于:所述步骤1的具体方法为:

3.根据权利要求2所述的一种基于urd的细胞轨迹分析方法,其特征在于:所述步骤1.3的具体方法为:

4.根据权利要求3所述的一种基于urd的细胞轨迹分析方法,其特征在于:所述步骤2的具体方法为:

5.根据权利要求4所述的一种基于urd的细胞轨迹分析方法,其特征在于:步骤2.2所述有向的转移概率矩阵w中的元素如下公式所示:

6.根据权利要求5所述的一种基于urd的细胞轨迹分析方法,其特征在于:步骤2.3所述马尔可夫矩阵t中的元素如下公式所示:

7.根据权利要求6所述的一种基于urd的细胞轨迹分析方法,其特征在于:所述步骤2.4的具体方法为:

8.根据权利要求7所述的一种基于urd的细胞轨迹分析方法,其特征在于:步骤2.5所述每个末端细胞簇对所有细胞的平均访问次数:

9.根据权利要求8所述的一种基于urd的细胞轨迹分析方法,其特征在于:所述步骤3的具体方法为:


技术总结
本发明提供一种基于URD的细胞轨迹分析方法,涉及细胞轨迹分析技术领域。该方法首先根据已知的基因表达信息得到细胞之间的距离矩阵,并将距离矩阵转化为转移概率矩阵,进而计算出细胞扩散图;再以细胞扩散图中构成根部结点的细胞为初始点,基于吸收马尔可夫链在细胞回溯过程中进行有偏扩散,生成游走轨迹的树状结构;最后估计树状结构中细胞分化轨迹上的分支结点,沿着拟时序顺序形成树结构形态的分化轨迹。该方法在估计分支点并确定分化轨迹的回溯阶段,优化后的有偏扩散算法能够增加细胞的覆盖量、构建更完整的发育树并且更加深入地探索细胞在发育过程中的分化路径,与URD相比,耗时低、运行效率更高。

技术研发人员:栗伟,马乾益,王林洁
受保护的技术使用者:东北大学
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1