一种单细胞转录组细胞碎片和多细胞过滤方法、介质和设备与流程

文档序号:35578115发布日期:2023-09-26 22:06阅读:54来源:国知局
一种单细胞转录组细胞碎片和多细胞过滤方法、介质和设备与流程

本发明涉及涉及生物数据处理方法,尤其涉及一种单细胞转录组细胞碎片和多细胞过滤方法、介质和设备。


背景技术:

1、基于微流控技术的单细胞转录组测序能够在单个实验中对数万个细胞的基因表达进行量化。其主要是基于序列标签来识别单细胞,其核心技术是给每个细胞添加一个独特的序列标签,在测序时把携带相同标签的核酸序列视为来自同一个细胞。10x genomics单细胞转录组测序平台为目前应用广泛的一种技术,该平台利用微流控、油滴包裹和barcode标签等技术来实现高通量的细胞分选与捕获,能够一次性分离、并标记500至数万个单细胞,测序后可获得每个细胞的转录组信息,具有细胞通量高、建库成本低、捕获周期短等优势。

2、典型的单细胞转录组测序实验流程如下,首先制备细胞悬浮液,在相应的平台仪器上利用微流控芯片将细胞悬浮液与磁珠混合,并用油滴包裹。每个微珠带有独特的核苷酸序列,即barcode标签,可以对单个细胞进行标记。而每条barcode标签还连有一段由核苷酸序列组成的分子标识符(unique molecular identifier,umi),每个umi可以标记一个mrna转录本。经过逆转录、pcr扩增、生成文库和测序,在测序数据中,根据barcode标签和umi标记,即可确定结果中每条序列是否来自于同一个细胞、同一个mrna,这一方法可以减少 pcr 对不同分子的偏好影响。通过匹配和计数barcode和umi,汇总基因表达信息在计数矩阵中,由此获得单个细胞的转录组表达谱。

3、单细胞实验往往基于对生物组织的解离、破碎来批量获得单细胞,这往往会带来许多细胞碎片或者导致细胞凋亡。基于液滴的单细胞转录组技术也存在两个或两个以上细胞(或者完整细胞+细胞碎片)形成一个液滴的情况。在单细胞转录组数据中会包含数十万乃至上百万个液滴的信息,但液滴中的barcode不会自动识别液滴是否包含细胞,或者,所含细胞是否为细胞碎片或死/濒死细胞或多细胞,即无法自动判定所含细胞质量高低。细胞质量的高低很大程度上会影响后续分析中的结果,所以在数据分析前需要对barcode所代表的液滴类型进行判断。10x genomics官方的软件cellranger仅能判定barcode是否为空液滴,无法识别细胞质量,这可能导致单细胞转录组分析结果与实际情况存在较大偏差,甚至在生物学意义上得到相反结果。目前还未有系统鉴定低质量细胞及过滤细胞的方法。


技术实现思路

1、为了解决背景技术中提到的至少一个技术问题,本发明的目的在于提供一种单细胞转录组低质量细胞过滤方法、介质和设备,鉴定单细胞转录组数据中的低质量细胞并将之过滤,提高了单细胞转录组数据的过滤标准和精准度,增强了数据的可靠性。

2、为实现上述目的,本发明提供如下技术方案:

3、一种单细胞转录组低质量细胞过滤方法,包括以下步骤:

4、s101,基于真实细胞表达谱,对细胞进行分群;

5、s1041,将每个细胞群的细胞表达谱,按基因取表达量平均值,生成每一细胞群的特征表达谱;

6、s1042,将所述细胞群的特征表达谱随机两两组合,生成一定数量的人工多细胞;

7、s1043,合并所述人工多细胞表达谱和真实细胞表达谱,计算每个细胞间的距离;

8、s1044,在规定范围内设置若干等距的邻域,计算每个邻域下,每个真实细胞在邻域内的人工多细胞比例;

9、s1045,统计每个邻域下的人工多细胞比例分布,求其双峰系数,并以双峰系数最大的邻域为最优邻域;

10、s1046,在最优邻域下,将人工多细胞比例最大的规定数量的真实细胞认定为多细胞,将其从真实细胞表达谱中删除。

11、进一步的,所述特征表达谱的两两组合的方法为:

12、y=a1*x1+a2*x2

13、其中,y为生成的人工多细胞,x1、x2为细胞群的特征表达谱;a1、a2为比例系数,a1、a2之一设为1,另一个设为大于0小于1的随机值。

14、进一步的,所述细胞间的距离为欧氏距离或曼哈顿距离。

15、进一步的,所述人工多细胞比例为:人工多细胞的数量与合并后的表达谱位于该邻域内的总细胞数的比值。

16、进一步的,所述双峰系数为:

17、

18、其中,为双峰系数;和分别为人工多细胞比例分布的偏度和峰度;为真实细胞数。

19、进一步的,所述规定数量的确定方法如下:设置多细胞率,以真实细胞数与所述多细胞率的乘积为认定为多细胞的真实细胞的规定数量。

20、进一步的,所述s1044中,邻域的设置如下:在0.0001~0.01范围内设置100个等距的邻域。

21、一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的单细胞转录组低质量细胞过滤方法。

22、一种终端设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的单细胞转录组低质量细胞过滤方法。

23、与现有技术相比,本发明的有益效果是:本发明能够通过生成一定量的人工多细胞,并针对设置好的每一邻域,统计每个真实细胞在邻域内的人工多细胞比例分布,确定最优邻域,然后在最优邻域下,将人工多细胞比例最大的若干个真实细胞认定为多细胞,从真实细胞表达谱中删除该多细胞(低质量细胞),从而提高了单细胞转录组数据的过滤标准和精准度,增强了数据的可靠性。



技术特征:

1.一种单细胞转录组细胞碎片和多细胞过滤方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种单细胞转录组细胞碎片和多细胞过滤方法,其特征在于,所述特征表达谱的两两组合的方法为:

3.根据权利要求1所述的一种单细胞转录组细胞碎片和多细胞过滤方法,其特征在于,所述细胞间的距离为欧氏距离或曼哈顿距离。

4.根据权利要求1所述的一种单细胞转录组细胞碎片和多细胞过滤方法,其特征在于,所述人工多细胞比例为:人工多细胞的数量与合并后的表达谱位于该邻域内的总细胞数的比值。

5.根据权利要求1所述的一种单细胞转录组细胞碎片和多细胞过滤方法,其特征在于,所述规定数量的确定方法如下:设置多细胞率,以真实细胞数与所述多细胞率的乘积为认定为多细胞的真实细胞的规定数量。

6.根据权利要求1所述的一种单细胞转录组细胞碎片和多细胞过滤方法,其特征在于,所述s1044中,邻域的设置如下:在0.0001~0.01范围内设置100个等距的邻域。

7.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6任意一项所述的单细胞转录组细胞碎片和多细胞过滤方法。

8.一种终端设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的单细胞转录组细胞碎片和多细胞过滤方法。


技术总结
本发明公开了一种单细胞转录组低质量细胞过滤方法,涉及涉及生物数据处理方法。包括以下步骤:对细胞进行分群;按基因取表达量平均值,生成细胞群的特征表达谱;将所述细胞群的特征表达谱随机两两组合,生成人工多细胞;合并所述人工多细胞表达谱和真实细胞表达谱,计算每个细胞间的距离;在规定范围内设置若干等距的邻域,计算每个邻域下,每个真实细胞在邻域内的人工多细胞比例;统计每个邻域下的人工多细胞比例分布,求其双峰系数,并以双峰系数最大的邻域为最优邻域;在最优邻域下,将人工多细胞比例最大的规定数量的真实细胞认定为多细胞,将其从真实细胞表达谱中删除。提高了单细胞转录组数据的过滤标准和精准度,增强了数据的可靠性。

技术研发人员:陈哲名,郎秋蕾,韩斐然
受保护的技术使用者:杭州联川生物技术股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1