一种流式数据细胞亚群快速自动识别方法

文档序号:6637290阅读:640来源:国知局
一种流式数据细胞亚群快速自动识别方法
【专利摘要】本发明公开了一种流式细胞仪数据(简称流式数据)细胞亚群快速自动识别方法。本发明方法通过映射流式数据到矩阵并对矩阵的位置点进行分类实现细胞亚群自动识别,其具体过程为:首先根据流式数据二维分析方式,将数据投影到一个128*128的矩阵中,获得数据的初始化矩阵;然后采用循环求最大值的方法对矩阵的位置点进行分类,最后将位置点分类结果映射回原始数据得到最终细胞亚群分类结果。本发明能够对流式数据中的细胞亚群快速识别,提高数据分析效率,避免人为主观因素对分析结果产生的影响。该发明方法识别流式数据细胞亚群的结果准确,分析时间短,分析效率高,可应用到目前流式数据自动分析中。
【专利说明】一种流式数据细胞亚群快速自动识别方法

【技术领域】
[0001] 本发明涉及流式数据自动分析技术,尤其是涉及流式数据中细胞亚群的快速识别 方法。 技术背景
[0002] 流式细胞术是一种能够精确、快速地对生物细胞的理化特性和生物学特性进行多 参数定量分析及对特定细胞群分选的技术。其原理是采用微米级激光光束对经过流体动力 学聚焦的细胞进行逐个激发,完整收集并记录每个细胞诱导得到的多角度散射光与多波长 标记荧光信号,并通过对细胞群多光学通道数据的聚类分析实现样本的高精度定量检测。 通常,单个细胞诱导得到的散射光和荧光信号以单个事件的形式被记录,所有事件汇集成 被测细胞群的完整流式数据。当前流式数据分析的主要方法是将每个事件投影至二维域 中,以人工设门的方式进行分析。人工设门的主要过程是对流式数据中的细胞亚群进行类 群划分,即将属于同类的细胞亚群通过设定区域(门)的方式归为一类。
[0003] 常见的流式细胞仪数据类群自动识别方法,比如基于混合模型的方法,虽然计算 准确度比较高,但分析的时间通常较长,分析效率低。目前比较先进的基于偏斜t混合模型 的分析方法能够比较准确地识别数据中的细胞亚群,但是当分析的数据量达到万级时,其 计算时间通常超过了人工分析数据时间。另一种数据聚类方法是谱聚类方法,由于该方法 是基于矩阵乘积的方式进行结果估计,因此在样本量较大时,其计算时间非常长。针对该问 题,目前提出的一种修正谱聚类方法,该方法一定程度上解决了样本量大造成的计算时间 长的问题,但由于对数据进行了预先处理,数据中包含的一部分生物信息可能在处理过程 中丢失。另外,当分析的数据中事件数达到万级时,该方法的计算时间也远远超过人工分析 数据时间。


【发明内容】

[0004] 本发明的目的是通过计算机软件准确对流式数据细胞亚群进行快速自动分析,得 到数据中包含的样本信息,包括样本中的亚群数目和各细胞亚群总数。
[0005] 本发明流式数据细胞亚群快速自动识别方法,具体步骤如下:
[0006] (1)将数据压缩到一个128*128的矩阵中,获得压缩后数据分布状态矩阵Mat和数 据压缩如后对应关系列表L ;
[0007] (2)采用循环求最大值方法对128*128矩阵Mat位置点进行分群;
[0008] (3)将矩阵位置点的分群结果按照压缩前后对应关系列表,映射回原始数据,得到 原始数据的分类结果,实现对原始数据细胞亚群的自动识别。
[0009] 在获得标准的128*128矩阵后,为实现对矩阵的位置点进行分群,本发明提出了 循环寻找最大值方法。其具体实施过程为:
[0010] (1)求矩阵中的最大值所对应的位置点,并记录该位置为P [x,y];
[0011] (2)如果⑴中得到的位置点为第一次循环得到的点,则申请该数据样本的第一 个亚群S1,并将该位置点归类到S1亚群,否则,进行过程(3)。
[0012] (3)将⑴中得到的位置点P[x,y]与之前已记录的所有位置点进行比较。如果 P[X,y]离之前所有的位置点都较远,则新申请一个亚群Si (已存在亚群S1, S2,…Sg)并将 p[x,y]归类到亚群Si,否则将p[x,y]归类到已申请的所有亚群中距离最近的亚群。
[0013] (4)令P [X,y]对应的值为0,回到过程(1),直到矩阵中的所有位置对应的值为0, 即 Mat = 0。
[0014] 通过以上步骤,可以得到标准矩阵位置点的分群结果S(包含群51,S2,…),为获 得原始数据的亚群分布情况,本发明提出了在压缩数据时记录每一个原始数据对应压缩数 据的关系列表L,并在得到矩阵位置点的分群结果S后,按照此对应关系L返回原始数据,从 而得到原始数据的亚群分类结果。
[0015] 本发明方法能够快速地对流式数据亚群进行自动识别,得到数据中样本的相关信 息。本方法中对数据中样本类群信息的分析结果准确度较高,分析时间远远低于人工分析 方法及其他分析方法。由于本发明方法涉及到数据的自动聚类,能够广泛地应用到模式识 另IJ、图像处理等领域。
[0016] 本发明提出了一种快速自动识别流式数据亚群方法,该方法能够快速得到数据中 样本的分类信息。该分析方法分析流式数据的结果精确度高,时间较短。

【专利附图】

【附图说明】
[0017] 图Ia和Ib是待分析的流式细胞仪数据;
[0018] 图Ib是采用人工分析方法分类的结果;
[0019] 图2是采用本发明方法压缩数据后的分群结果;
[0020] 图3是本发明方法将压缩数据映射回原始数据的结果;
[0021] 图4是采用预抽样谱聚类方法对数据分析的结果;
[0022] 图5是采用偏斜t混合模型分析的结果;
[0023] 图6是本发明方法的流程图。

【具体实施方式】
[0024] 如图Ia是实验数据在SSC和⑶45维度的投影。人工分析该数据是通过画门的方 法划分散点图中的细胞亚群。如图Ib是专家采用FloMax软件划分的细胞亚群结果,由结 果来看,样本中包含了四个细胞亚群,R1-R4区域分别代表了淋巴细胞亚群、单核细胞亚群、 粒细胞亚群和死细胞。
[0025] 如图2是采用本发明方法将数据压缩至128*128矩阵并采用循环最大值方法对矩 阵位置点进行分群后的结果。其具体实施过程为:
[0026] (1)找出矩阵Mat的最大值所对应的位置?^^」,并申请类群S1,且P m e S1^ 令 Pm = 〇 ;
[0027] (2)再次寻找Mat最大值的位置并计算Pi与已分群的所有点之间的距 离,如果其中任意一点Pn与Pi的距离小于阈值(默认为8,实际中可根据流式数据的特点进 行微调),则将Pi归类到点Pn所属的类群,并令Pi = 〇,然后再次寻找Mat最大值,直到Mat =0。如果Pi与已分群的所有点距离都大于阈值,则新申请一个类群&,并令Pi e &且卩1 =〇,然后再次寻找Mat最大值,直到Mat = 0.
[0028] 图3是将图2中分群后的结果根据压缩映射列表L (列表L部分内容见表3,其中, 类群表示每一个事件分类后所属类群),将结果映射回原始数据的分类结果。
[0029] 由结果可知,本发明方法分析的结果与专家分析结果一致。
[0030] 另外,图4和图5分别是采用预抽样谱聚类方法和偏斜t混合模型分析该数据的 结果。
[0031] 表一为以上三种方法的分类误判率结果比较。表二为以上三种方法的分析时间比 较,其中人工分析该数据的时间约为21s,由结果可知,本发明设计的方法不仅误判率最低, 最接近专家分析的结果,而且分析时间远远低于人工分析方法和其他分析方法。
[0032] 本发明方法在一台配置3. 2GHz CPU和2G内存的PC上,采用C++语言编程实现。 程序的流程框图见图6。
[0033] 表一不同方法的误判率比较

【权利要求】
1. 一种流式数据细胞亚群快速自动识别方法,其特征在于,按照下述步骤进行: (1) 将数据压缩到一个128*128的矩阵中,获得压缩后数据分布状态矩阵和数据压缩 如后对应关系列表; (2) 采用循环求最大值方法对128*128矩阵位置点进行分类; (3) 将矩阵位置点的分类结果按照压缩前后对应关系列表,映射回原始数据,得到原始 数据的分类结果,实现对原始数据细胞亚群的自动识别。
2. 如权利要求1所述的流式数据细胞亚群快速自动识别方法,其特征在于,步骤⑵采 用的循环最大值方法对矩阵的位置点进行分类过程为: (a) 求矩阵中的最大值所对应的位置点,并记录该位置; (b) 如果(a)中得到的位置点为第一次循环得到的点,则将该位置点定为第一个细胞 亚群的位置点,否则,进行过程(c); (c) 将(a)中得到的位置点与之前已记录的所有位置点进行比较;如果(a)中得到的 位置点离之前所有的位置点都较远,则令(a)中得到的位置点为新的一个细胞亚群所在位 置点,否则将(a)得到的位置点归类到前面记录的位置点中距离最小的亚群中; (d) 令(a)中记录的位置点对应的值为0,回到过程(a),直到矩阵中的所有位置对应的 值为〇。
【文档编号】G06K9/64GK104361360SQ201410728956
【公开日】2015年2月18日 申请日期:2014年12月3日 优先权日:2014年12月3日
【发明者】王先文, 陈锋, 程智, 杜耀华, 李辰宇, 暴洪涛, 吴太虎 申请人:中国人民解放军军事医学科学院卫生装备研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1