流式细胞仪数据快速分析方法

文档序号:6626584阅读:2077来源:国知局
流式细胞仪数据快速分析方法
【专利摘要】本发明公开了一种流式细胞仪数据快速分析方法。本发明包括以下步骤:(1)采用核密度估计方法对流式细胞仪数据中的类群数目进行估计,得到数据中包含的类群数目范围;(2)获得类群数目后,采用优化初始聚类中心的K-means方法对数据进行自动聚类;(3)对聚类后的结果,采用两段线性回归拟合方法合并筛选最优结果。该分析方法分析流式细胞仪数据的结果精确度高,分析时间远远低于人工分析数据时间及目前其他分析方法。
【专利说明】流式细胞仪数据快速分析方法

【技术领域】
[0001]本发明涉及流式细胞仪数据自动分析技术,尤其是涉及流式细胞仪数据的快速聚类算法。

【背景技术】
[0002]流式细胞术是一种能够精确、快速地对生物细胞的理化特性和生物学特性进行多参数定量分析及对特定细胞群分选的技术。其原理是采用微米级激光光束对经过流体动力学聚焦的细胞进行逐个激发,完整收集并记录每个细胞诱导得到的多角度散射光与多波长标记荧光信号,并通过对细胞群多光学通道数据的聚类分析实现样本的高精度定量检测。通常,单个细胞诱导得到的散射光和荧光信号以单个事件的形式被记录,所有事件汇集成被测细胞群的完整流式细胞仪数据。当前流式细胞仪数据分析的主要方法是将每个事件投影至二维或三维域中,以人工设门的方式进行分析。随着流式细胞术向着多激光、高通量方向发展,流式细胞仪数据量成倍增加,传统人工分析数据方法已不能满足快速分析的需求,数据的快速自动分析成为流式细胞术未来发展的主要方向。
[0003]常见的流式细胞仪数据聚类算法,比如基于混合模型算法,虽然计算准确度较高,但分析的时间通常较长。目前比较先进的基于偏斜t混合模型的聚类算法能够比较准确地分析流式数据,但是当分析的数据量达到万级时,其计算时间通常超过了人工分析数据时间。另一种数据聚类方法是谱聚类方法,由于该方法是基于矩阵乘积的方式进行结果估计,因此在样本量较大时,其计算时间非常长。针对该问题,目前提出的一种预抽样谱聚类算法,该方法解决了样本量大造成的计算时间长的问题,但由于对数据进行了预先处理,数据中包含的一部分生物信息可能在处理过程中丢失。另外,当分析的数据中事件数达到万级时,该方法的计算时间也远远超过人工分析数据时间。


【发明内容】

[0004]本发明所要解决的技术问题,克服上述现有技术中存在的不足,提供一种通过计算机软件算法,准确对流式细胞仪数据进行快速自动分析,得到数据中包含的样本信息,包括样本类群数目和各类群总数。
[0005]本发明结合了流式细胞仪数据的特点,提出了一种快速自动分析标准流式细胞仪数据方法,该方法能够快速得到数据中样本的分类信息。该分析方法分析流式细胞仪数据的结果精确度高,分析时间远远低于人工分析数据时间及目前其他分析方法。
[0006]具体处理技术方案如下:
[0007]流式细胞仪数据快速分析方法,包括以下步骤:
[0008](I)采用核密度估计方法对流式细胞仪数据中的类群数目进行估计,得到数据中包含的类群数目范围;
[0009](2)获得类群数目后,采用优化初始聚类中心的K-means方法对数据进行自动聚类;
[0010](3)对聚类后的结果,采用两段线性回归拟合方法合并筛选最优结果。
[0011]为得到初始类群数目范围,本发明提出了核密度估计方法。设X1, X2,…,XnSd维独立同分布的样本,且其密度函数为f,则的核密度估计可表示为
[0012]

【权利要求】
1.一种流式细胞仪数据快速分析方法,其特征在于,按照以下步骤进行: (1)采用核密度估计方法对流式细胞仪数据中的类群数目进行估计,得到数据中包含的类群数目范围; (2)获得类群数目后,采用优化初始聚类中心的K-means方法对数据进行自动聚类; (3)对聚类后的结果,采用两段线性回归拟合方法合并筛选最优结果。
2.如权利要求1所述的流式细胞仪数据快速分析方法,其特征在于,所述步骤(1)采用了核密度估计方法对流式细胞仪数据中的类群数目进行估计的识别过程如下: 设P为流式细胞仪数据X的核密度估计,其可表示为
其中Xi代表数据中的事件,则对P两边求导可得到
其中: K为核函数,且
H为dXd维正定对称带宽矩阵; F(2)K{x}表示K{x}的二阶导数; 利用线性分割网格方法可得到每一维度的类群数目kj(j = 1,...,d),则类群数目范围
3.如权利要求1所述的流式细胞仪数据快速分析方法,其特征在于,所述步骤(2)中K-means方法釆用了以下过程进行初始聚类中心确定: (1)在样本中随机选择Xi作为第一个聚类中心C1; (2)计算所有样本X到前k-l(k= 2,…K)个聚类中心的最小距离:
(3)以df为概率选择Xi为第k个聚类中心ck。
4.如权利要求1所述的流式细胞仪数据快速分析方法,其特征在于,所述步骤(3)采用线性回归拟合合并筛选最优结果的过程如下:



d
若m = max(kj) (j = I,..., d), n = ^Jci , i 为从m+1 到 n_l 的变量,即 i = (m+1,…,n_l),



/=1将合并过程中类群数k及其对应的类群间的最小距离Dk映射到二维空间,即Pk = (k, Dk),对两部分的点(Pm,…,Pi)和(Pi,...,Pn)分别进行回归拟合,其结果分别为ft和兄。则使满足兄的残差平方和与P2残差平方和之和的最小i值即为最佳类群数K,即
5.如权利要求4所述的流式细胞仪数据快速分析方法,其特征在于,所述线性回归拟合筛选最优结果采用了优化的马氏距离估计两个类群X和Y之间距离的方法如下:
其中: X为类群X的中心; F为类群Y的中心; Σχ* X的协方差矩阵。
【文档编号】G06F19/00GK104200114SQ201410459761
【公开日】2014年12月10日 申请日期:2014年9月10日 优先权日:2014年9月10日
【发明者】王先文, 程智, 陈锋, 杜耀华, 暴洪涛, 李辰宇, 吴太虎 申请人:中国人民解放军军事医学科学院卫生装备研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1