一种基于emd特征提取和稀疏表示的细胞分类方法

文档序号:10725671阅读:400来源:国知局
一种基于emd特征提取和稀疏表示的细胞分类方法
【专利摘要】一种基于EMD特征提取和稀疏表示的细胞分类方法,本方法采用了一种基于EMD的细胞特征提取方法。首先利用正交子空间投影OSP方法对医学高光谱图像进行波段选择,降低维数,减少数据冗余。然后用二维EMD方法对降维后的数据进行特征提取,将数据分解为一系列频率由高到低排列的IMF分量。采用基于稀疏表示的分类器SRC对数据进行分类,通过比较残差来对样本分类,计算得到的残差越小,则将该样本归为到这一类中。基于EMD特征提取和稀疏表示的细胞分类方法中,EMD表现出来很好的时频特性,在高光谱数据特征提取上具有明显的潜力和优势。同时利用基于稀疏表示的分类器SRC,更大大的保证了分类的精度。
【专利说明】
一种基于EMD特征提取和稀疏表示的细胞分类方法
技术领域
[0001] 本发明涉及一种基于EMD(经验模式分解)的细胞特征提取方法,并采用稀疏表示 的分类方法对其进行分类识别,属于医学高光谱分类识别领域。
【背景技术】
[0002] 传统的医学检测方法是一系列的化学分析法,对组织切片进行染色,实验过程复 杂,周期长,速度慢,强度大,误差大,测量的可重复性差,通过人眼观察实现癌细胞识别,受 实验者的主观影响很大,容易造成误诊。随着成像技术的发展,医学诊断也越来越依赖于成 像技术。成像形式包括核磁共振成像(MRI),计算机断层扫描成像(CT),超声波扫描术,核成 像技术等等。近年来,基于光学成像技术及模式识别的全自动、智能化组织切片中细胞分析 和诊断研究引起不少学者的重视。高光谱成像技术的快速发展也使其迅速成为医学成像的 一员。基于高光谱成像技术以及模式识别的发展,逐渐走入人们的视线,为实时医疗成像进 行快速诊断提供了可能。相较传统的医疗诊断方法,能够摆脱繁琐的前期数据的处理,包括 对细胞染色,对获得的样本进行离心操作获取分离其他成分等等操作,从而摆脱实验者的 主观因素快速准确的对病情进行判断。近年来,高光谱成像技术与生物医学显微镜结合而 成的高光谱显微技术成为最受人们关注的一种医学成像技术。它可近距离对生物医学切片 进行成像,并同时获得观测对象的图像维信息和光谱维信息。传统的医学治疗都是通过医 生用肉眼观察医学影像上的病变区域形态,而每天都会产生很多医学影像,既耗费时间而 且精确度不高。
[0003] 相比传统的纤维成像方式,高光谱成像技术可提供更丰富的信息进行病理分析, 辅助医学研究人员从更加全面的角度对组织器官和细胞切片进行研究分析。本发明公开了 一种快速识别匹配病变细胞的方法,通过对医学图像的特征提取来压缩信息,从而对血细 胞进行分类找出病变细胞。移动医疗的快速发展要求能快速精确地进行血液检查,从而能 有效实现疾病的早期发现和病因判断。本发明完成一套自动进行血细胞识别的方法,利用 不同血细胞的透射和吸收光谱特性对其进行自动分类识别,能有效提高细胞识别速度和精 度,并能迅速发现异常细胞,将能为临床的精确辅助诊断和快速病源发现提供良好的技术 支持。
[0004] 高光谱图像一个主要特点是波段数多,波段间具有很强的相关性,所以各波段图 像所提供的信息常常有重叠。为了消除冗余信息、减少数据量和计算时间,需要对高光谱图 像进行特征提取。EMD能将信号分解成有限个本征模函数aMF)和一个残差信号。EMD表现出 来很好的时频特性,在高光谱数据特征提取上具有明显的潜力和优势。

【发明内容】

[0005] 本发明的目的在于是通过学习相关技术基础,完成一套医学显微图像的人体血细 胞快速识别系统。移动医疗的快速发展要求能快速精确地进行血液检查,从而能有效实现 疾病的早期发现和病因判断。要求完成一套自动进行血细胞识别的方法,利用不同血细胞 的透射和吸收光谱特性对其进行自动分类识别,能有效提高细胞识别速度和精度,并能迅 速发现异常细胞,将能为临床的精确辅助诊断和快速病源发现提供良好的技术支持。
[0006] 高光谱成像在生物医学可视化方面是一种新技术,与生物医学显微镜相结合而产 生的高光谱显微技术在国际上已经被成功的应用于医学领域。高光谱可以对被摄物体在紫 外、可见光、近红外、甚至中红外波段等宽谱段范围进行成像,光谱分辨率能达到纳米级。细 胞的病变会引起细胞组分如蛋白质、核酸、糖和水分等在含量、构型等方面的变化,由此引 起光谱曲线在波形、峰强、波长等方面的改变。
[0007] 医院每天要产生上千万甚至更多的医学影像,而高光谱图像存在着很大的空间相 关性,产生很多冗余信息。为了节省运算时间和提高计算精度,因此先对医学血细胞高光谱 图像进行波段选择来减少数据量,降维后再对其进行EMD特征提取,然后用稀疏表示的方法 对血细胞进行分类。
[0008] 本发明采用的技术方案为一种基于EMD特征提取和稀疏表示的细胞分类方法,该 方法的实现过程如下:
[0009] S1对医学血细胞的高光谱数据用0SP(正交子空间投影)进行波段选择。从血细胞 图像所有波段中选择起主要作用的波段子集,剔除部分高冗余的波段。不仅能大大降低医 学血细胞图像的数据维数,而且能比较完整地保留有用的信息,提高分类精度。
[0010] S2采用EMD分解的方法提取血细胞高光谱图像特征。EMD能够自适应地从高频到低 频提取信号的本质特征,EMD对血细胞的高光谱图像进行分解,通过多次的筛分过程,一方 面消除信号中的骑波,另一方面平滑高低不平的振幅,得到一系列的从高频到低频的IMF, 然后从IMF中提取合适的特征,进行分类。
[0011] S3利用SRC分类器进行分类。SRC用训练样本稀疏线性地表示测试样本,并根据类 别线性重构误差最小化分类。
[0012] 本发明的流程图如图1所示,实施步骤如下:
[0013] 步骤1、血细胞的高光谱数据量大,但是各波段间往往具有相关性,这造成数据的 冗余,也就是常说的维数灾难。为了提高运算精度和节省运算时间先对数据用0SP方法对血 细胞数据进行波段选择。波段选择的原则是:信息含量多、相关性小、光谱差异大、可分性好 的波段就是应该选择的最佳波段。
[0014] 具体算法如下:定义也和出是血细胞光谱数据Φ中的两个波段,每个波段有N个像 素点。用也和出来估算第三个波段B。为了找到一个波段使它和也和出最不相似,一个关于也 和出的正交子空间P被构造为:
[0015] P = I-Z(ZTZ)_1ZT
[0016] 式中,I是一个Ν阶单位矩阵,Ζ是一个ΝΧ2矩阵,Ζ的第一列包含m的所有像素,Ζ的 第二列包含B2的所有像素。
[0017]计算出yQ = PTy,y包含B的所有像素,刊是出和出的正交子空间中的B的分量。产生最 大正交分量I |y〇| I的波段被认为是与出和出最不像似的波段,被选为B3。
[0018]步骤2、利用EMD方法进行特征描述,提取血细胞的特征。
[0019] EMD经验模式分解将复杂的信号分解为适宜于Hilbert变换的MF函数分量,由于 本征模函数IMF的本质是信号在不同频率范围内原信号的本质特征,原信号噪声的集合表 示为残差形式,所以提取信号的本质特征通过保留每个IMF分量和丢弃残余量来实现,IMF 必须满足下列基本条件:
[0020] 1)整个信号长度上的极大值点数、极小值点数与过零点的数目相等或相差为1。
[0021] 2)在任意时刻,由包络线定义的极大值和极小值的平均值为0。
[0022]第一个条件很明显,它和传统的窄带的稳定高斯过程的要求一样;第二个条件是 必要的,以此保证瞬时频率不会出现不期望的波动而诱导不对称的波形。EMD分解实质是对 一个时间序列信号进行平稳化的处理过程,它将信号分解为一系列频率由高到低排列的 IMF分量和一个余量之和,IMF的获得是一个不断循环迭代的过程,最后筛选出满足条件的 IMF。该过程不断的从大尺度信号中剔除均值包络线,直到满足停止条件,筛选结束。对一个 信号S(t)进行EMD分解的具体步骤如下:
[0023] (1)外部初始化,令血细胞图像为
[0024] r〇(m,n) = f (m,n), j = 1
[0025] (2)提取第j个IMF函数:
[0026] a)内部初始化
[0027] hj,o(m,n) =rj-i(m,n) ,k = l;
[0028] b)利用形态学算法或8邻域像素,找出中的局部极大值和局部极小值点 集;
[0029] c)使用合适的二维曲面插值方法,分别对极大值点和极小值点进行包络拟合,插 值计算出hj,k-i(m,n)的上包络面Umax,k-i(m,n)和下包络面Umin,k-i(m,n);
[0030] d)确定上下包络的均值:
[0031] meank-1 (m,η) = [ Umax, k-1 (m,n) +Umin,k-1 (m,η) ] /2;
[0032] e)从图像中减去均值,得到:
[0033] hj,k(m,n) =hj,k-i(m,n)_meank-i(m,n)
[0034] f)计算终止条件,若满足頂F条件则有
[0035] cj(m,n) =hj,k(m,n)
[0036] 否则令k = k+l,转到步骤b
[0037] (3)求残余量
[0038] rj(m,n) = rj-i(m,n)-cj(m,n)
[0039] 若^中仍有不少于两个的极值点或者分解所得的頂F数目未达到要求,则将^看做 新的数据,并继续从步骤2进行分解,j = j+1
[0040] (4)最后得到的二维EMD分解的结果是:
[0041 ] cj (m, η) + r^(m, β)
[0042] 二维EMD中頂F筛选停止的SD计算公式如下:
[0044] 二维EMD的标准偏差SD的阈值η的经验值通常设在〇. 1-0.3之间。
[0045] 步骤3、将血细胞光谱数据贴好标签后,选取部分数据作为训练数据,所有数据作 为测试数据,利用SRC分类器对细胞进行分类。SRC的算法如下:
[0046] SRC算法可用较少的数据捕获感兴趣目标的重要信息,即在样本数充足的情况下, 每一类训练样本数据张成一个完备子空间,当该类样本中其他数据输入时,由该完备空间 的数据线性表示出来。SRC对数据缺损不敏感,当所求系数足够稀疏时,特征空间的选取变 得不再重要;这些优势使得SRC成为一种非常优秀的分类算法。
[0047] 其主要思想是:对给定的训练样本集的每个字典原子进行归一化。其次求解最小 li-范数问题:ai = argamin| |α| Ιι,其中α满足y = Aa或| |y-Aa| h彡ε,ε>〇是一个可选误差。 然后对测试样本计算每一类的残差
[0048] r/(y) =11 y - Αδ^α^ \\{
[0049] i = l,2,3,……,c,c为对象类;式中Si(ai)s为特征函数,该特征函数的元素选择与 〇1中第:1类相关的系数。最后对7进行分类:1(7)=3坪^1^11;1^(7),这里1(7)表示估计7的类别 标签。
[0051 ]与现有技术相比,本发明具有如下优点:
[0052] 1)高光谱显微成像能同时进行区域成像和光谱成像,为组织切片细胞识别提供了 一种新的技术方法;
[0053] 2)利用不同细胞的透射和吸收光谱特性对其进行自动分类识别,快速发现异常细 胞,提尚癌症确诊的准确性与特异性;
[0054] 3)基于高光谱显微图像进行自动化高精度的细胞识别,将能为临床的精确辅助诊 断和快速病源发现提供良好的技术支持,对提高人口健康水平及人民生活质量具有重要意 义。
[0055] 4)不同于传统的特征提取方法,EMD能将信号分解成有限个本征模函数aMF)和一 个残差信号。EMD表现出来很好的时频特性,在血细胞高光谱数据特征提取上具有明显的潜 力和优势。本发明的具体创新点在于将EMD特征提取方法应用在医学高光谱图像上,利用不 同血细胞的透射和吸收光谱特性对其进行自动分类识别,能有效提高细胞识别速度和精 度,并能迅速发现异常细胞。同时利用基于稀疏表示的分类器SRC,更大大的保证了分类的 精度。
【附图说明】
[0056] 图1为本发明具体流程图
【具体实施方式】
[0057] 本发明的基于EMD特征提取和稀疏表示进行细胞分类方法的基本流程如图1所示, 具体包括以下步骤:
[0058] 1)首先将血细胞数据进行归一化处理,然后存储数据和相应的标签。
[0059] 2)由于血细胞光谱波段数众多,而且各波段间存在空间相关性,如果全部波段都 利用会产生冗余信息,加大计算上的时间开销。为了减少EMD特征提取的数据量并且提高运 算时间,先对血细胞数据进行波段选择。实验中选择的血细胞数据大小为462X451X33。所 以从33个波段中选择5个波段,分别是第25、33、20、30和32波段。选择出来的波段具有信息 含量多、相关性小、光谱差异大、可分性好等优点。
[0060] 3)对这5个波段的血细胞数据进行EMD特征提取。找出图像数据中的局部极大值点 和局部极小值点。每一个波段的血细胞数据都是一个二维图像信号,设它的中心像素灰度 值为f(i,j),其邻域中任一像素灰度值为f(m,η),采用8邻域点与中心像素灰度值比较的方 法,灰度值比相邻8像素点都高或低的点数就是图像的极大或极小值点。如果f(i,j)>f(m, η)都成立,并且m辛i,n辛j,则(i,j)位置处像素点为一个局部极大值点;如果f (i,j)〈f (m, n)都成立,并且m辛i,n辛j,则(i,j)位置处像素点为一个局部极小值点;如果f (i,j)>f (m, n)对于某些邻域位置点成立,而汽1,」)〈以111,11)对于另一些邻域位置点成立,则(1,」)位置 处像素点既不是极大值点也不是极小值点;此方法找到的二维血细胞图像极值点更为精 确。再对得到的极大值和极小值点集做三次样条插值进行包络拟合,得到上下包络。确定上 下包络均值,从原图像中减去均值,根据MF条件判断是否符合条件,得到的第一个頂F分量 代表原始血细胞数据序列中最高频的组成部分。将原始血细胞数据序列f(x,y)减去第一个 分量ci(x,y),得到一个去掉高频组成成分的差值数据序列ri(x,y)。对rj(x,y)进行上述平 稳化处理过程得到第二个MF分量 C2(x,y),如此重复下去直至最后一个差值序列不可再被 分解或达到了要求的MF个数。本发明中终止条件中的参数τι选择为0.1。医学血细胞高光谱 数据经过二维EMD分解得到5个頂F函数。将EMD分解后的数据存储起来。
[0061] 4)经过波段选择后留下5个波段,每个波段分解5个MF函数。对这25维数据用SRC 分类器进行分类。生成一个1-N个整数随机分布的随机序列,将所有样本随机排列,取前100 个样本作为训练样本,并且将所有样本都作为测试样本。计算当训练样本X足够稀疏时,求 解& = argmin || X IU;重构测试样本fi: = Αδ?^);根据y与务之间的最小逼近残差来对样本 进行归类,并计算分类精确度。λ分别选取16-6、1 6-5、16-4、16-3、16-2、16-1和1。然后分别 计算出各参数下分类的精度,选出具有最高精度的参数。
[0062] 本发明能够准确的将细胞进行分类。
【主权项】
1. 一种基于EMD特征提取和稀疏表示的细胞分类方法,SI对医学血细胞的高光谱数据 用OSP进行波段选择;从血细胞图像所有波段中选择起主要作用的波段子集,剔除部分高冗 余的波段;不仅能大大降低医学血细胞图像的数据维数,而且能比较完整地保留有用的信 息,提高分类精度; S2采用EMD分解的方法提取血细胞高光谱图像特征;EMD能够自适应地从高频到低频提 取信号的本质特征,EMD对血细胞的高光谱图像进行分解,通过多次的筛分过程,一方面消 除信号中的骑波,另一方面平滑高低不平的振幅,得到一系列的从高频到低频的IMF,然后 从IMF中提取合适的特征,进行分类; S3利用SRC分类器进行分类;SRC用训练样本稀疏线性地表示测试样本,并根据类别线 性重构误差最小化分类; 其特征在于:该方法的实施步骤如下, 步骤1、血细胞的高光谱数据量大,但是各波段间往往具有相关性,运造成数据的冗余, 也就是常说的维数灾难;为了提高运算精度和节省运算时间先对数据用OSP方法对血细胞 数据进行波段选择;波段选择的原则是:信息含量多、相关性小、光谱差异大、可分性好的波 段就是应该选择的最佳波段; 具体算法如下:定义Bi和B2是血细胞光谱数据Φ中的两个波段,每个波段有N个像素点; 用Bi和B2来估算第Ξ个波段B;为了找到一个波段使它和Bi和B2最不相似,一个关于Bi和B2的 正交子空间P被构造为: P=I-Z(Z^)"V 式中,I是一个N阶单位矩阵,Z是一个NX 2矩阵,Z的第一列包含Bi的所有像素,Z的第二 列包含B2的所有像素; 计算出y〇 = pTy,y包含B的所有像素,yo是Bi和B2的正交子空间中的B的分量;产生最大正 交分量llyoll的波段被认为是与Bi和化最不像似的波段,被选为B3; 步骤2、利用EMD方法进行特征描述,提取血细胞的特征; EMD经验模式分解将复杂的信号分解为适宜于化化ert变换的IMF函数分量,由于本征 模函数IMF的本质是信号在不同频率范围内原信号的本质特征,原信号噪声的集合表示为 残差形式,所W提取信号的本质特征通过保留每个IMF分量和丢弃残余量来实现,IMF必须 满足下列基本条件: 1) 整个信号长度上的极大值点数、极小值点数与过零点的数目相等或相差为1; 2) 在任意时刻,由包络线定义的极大值和极小值的平均值为0; 第一个条件很明显,它和传统的窄带的稳定高斯过程的要求一样;第二个条件是必要 的,W此保证瞬时频率不会出现不期望的波动而诱导不对称的波形;EMD分解实质是对一个 时间序列信号进行平稳化的处理过程,它将信号分解为一系列频率由高到低排列的IMF分 量和一个余量之和,IMF的获得是一个不断循环迭代的过程,最后筛选出满足条件的IMF;该 过程不断的从大尺度信号中剔除均值包络线,直到满足停止条件,筛选结束;对一个信号S (t)进行EMD分解的具体步骤如下: (1) 外部初始化,令血细胞图像为 r〇(m,n)=f(m,n),j = l (2) 提取第j个IMF函数: a) 内部初始化 hj,〇(m,n)=rj-i(m,n) ,k=l; b) 利用形态学算法或8邻域像素,找出h川-i(m,n)中的局部极大值和局部极小值点集; C)使用合适的二维曲面插值方法,分别对极大值点和极小值点进行包络拟合,插值计 算出hj,k-i(m,η)的上包络面Umax,k-i(m,η)和下包络面Umin,k-i(m,η); d) 确定上下包络的均值: meank-i (m, η) = [Umax, k-i (m, η) +Umin, k-i (m, η) ] /2; e) 从图像中减去均值,得到: hj,k(m,n)=hj,k-i(m,n)-meank-i(m,n) f) 计算终止条件,若满足IMF条件则有 cj(m,n)=hj,k(m,n) 否则令k = k+l,转到步骤b (3) 求残余量 rj(m,n)=rj-i(m,n)-cj(m,n) 若η中仍有不少于两个的极值点或者分解所得的IMF数目未达到要求, 则将η看做新的数据,并继续从步骤2进行分解,j = j+1 (4) 最后得到的二维EMD分解的结果是:二维EMD中IMF筛选停止的S的十算公式如下:二维EMD的标准偏差SD的阔值η的经验值通常设在0.1-0.3之间; 步骤3、将血细胞光谱数据贴好标签后,选取部分数据作为训练数据,所有数据作为测 试数据,利用SRC分类器对细胞进行分类;SRC的算法如下: SRC算法可用较少的数据捕获感兴趣目标的重要信息,即在样本数充足的情况下,每一 类训练样本数据张成一个完备子空间,当该类样本中其他数据输入时,由该完备空间的数 据线性表示出来;SRC对数据缺损不敏感,当所求系数足够稀疏时,特征空间的选取变得不 再重要;运些优势使得SRC成为一种非常优秀的分类算法; 其主要思想是:对给定的训练样本集的每个字典原子进行归一化;其次求解最小h-范 数问题:ai = argamin| |α| li,其中曰满足y = Aa或I |y-Aa| |2《ε,ε>〇是一个可选误差;然后 对测试样本计算每一类的残差 ?7(y) =11 y--45,(a〇 W'i i = l,2,3,……,c,c为对象类;式中Si(αι)s为特征函数,该特征函数的元素选择与αι中 第i类相关的系数;最后对y进行分类:I(y)=argimin;Ti(y),运里I(y)表示估计y的类别标 签;2.根据权利要求1所述的一种基于EMD特征提取和稀疏表示的细胞分类方法,其特征在 于: 本方法具体包括W下步骤, 1) 首先将血细胞数据进行归一化处理,然后存储数据和相应的标签; 2) 由于血细胞光谱波段数众多,而且各波段间存在空间相关性,如果全部波段都利用 会产生冗余信息,加大计算上的时间开销;为了减少EMD特征提取的数据量并且提高运算时 间,先对血细胞数据进行波段选择;实验中选择的血细胞数据大小为462 X 451 X 33;所W从 33个波段中选择5个波段,分别是第25、33、20、30和32波段; 3) 对运5个波段的血细胞数据进行EMD特征提取;找出图像数据中的局部极大值点和局 部极小值点;每一个波段的血细胞数据都是一个二维图像信号,设它的中屯、像素灰度值为f (i J),其邻域中任一像素灰度值为f(m,n),采用8邻域点与中屯、像素灰度值比较的方法,灰 度值比相邻8像素点都高或低的点数就是图像的极大或极小值点;如果f(i,j) 乂 (m,n)都成 立,并且m声i,n声j,则(i,j)位置处像素点为一个局部极大值点;如果f(i,j)<f(m,n)都成 立,并且m声i,n声j,则(i,j)位置处像素点为一个局部极小值点;如果f(i,j) 乂 (m,n)对于 某些邻域位置点成立,而f(i,j)<f(m,n)对于另一些邻域位置点成立,则(i,j)位置处像素 点既不是极大值点也不是极小值点;此方法找到的二维血细胞图像极值点更为精确;再对 得到的极大值和极小值点集做Ξ次样条插值进行包络拟合,得到上下包络;确定上下包络 均值,从原图像中减去均值,根据IMF条件判断是否符合条件,得到的第一个IMF分量代表原 始血细胞数据序列中最高频的组成部分;将原始血细胞数据序列f(x,y)减去第一个分量C1 ^,7),得到一个去掉高频组成成分的差值数据序列^^,7);对^^,7)进行上述平稳化处 理过程得到第二个IMF分量C2(x,y),如此重复下去直至最后一个差值序列不可再被分解或 达到了要求的IMF个数;本发明中终止条件中的参数η选择为0.1;医学血细胞高光谱数据经 过二维EMD分解得到5个IMF函数;将EMD分解后的数据存储起来; 4) 经过波段选择后留下5个波段,每个波段分解5个IMF函数;对运25维数据用SRC分类 器进行分类;生成一个1-N个整数随机分布的随机序列,将所有样本随机排列,取前100个样 本作为训练样本,并且将所有样本都作为测试样本;计算当训练样本X足够稀疏时,求解 每二argmin II X 111谨构测试样本扔=ASi巧1);根据y与薪之间的最小逼近残差来对样本进 行归类,并计算分类精确度;λ分别选取16-6、16-5、16-4、16-3、16-2、1日-1和1;然后分别计 算出各参数下分类的精度,选出具有最高精度的参数。
【文档编号】G06K9/46GK106096571SQ201610461512
【公开日】2016年11月9日
【申请日】2016年6月22日
【发明人】李伟, 张秋实
【申请人】北京化工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1