特征参数不完整情况下的细胞核分类与识别方法

文档序号:6483185阅读:241来源:国知局
专利名称:特征参数不完整情况下的细胞核分类与识别方法
技术领域
本发明涉及一种特征参数不完整情况下的细胞核分类与识别方法,属于生物 医学工程技术领域。
背景技术
对细胞核进行分类识别是细胞定量分析的核心,同时也是定量细胞学癌症自 动筛查与病理自动诊断过程中不可缺少的一环。利用细胞核的光学、纹理、形态、 颜色、关系等特征,通过支持向量机、神经网络或者K近邻算法等模式识别方法 识别细胞核的类型,是细胞核分类识别最主要的方法。图l给出细胞核分类识别
的主要流程。从图1中可以看到,细胞核的分类识别分为两个独立的过程训练 过程和识别过程。系统研发过程中,利用通过细胞核的图像计算获得的特征参数 (多个特征参数组成特征向量)和由专业的病理专家对细胞核进行人工识别得到 的分类结果,通过模式识别的训练程序得到细胞核的分类模型,这个过程称为训 练过程。在系统实际使用的过程中,利用与训练过程中同样的方法计算得到的细 胞核特征向量和训练过程中得到的细胞核分类模型,通过模式识别中的识别程 序,可以得到细胞核的自动分类结果,这个过程称为识别过程。
从细胞核的图像中,可以提取的特征参数很多, 一般它们可以分为几大类 形态特征、纹理特征、光学特征、颜色特征以及关系特征等。通过提取这些特征 参数组成特征向量,为细胞核分类识别提供依据。 --般来说,特征参数的数量越 多,细胞核分类识别的效果也越好,结果越准确。
但是, 一方面,由于图像采集仪器的问题比如仪器故障、CCD (Charge Co叩led Device)摄像设备中的坏死点等,或者特征参数本身计算方法的限制, 并非对于所有的细胞核图像都能够计算所有的特征参数。在部分细胞核中,会有 部分特征参数无法获取,并且这些缺失的特征参数的也随细胞核的不同而不同。 另一方面,对于大部分的模式识别算法,--般都没有给出丢失特征参数情况下的 训练与识别方法。这样就为准确的利用模式识别算法识别细胞核的类别带来了难 度。
3中国专利03131975 "—种高精度、低假阴性率的肺癌细胞图像识别方法" 中,该方法利用光学显微镜上安置的数字摄像机拍摄细胞病理切片,数字摄像机 产生的视频信号经图像采集设备后进入计算机,在经过适当的图像预处理之后, 将细胞的图像交给肺癌细胞图像识别部分进行处理,其中提到采用神经网络作为 癌症的识别方法,容易产生过拟合现象,造成识别模型的推广能力有限。在识别 模型的构建(训练过程)中,需要人为参与,工作量大。且没有给出特征参数缺 失情况下的细胞识别方法。而中国专利200710192233 "智能化肺癌早期细胞病 理图像识别处理方法"中,给出了细胞识别与肿瘤诊断的整体框架,把对细胞图 像的处理分为图像预处理、图像分割、重叠细胞分离重构、特征提取与选择以及 细胞分类五个步骤,但是对于细胞的识别方法与过程没有给出确切的描述。特别 是在特征参数缺失情况下,细胞核如何分类与识别,没有给出相应的方法。

发明内容
本发明的目的就是提供一种特征参数不完整情况下的细胞核分类与识别方 法,它在特征参数不完整、部分特征参数缺失的情况下,估计填充缺失的特征参 数,完整准确的进行细胞核分类识别。
本发明的技术方案是特征参数不完整情况下的细胞核分类与识别方法,包 括以下步骤a、在细胞核训练样本集中,通过统计区分哪些特征参数是易失特 征,哪些特征参数是不易失特征;其特征在于还包括b、训练过程中,在细胞 核训练样本集中,利用单个的易失特征值作为输出,不易失特征作为输入,通过 支持向量回归SVR训练程序得到单个易失特征值的回归估计模型;C、识别过程
中,对于单个细胞核,如果有缺失特征参数,利用训练得到的回归估计模型和它 的未缺失特征参数,回归估计该缺失特征参数;d、利用经过填充的缺失特征参
数,结合未缺失的特征参数,组成新的细胞核特征向量,利用该特征向量进行细 胞核的分类识别。
本发明的工作原理是利用已知特征参数作为输入,未知特征参数作为输出, 通过SVR训练程序得到未知特征参数的回归估计模型;利用已知特征参数作为输
入,回归估计模型作为模型,通过SVR回归程序估计未知特征参数的数值并进行 填充;利用填充好的缺失特征参数和未缺失的特征参数组成新的特征向量,利用
4该特征向量进行细胞核的分类识别。
本发明的有益效果是(1)本发明利用细胞核已知的特征参数值,通过SVR 回归的方法估计缺失的特征参数值,有效的利用了细胞核不同特征参数之间的冗 余,充分利用了细胞核的可提取信息,提高识别的准确性;(2)本发明充分利用 了所有可以利用的资源,在细胞核的缺失特征参数没有得到有效填充的情况下, 细胞核的识别程序不能利用该特征参数的信息,从而使得未缺失该参数的细胞核 中的信息不能得到充分利用,本发明很好了解决了这一问题;(3)本发明利用 SVR (Support Vector Regression)方法回归缺失特征参数的数值,充分考虑了 各特征参数间的线性和非线性关系。


图1为细胞核分类识别的主要流程图。
图2为本发明实施例缺失特征参数回归模型的训练过程示意图。
图3为本发明实施例缺失特征参数的填充过程示意图。
图4为本发明实施例1中的易失特征参数估计过程示意图。
图5为本发明实施例1中的易失特征参数回归模型训练过程示意图。
具体实施例方式
以下结合附图和实施例对本发明做进一歩的说明。
本发明解决以下几个问题
(1) 为训练过程提供一种适当的特征参数填充方法,在细胞核的部分特征 参数缺失的情况下,能够利用适当的值填充这些参数,以便模式识别训练程序能 够进行正常的细胞核识别模型训练过程;
(2) 为识别过程提供一种适当的特征参数填充方法,在细胞核的部分特征 参数缺失的情况下,能够利用适当的值填充这些参数,以便模式识别分类程序能 够进行正常的细胞核识别过程;
(3) 提供一种方法,能够尽多可能的利用特征参数的数量,进行细胞核的识别。
本发明实施例的具体实施主要包括以下几个方面的内容
5首先,找到有可能缺失的特征参数(易失特征)和不会缺失的特征参数(不 易失特征),建立缺失特征参数的回归模型。具体过程如图2。
对于细胞核中可提取的w个特征参数,假定有/个为不易失特征,m个为易 失特征,m + / = w。其中,第/个细胞核不易失特征向量可以表示为
a' ^":,a'2,…a:y ,易失特征向量为b'"《,夂,…《y 。
对于每一个易失特征,我们都可以找到7V,个该特征没有缺失的细胞核,组
成输入输出集fc^,b';) L其中/用来区分不同的细胞核,";表示第/个细胞
核的第/个易失特征,作为回归模型的输出;b'表示第/个细胞核的不易失特征 向量,作为回归模型的输入。将这个输入输出集通过一个SVR回归模型训练器, 就可以得到特征参数的回归模型G ()。
其次,利用回归模型和细胞核的不易失特征参数值,通过SVR回归程序,回 归估计出该细胞核所缺失的特征参数值。具体过程如图3。
假定细胞核的特征值《缺失,可以通过如下的方法计算出估计值进行填充。
(1) 提取该细胞核的不易失特征向量b';
(2) 利用训练过程得到的该特征参数的回归模型。(),通过SVR回归程序,得
到该特征参数的估计值^;
(3) 利用值填充缺失的特征参数值《。
对于该细胞核所有缺失的特征参数,都可以利用以上的方法得到估计值并进 行填充。填充完所有缺失特征参数后,结合没有缺失的易失特征参数,得到易失
特征向量l。
最后,可以利用填充好的易失特征向量和原提取的不易失特征向量,共同组 成细胞核的特征向量f, ={a,,b,j ,用于细胞核的分类识别。
在利用细胞核的显微图像进行肿瘤的早期诊断过程中,由于CCD采集设备 的故障、临时失效等原因,可能会造成细胞图像的部分缺失,从而造成细胞特征 参数的缺失。在该情况出现时,可以利用本发明进行特征参数的估计,填补缺失
6的特征参数,从而进行正常的识别与诊断过程。
实施例1: DNA定量细胞分析系统中,部分特征参数是某些情况下是无法 得到的。例如高DNA物质含量区平均半径、中DNA物质含量平均半径、低DNA 物质含量区平均半径
<formula>formula see original document page 7</formula>
其中,i w表示象素(x,力与细胞核中心的距离;Q::f, n:;,。", Q^分别
为高、中、低DNA区的掩码图,若象素(x,少)属于该区域,该估计为l,否则为
0。可以看出,如果该区域的面积为0 (在实际检测中很常见),则该区域的平均 半径计算结果为非法值(除零非法),因而造成该特征参数的缺失。
该情况下,可以利用本发明实施例对该特征参数进行估计,从而得到估计的 特征参数。
聊/z藩庙g^WM =,,腸、杨.、.(b) Me^""DA^^vgi^力^ = ^由"/w庙^。血、.(b) 丄(w"A^力vg7^t/z'的'=。,。w,—。血,(b)
其中,b为不易失特征参数值。得到相应的估计值后,可以与不易失特征参 数值,共同组成细胞核特征向量,用于特征参数的分类识别,该过程可以用图4 表示,其中a表示HighD廳vgRadius、 MedianD謹vgRadius、 LowD親vgRadius
等易失特征参数。图5给出图4中回归估计模型r.()的获取方法。
权利要求
1、特征参数不完整情况下的细胞核分类与识别方法,包括以下步骤a、在细胞核训练样本集中,通过统计区分哪些特征参数是易失特征,哪些特征参数是不易失特征;其特征在于还包括b、训练过程中,在细胞核训练样本集中,利用单个的易失特征值作为输出,不易失特征作为输入,通过支持向量回归SVR训练程序得到单个易失特征值的回归估计模型;c、识别过程中,对于单个细胞核,如果有缺失特征参数,利用训练得到的回归估计模型和它的未缺失特征参数,回归估计该缺失特征参数;d、利用经过填充的缺失特征参数,结合未缺失的特征参数,组成新的细胞核特征向量,利用该特征向量进行细胞核的分类识别。
全文摘要
本发明涉及一种特征参数不完整情况下的细胞核分类与识别方法,包括以下步骤a.在细胞核训练样本集中,通过统计区分哪些特征参数是易失特征,哪些特征参数是非易失特征;b.训练过程中,在细胞核训练样本集中,利用单个的易失特征值作为输出,非易失特征作为输入,通过支持向量回归SVR训练程序得到单个易失特征值的回归估计模型;c.识别过程中,对于单个细胞核,如果有缺失特征参数,利用训练得到的回归估计模型和它的未缺失特征参数,回归估计该缺失特征参数;d.利用经过填充的缺失特征参数,结合未缺失的特征参数,组成新的细胞核特征向量,利用该特征向量进行细胞核的分类识别。
文档编号G06K9/00GK101493886SQ20091006084
公开日2009年7月29日 申请日期2009年2月24日 优先权日2009年2月24日
发明者庞宝川, 徐端全 申请人:武汉兰丁医学高科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1