多个神经网络的成像设备和方法

文档序号:5832135阅读:185来源:国知局
专利名称:多个神经网络的成像设备和方法
技术领域
本发明涉及一种具有多个神经网络的成像设备,并且涉及一种训练神经网络的方法和一种操作这种成像设备的方法。该设备可用于检测生物粒子并将其分类,尤其用于检测人尿中的生物粒子并将其分类。
背景技术
生物粒子分析设备在相关技术中是众所周知的。例如可见授予本发明受让人的美国专利No.4,338,024,该专利描述了一种使用计算机的已有技术的机器,该计算机中存储了固化程序以用来检测生物粒子并将检测到的生物粒子分类。
用于把生物粒子图像分类的标准判定理论是众所周知的,它常常以系列的方式把粒子分类。具体来说,对于包含多种粒子类型的尿样来说,需要在各种粒子图像中搜索对于某一种粒子类型来说是特有的一个或多个粒子特征,并且具有这些粒子特征的图像被提取。其它粒子也重复此过程,方式是一次一种粒子类型。利用这种方法的问题在于,对于所搜索粒子特征,每个粒子类型会呈现一系列的值,并且这一系列值可能会与其它粒子类型的一系列值重叠。另外还会有人工产物(artifact)的问题,这些人工产物是没有临床意义的粒子图像,如滑石或毛发,或者是由于成像装置的灵敏度或图像的其它问题(如由于部分捕获的原因而不确定的粒子边界)而不能把粒子图像分类。在分析过程中需要忽略人工产物的粒子图像,以便于不对粒子分析的整体准确性产生不利的影响。因此,在包含人工产物的样本中难以准确可靠地把粒子分类。
大多数的生物粒子分类装置另外需要人工操作来把样本中的粒子精确分类。尽管可使用粒子特征来把粒子图像以粒子类型进行分类,但仍需要受过训练的用户来验证其结果。
神经网络计算机也是众所周知的。神经网络计算机的优点是它通过其经验“学习”的能力,因此,从理论上说,神经网络计算机由于其被训练而可以变得更为智能化。
因此,需要一种对诸如尿样的样本中的生物粒子进行准确且自动分类的生物粒子分类方法和设备。
发明概述本发明公开了一种多个神经网络的图像检测和分类设备。多个神经网络可以更有效地使用必然是有限的可用信息,因为它可更有效地划分判定空间,从而允许该信息被用来在每个阶段中进行较少的判断,同时仍然以其整体判定覆盖所有的结果。另外,该神经网络测量在多个处理阶段稳定性,以促使图像成为弃权类别,如人工产物。在某种意义上,我们可把这种多个神经网络看作是促使图像数据进行严格的检验,其中在每一阶段检验中,它都非常可能被置于“我不知道”的类别当中。这比单单经过一个网络要有效得多,这是因为实质上实现的是数据与多个模板(template)的多个吻合,由于更充分地利用了信息,因此,多个模板比单个模板所能表示得更加明确。
本发明还涉及一大组的粒子特征和一种训练方法,它不只是简单地经过该训练组,而且还从一些网络中进行选择并在随后减小特征矢量的尺寸。最后,本发明还提供能够使试探信息作为判断过程的一部分被包括于其中的前处理和后处理。后处理可使上下文信息从其它信号源获得,或者从实际的判断过程中搜集,以用来进一步强化判断。
本发明是一种把图像中的成分归类为多个类别之一的方法,其中该成分具有多个特征。该方法包括的步骤是从该成分的图像中提取多个特征;确定该成分的类别;并根据之前确定的多个类别判定结果修改该成分已确定的类别。该成分的类别的确定至少包括以下之一选择并处理这些提取特征的第一子群以确定该成分的物理特性,并通过响应所确定的物理特性选择并处理这些提取特征的第二子群,以确定该成分的类别;以及选择并处理这些提取特征的第三子群以确定该成分的一个类别组,并通过响应所确定的类别组选择并处理这些提取特征的第四子群,以确定该成分的类别。
在本发明的另一方面中,一种成像设备用于把图像中的成分归类为多个类别之一,其中该成分具有多个特征,该设备包括从该成分的图像中提取多个特征的装置;确定该成分的类别的装置;以及根据之前确定的多个类别判定结果修改该成分已确定的类别的装置。该确定装置至少包括以下装置之一用于选择并处理这些提取特征的第一子群以确定该成分的物理特性的装置,以及通过响应所确定的物理特性选择并处理这些提取特征的第二子群以确定该成分的类别的装置;以及用于选择并处理这些提取特征的第三子群以确定该成分的一组类别的装置,以及通过响应所确定的类别组选择并处理这些提取特征的第四子群以确定该成分的类别的装置。
在本发明的又一个方面中,一种方法用于把图像中的成分归类为多个类别之一,其中该成分具有多个特征,该方法包括的步骤有从图像中提取多个特征;根据由第一确定标准所提取的多个特征确定该成分的分类,其中第一确定标准包括把该成分归类为未知类别;在该成分被第一确定标准归类为未知类别的情况下,由不同于第一确定标准的第二确定标准来确定该成分的分类;以及在该成分被第一确定标准归类为多个类别之一的情况下,由不同于第一和第二确定标准的第三确定标准确定该成分的分类。
在本发明的再一个方面中,一种成像设备用于把图像中的成分归类为多个类别之一,其中该成分具有多个特征,该设备包括提取器,用于从该成分的图像中提取多个特征;第一处理器,用于确定该成分的类别;以及第二处理器,它根据多个先前确定的类别确定结果修改该成分已确定的类别。第一处理器至少通过以下步骤之一来确定该成分的类别选择并处理这些提取特征的第一子群以确定该成分的物理特性,以及通过响应所确定的物理特性选择并处理这些提取特征的第二子群以确定该成分的类别;以及选择并处理这些提取特征的第三子群以确定该成分的一组类别,以及通过响应所确定的类别组选择并处理这些提取特征的第四子群以确定该成分的类别。
通过研究说明书、权利要求书及附图,本发明的其它目的和特征将会显而易见。
附图简述

图1是表示本发明方法的流程图。
图2是本发明设备的示意图。
图3A和3B是表示本发明的边界强化的流程图。
图4是表示本发明的对称性特征提取的示意图。
图5A-5D是表示各种形状缩略图。
图6A是表示本发明的LPF扫描过程的流程图。
图6B是与本发明的LPF扫描过程一起使用的神经网络分类的流程图。
图7A是表示本发明的HPF扫描过程的流程图。
图7B是与本发明的HPF扫描过程一起使用的神经网络分类的流程图。
图8是供本发明使用的神经网络的示意图。
图9A-9C是在本发明的LPF和HPF扫描过程中与各种神经网络一起使用的粒子特征表。
优选实施例的详细描述本发明包括一种方法和设备,用于判断生物粒子的图像集中的各个粒子图像的类别,以便于识别每一个图像,并且确定在每个给定类别的粒子中的图像数。
基本方法和设备图1简略地表示了该方法,该方法包括5个基本步骤1)搜集各个图像,2)从每个图像中提取粒子特征,3)应用某些前处理规则来确定各个图像的分类或者确定将如何执行分类处理,4)使用多个神经网络判断结构把各个图像分类,以及5)分析判断集或判断集的一个子集,以确定该集合的整个分类或者朝着某些子集或各个图像的分类的转变。
本发明的方法还包括的步骤有训练用于进行判断的各个神经网络;以及从该训练过程产生的多个网络中选择在最终判断中使用的网络的步骤。
三个主要的硬件单元用来执行本发明成像系统2、第一处理器4和第二处理器6。这些硬件单元在图2中示出。
成像系统2被用来产生包含所感兴趣的粒子的样本的视野的图像。成像系统2优选为如在美国专利4,338,024,4,393,466,4,538,299和4,612,614中描述的熟知的流式(flow)显微镜,这些专利均作为参考结合于此。流式显微镜产生包含粒子的连续范围的图像,这些图像是在这些连续范围流过流体元件时产生的。
第一处理器4分析连续范围的图像,并在各个拼接块(patch)中分隔粒子。拼接块提取设备(诸如在美国专利4,538,299和5,625,709中描述的,这两个专利均作为参考结合于此)用于分析由成像系统产生的图像并定义包含所感兴趣的粒子的局部区域(拼接块)。每个粒子的边界被识别和定义,并被用于从较大的区域中提取每个粒子的图像数据,从而产生数字拼接图像,它们每一个都包含所考虑的一个相应粒子的图像(由此可以显著地压缩处理过程随后所需的数据)。成像系统2和第一处理器4组合在一起来执行图1所示的第一步骤(收集各个图像)。
第二处理器6分析每个粒子图像以便确定该粒子图像的分类。第二处理器6执行图1所示的最后四个步骤,这将在下面进行描述。
边界增强—掩蔽(mask)图像为了增强粒子特征提取,进一步细化了粒子边界,并且产生了粒子的黑白掩蔽图像。该处理可有效地把该粒子边界之外的所有数字图像像素(背景像素)变为黑像素,并把该粒子边界之内的像素变为白像素。由此产生粒子的白图像与黑背景的对比将把粒子的形状和尺寸变得非常清晰,并且只根据形状和尺寸就能很容易地针对粒子特征进行操作(假设像素要么是白像素要么是黑像素)。
图3A-3B示出了把粒子图像变换为掩蔽图像的基本步骤。首先,如图3A所示,Shen-Castan边缘检测器(诸如在Parker,James R.的图像处理的算法及计算机视觉,ISBN 0-471-14056-2,JohnWiley&Son,1997,pp29-32中所描述的,并且作为参考结合于此)被用来定义所感兴趣的粒子的边缘。粒子图像10通常包括所感兴趣的粒子图像12和其它粒子14。对粒子图像10进行平滑处理,并且产生限带的拉普拉图像,之后产生梯度图像。一个阈值程序被用来检测边缘,从而使强度穿过预定阈值的位置被定义为边缘。所检测的边缘连接在一起形成边缘图像16,它包含与勾勒出各种粒子的检测边界相对应的线。
掩蔽图像是通过边缘图像16以图3B所示的方式形成的。边缘图像16被反转,这样,边界线成为白色,而背景成为黑色。随后清除该图像中小到不必考虑的所有小斑点或粒子。边界线上的小缺口被填充,从而把其中的一些边界线连在一起。之后使边界线加粗,从而增加它们的宽度。由于边界线的内边缘定义粒子的实际尺寸,因此这种加粗处理是在边界线的外边缘上进行的。断开的像素则被接上,从而产生围绕粒子的完整的线。边界的内部则被填充以产生表示粒子的泡点(blob)。之后缩减这些泡点以去除形成边界线的像素,以使这些泡点具有正确的尺寸。最后,最大的泡点被检测,其余的所有泡点则被去掉。由此产生的图像则是该粒子的掩蔽图像,其中黑背景上的白泡点可以准确地对应所考虑粒子的尺寸和形状。
粒子特征提取一旦所考虑粒子的图像被定位在拼接图像中并且其边界通过产生该粒子的白色掩蔽图像而进一步得到细化,则拼接和掩蔽图像被进一步处理以便从该粒子图像中提取粒子特征(特征数据)。利用有助于粒子类型的准确分类的许多种不同的方式,粒子特征通常用数字来描述粒子的尺寸、形状、纹理和颜色。粒子特征可被组合为与这些数字描述之一相关的族,并且可从拼接图像、掩蔽图像或者是从二者中提取。
第一族的粒子特征都与粒子的形状有关,它们有助于区别一般为圆形的红细胞和白细胞,一般为正方形或矩形的晶体,以及一般被拉长的脱落细胞(cast)。第一族粒子特征是1.粒子面积在粒子边界内包含的像素数目。这个粒子特征最好通过粒子的掩蔽图像得出。
2.周长粒子边界的像素长度。它最好通过产生该掩蔽图像的4-相邻圆周图像并计算非零像素的数目而由粒子的掩蔽图像得到。
3.形状系数粒子圆度的表示。它通过周长的平方除以粒子面积来计算。
4.面积-周长比粒子圆度的另一种表示。它通过粒子面积除以周长来计算。
第二族粒子特征与粒子的对称性有关,特别是与确定任何给定形状的粒子的对称线数有关。这一族的粒子特征在区分脱落细胞(通常具有沿着其长轴的对称线)和鳞状上皮细胞(SQEP,它们通常没有对称线)时特别有用。这一族的粒子特征使用在粒子的不同角方向上应用线段所产生的信息。如图4所示,线段20画过了掩蔽图像19的矩心22。对于沿着线段20的每个点来说,与其垂直的线段24a和24b从线段20一直画到了它们与粒子边界相交,并且相反的垂直线段24a和24b的长度差被计算并被存储。沿着线段20的每个点都重复该计算,所有的差值随后被求和并作为线段20的对称值来存储。对于一个理想的圆来说,任何线段20的对称值均为零。随后针对线段20的每个角位移重复对称值的计算,从而产生多个对称值,每个对称值均对应于线段20的一个特定角方向。这些对称值随后由粒子面积值归一化,并且从低到高被分类成为对称值的有序列表。
第二族粒子特征是5.最小对称在该有序列表中的最小对称值,它表示由粒子在某个旋转值所呈现的最大对称性。
6. 20%对称构成对称值的有序列表的第20个百分位的对称值。
7. 50%对称构成对称值的有序列表的第50个百分位的对称值。
8. 80%对称构成对称值的有序列表的第80个百分位的对称值。
9.最大对称在该有序列表中的最大对称值,它表示由粒子在某个旋转值所呈现的最小对称性。
10.平均对称性对称值的平均值。
11.标准偏差对称对称值的标准偏差。
第三族粒子特征与粒子图像的简化(skeletonization)有关,它产生一个或多个线段,这些线段体现粒子的尺寸及形状特征。在诸如发芽酵母、菌丝酵母以及白细胞团这样的凝块中识别具有多种成分的分析样品(analytes)时,这些粒子特征特别有用。这些分析样品将具有多个分支的简化图,它们容易与简化图只有一个分支的分析样品区别开。简化图像的产生在图像处理的相关技术中是众所周知的,并且在Parker,James R.的图像处理的算法及计算机图像,ISBN 0-471-14056-2,John Wiley&Son,1997,pp.176-210中公开,并且作为参考结合于此。简化基本上包括在垂直于自身的方向上向内压缩粒子边界的每个部分。举例来说,如图5A-5D所分别示出的,一个理想的圆压缩为一个点;一个新月形则压缩为一条曲线,一个8字形则压缩为2条直线段,而一个凹陷的细胞则压缩为一条曲线。本优选实施例使用两种简化算法ZSH和BZS。ZSH是使用Holt变量加阶梯消除的Zhang-Suen细化算法。BZS是使用Holt变量的Zhang-Suen细化算法。Parker(p.182)中的图5.11表示在应用这些算法时沿着每种算法的C-代码的结果之间的差。
第三族粒子特征是12.ZSH简化尺寸最好通过计算形成简化图的像素数目而确定的简化尺寸。一个理想的圆的简化尺寸是1,而对于新月形来说,其简化尺寸将是曲线的长度。
13.ZSH归一化简化尺寸由粒子尺寸归一化的简化尺寸,这通过简化尺寸除以粒子面积来确定。
14.BZS简化尺寸最好通过计算形成简化图的像素数目而确定的简化尺寸。一个理想的圆的简化尺寸是1,并且对于新月形来说,其简化尺寸将是曲线的长度。
15.BZS归一化简化尺寸由粒子尺寸归一化的简化尺寸,这通过简化尺寸除以粒子面积来确定。
第四族粒子特征涉及到使用在粒子中吻合的半径的径向长度来测量粒子的形状,以及这些值的分位点(quantile)等级。具体来说,最好使用掩蔽图像把矩心限定在粒子的内部,并且多个半径以不同的角度从矩心发散到粒子的边界。半径的长度被收集成为半径值列表,该列表从低值到高值来分类。有序数值列表的某个百分数的分位点表示在该列表中具有对应于从该列表的底部的某个百分比的位置的值。例如,一个列表的30%的分位点是定位在从该列表底部向上30%的值,该列表中70%的值在该值之上。因此,在10个值的有序列表中,30%的分位点值是从该列表顶部开始的第七个值,并且50%的分位点是该列表的中间值。
第四族粒子特征是16. 25%半径值对应于半径值列表的25%分位点的值。
17. 50%半径值对应于半径值列表的50%分位点的值。
18. 75%半径值对应于半径值列表的75%分位点的值。
19.最小平均比最小半径值与平均半径值之比。
20.最大平均比最大半径值与平均半径值之比。
21.平均半径值半径值的平均值。
22.标准偏差半径值半径值的标准偏差。
第五族粒子特征测量粒子图像的强度。不同分析样品的光吸收特性明显不同。例如,晶体一般是有折射力的,它实际上可以聚光,这样它们的内部会比背景亮。但是,发暗的白细胞一般远比背景要暗。平均强度展现的是粒子的整体光吸收质量,而强度的标准偏差则测量粒子吸收质量的均匀性。为了测量强度,最好通过使用掩蔽图像把粒子隔开,以掩蔽粒子的拼接图像。因而,仅剩的像素(在掩蔽图像之内)是那些包含在粒子边界之内的像素。这一族的粒子特征包括23.平均像素值在粒子边界内的所有像素的平均像素值。
24.像素值的标准偏差在粒子边界内的像素的像素值标准偏差。
第六族粒子特征使用粒子的付里叶变换来测量粒子的径向分布。付里叶变换根据粒子的尺寸、形状和纹理(即细粒结构)而定。除了增加纹理之外,付里叶变换幅值与粒子的位置无关,并且粒子旋转被直接反映为该变换的旋转。在一次旋转中寻找能量团是粒子线性方面的指示(即,粒子具有线性部分)。这种寻找有助于区别诸如晶体的粒子和血红细胞。粒子拼接图像的付里叶变换最好使用熟知的快速付里叶变换(FFT)利用128x128个像素的窗口来计算。随后计算以下的粒子特征25.旋转的128-像素线的FFT平均强度沿着128-像素线的平均像素值的队列表,作为旋转角度的函数。这通过使长度为128个像素的径向线经过该变换并以N度的增量把该径向线旋转180度的弧来计算。对于每个N度的增量,沿着该径向线的像素平均值都要被计算。N度增量的平均像素值作为平均强度与相应的角增量一起存储在一个队列中。
26.FFT最大/最小128-像素角度差与存储在该队列中的最高及最低平均强度值相对应的角度值之间的差值。
27.FFT128-像素平均强度标准偏差存储在该队列中的平均强度值的标准偏差。
28.旋转的64-像素线的FFT平均强度与旋转的128-像素线的FFT平均强度相同,但使用64个像素长度的径向线。
29.FFT最大/最小64-像素角度差与FFT最大/最小128-像素角度差相同,但使用64个像素长度的径向线。
30.FFT64-像素平均强度标准偏差与FFT128-像素平均强度标准偏差相同,但使用64个像素长度的径向线。
31.旋转的32-像素线的FFT平均强度与旋转的128-像素线的FFT平均强度相同,但使用32个像素长度的径向线。
32.FFT最大/最小32-像素角度差与FFT最大/最小128-像素角度差相同,但使用32个像素长度的径向线。
33.FFT32-像素平均强度标准偏差与FFT128-像素平均强度标准偏差相同,但使用32个像素长度的径向线。
所有与基于变化长度的旋转径向线的标准偏差值有关的其它FFT粒子特征表示如下34.FFT128-像素平均强度标准偏差序列沿着不同旋转的128-像素线的平均像素值的标准偏差的排序队列表。它通过使长度为128个像素的径向线经过该变换并 N度的增量旋转该径向线经过180度的弧来计算。对于每个N度增量来说,都要计算该线上的像素的标准偏差值。所有N度增量的标准偏差值从低到高进行排序,并且存储在一个队列中。
35.FFT128-像素最小径向标准偏差从标准偏差值的分类队列表中搜索的最小径向标准偏差值。
36.FFT128-像素最大径向标准偏差从标准偏差值的分类队列表中搜索的最大径向标准偏差值。
37.FFT128-像素25%分位点径向标准偏差源自该队列的与该队列中存储的25%分位点的值相对应的径向标准偏差值。
38.FFT128-像素50%分位点径向标准偏差源自该队列的与该队列中存储的50%分位点的值相对应的径向标准偏差值。
39.FFT128-像素75%分位点径向标准偏差源自该队列的与该队列中存储的75%分位点的值相对应的径向标准偏差值。
40.FFT128-像素最小与平均径向标准偏差之比存储在该队列中的最小与平均径向标准偏差值之比。
41.FFT128-像素最大与平均径向标准偏差之比存储在该队列中的最大与平均径向标准偏差值之比。
42.FFT128-像素平均径向标准偏差存储在该队列中的值的平均径向标准偏差值。
43.径向标准偏差的FFT128-像素标准偏差存储在该队列中的所有径向标准偏差值的标准偏差。
44.FFT64-像素平均强度标准偏差序列与FFT128-像素平均强度标准偏差序列相同,但使用64-像素长度的径向线。
45.FFT64-像素最小径向标准偏差与FFT128-像素最小径向标准偏差相同,但使用64-像素长度的径向线。
46.FFT64-像素最大径向标准偏差与FFT128-像素最大径向标准偏差相同,但使用64-像素长度的径向线。
47.FFT64-像素25%分位点径向标准偏差与FFT128-像素25%分位点径向标准偏差相同,但使用64-像素长度的径向线。
48.FFT64-像素50%分位点径向标准偏差与FFT128-像素50%分位点径向标准偏差相同,但使用64-像素长度的径向线。
49.FFT64-像素75%分位点径向标准偏差与FFT128-像素75%分位点径向标准偏差相同,但使用64-像素长度的径向线。
50.FFT64-像素最小与平均径向标准偏差之比与FFT128-像素最小与平均径向标准偏差之比相同,但使用64-像素长度的径向线。
51.FFT64-像素最大与平均径向标准偏差之比与FFT128-像素最大与平均径向标准偏差之比相同,但使用64-像素长度的径向线。
52.FFT64-像素平均径向标准偏差与FFT128-像素平均径向标准偏差相同,但使用64-像素长度的径向线。
53.径向标准偏差的FFT64-像素标准偏差与径向标准偏差的FFT128-像素标准偏差相同,但使用64-像素长度的径向线。
54.FFT32-像素平均强度标准偏差序列与FFT128-像素平均强度标准偏差序列相同,但使用32-像素长度的径向线。
55.FFT32-像素最小径向标准偏差与FFT128-像素最小径向标准偏差相同,但使用32-像素长度的径向线。
56.FFT32-像素最大径向标准偏差与FFT128-像素最大径向标准偏差相同,但使用32-像素长度的径向线。
57.FFT32-像素25%分位点径向标准偏差与FFT128-像素25%分位点径向标准偏差相同,但使用32-像素长度的径向线。
58.FFT32-像素50%分位点径向标准偏差与FFT128-像素50%分位点径向标准偏差相同,但使用32-像素长度的径向线。
59.FFT32-像素75%分位点径向标准偏差与FFT128-像素75%分位点径向标准偏差相同,但使用32-像素长度的径向线。
60.FFT32-像素最小与平均径向标准偏差之比与FFT128-像素最小与平均径向标准偏差之比相同,但使用32-像素长度的径向线。
61.FFT32-像素最大与平均径向标准偏差之比与FFT128-像素最大与平均径向标准偏差之比相同,但使用32-像素长度的径向线。
62.FFT32-像素平均径向标准偏差与FFT128-像素平均径向标准偏差相同,但使用32-像素长度的径向线。
63.径向标准偏差的FFT32-像素标准偏差与径向标准偏差的FFT128-像素标准偏差相同,但使用32-像素长度的径向线。
更多的粒子特征被使用,它们均涉及基于变化长度的旋转径向线的平均值64.FFT128-像素平均强度序列沿着不同旋转的128-像素线的平均像素值的排序队列表。它通过使长度为128个像素的径向线经过该变换并以N度的增量旋转该径向线经过180度的弧来计算。对于每个N度增量来说都要计算该线上的像素平均值。所有N度增量的平均像素值从低到高进行排序,并且存储在一个队列中。
65.FFT128-像素最小平均值从平均值的分类队列表中搜索的最小径向平均值。
66.FFT128-像素最大平均值从平均值的分类队列表中搜索的最大径向平均值。
67.FFT128-像素25%分位点径向平均值来自该队列的与存储在该队列中的25%分位点的平均值相对应的径向平均值。
68.FFT128-像素50%分位点径向平均值来自该队列的与存储在该队列中的50%分位点的平均值相对应的径向平均值。
69.FFT128-像素75%分位点径向平均值来自该队列的与存储在该队列中的75%分位点的平均值相对应的径向平均值。
70.FFT128-像素最小与平均径向平均值之比存储在该队列中的最小与平均径向平均值之比。
71.FFT128-像素最大与平均径向平均值之比存储在该队列中的最大与平均径向平均值之比。
72.FFT128-像素平均径向标准偏差存储在该队列中的平均值的平均径向标准偏差值。
73.平均值的FFT128-像素标准偏差存储在该队列中的所有径向平均值的标准偏差。
第七族的粒子特征使用图像强度的灰度和彩色直方图分位点,它提供有关粒子边界内的强度变化的附加信息。具体来说,灰度、红色、绿色和兰色直方图分位点在不同频带提供强度特征。另外,与粒子分析一起使用的斑点会使一些粒子吸收某些颜色,如绿色,而其它粒子则在某些波长呈现出折射的特性。因此,使用所有这些粒子特征将使我们能够区别诸如白细胞这样吸收绿光的发暗粒子和折射黄光的晶体。
直方图、累积直方图以及分位点计算在美国专利5,343,538中公开,它作为参考结合于此。粒子图像通常使用CCD摄像机来捕获,它把图像分成三种彩色成分。本优选实施例使用RGB摄像机,它分别捕获粒子图像的红色、绿色和兰色成分。下面的粒子特征根据图像的灰度、红色、绿色和兰色成分来计算74.灰度像素强度在粒子边界内的灰度像素强度的分类队列表。灰度值是三种彩色成分的累加。对于粒子边界内的每个像素来说(如掩蔽图像所掩蔽的),灰度像素值被加到灰度队列中,然后该队列被排序(如从低到高)。
75.最小灰度图像强度存储在该队列中的最小灰度像素值。
76. 25%灰度强度与存储在该队列中的灰度像素值的25%分位点相对应的值。
77. 50%灰度强度与存储在该队列中的灰度像素值的50%分位点相对应的值。
78. 750%灰度强度与存储在该队列中的灰度像素值的75%分位点相对应的值。
79.最大灰度图像强度存储在该队列中的最大灰度像素值。
80.红色像素强度粒子边界内的红色像素强度的排序队列表。粒子图像被转换以便只有每个像素值的红色成分被保留。对于粒子边界内的每个像素来说(由掩蔽图像所掩蔽的),红色像素值被加到红色队列中,它随后从低到高进行排序。
81.最小红色图像强度存储在该队列中的最小红色像素值。
82. 25%红色强度与存储在该队列中的红色像素值的25%分位点相对应的值。
83. 50%红色强度与存储在该队列中的红色像素值的50%分位点相对应的值。
84. 75%红色强度与存储在该队列中的红色像素值的75%分位点相对应的值。
85.最大红色图像强度存储在该队列中的最大红色像素值。
86.绿色像素强度粒子边界内的绿色像素强度的排序队列表。粒子图像被转换以便只有每个像素值的绿色成分被保留。对于粒子边界内的每个像素来说(由掩蔽图像所掩蔽的),绿色像素值被加到绿色队列中,它随后从低到高进行排序。
87.最小绿色图像强度存储在该队列中的最小绿色像素值。
88. 25%绿色强度与存储在该队列中的绿色像素值的25%分位点相对应的值。
89. 50%绿色强度与存储在该队列中的绿色像素值的50%分位点相对应的值。
90. 75%绿色强度与存储在该队列中的绿色像素值的75%分位点相对应的值。
91.最大绿色图像强度存储在该队列中的最大绿色像素值。
92.兰色像素强度粒子边界内的兰色像素强度的排序队列表。粒子图像被转换以便只有每个像素值的兰色成分被保留。对于粒子边界内的每个像素来说(由掩蔽图像所掩蔽的),兰色像素值被加到兰色队列中,它随后从低到高进行排序。
93.最小兰色图像强度存储在该队列中的最小兰色像素值。
94. 25%兰色强度与存储在该队列中的兰色像素值的25%分位点相对应的值。
95. 50%兰色强度与存储在该队列中的兰色像素值的50%分位点相对应的值。
96. 75%兰色强度与存储在该队列中的兰色像素值的75%分位点相对应的值。
97.最大兰色图像强度存储在该队列中的最大兰色像素值。
第八族的粒子特征使用同心圆和环来进一步体现FFT幅值分布变化的特征,该分布受到原始分析样品图像的尺寸、形状和纹理的影响。在FFT的矩心上定义一个中心圆,同时定义与该中心圆同心且在其外直径依次连续增加的七个环(垫圈的形状)。第一个环的内径等于中心圆的外径,其外径等于第二个环的内径,依此类推。下面的粒子特征通过FFT上的中心圆和七个环来计算98.中心圆平均值中心圆内的FFT的幅值的平均值。
99.中心圆标准偏差中心圆内的FFT的幅值的标准偏差。
100.环与中心圆的平均值第一个环内与中心圆内的FFT的幅值的平均值之比。
101.环与中心圆的标准偏差第一个环内与中心圆内的FFT的幅值的标准偏差之比。
102.环与圆平均值第一个环内与该环的外径定义的圆内的FFT的幅值的平均值之比。
103.环与圆标准偏差第一个环内与该环的外径定义的圆内的FFT的幅值的标准偏差之比。
104.环与环平均值第一个环内与具有接下来较小的直径的环或中心圆(在第一个环的情况下,它应当是中心圆)的FFT的幅值的平均值之比。
105.环与环标准偏差第一个环内与具有接下来较小的直径的环或中心圆(在第一个环的情况下,它应当是中心圆)的FFT的幅值的标准偏差之比。
106-111与特征100-104同,但使用第二个环来代替第一个环。
112-117与特征100-104同,但使用第三个环来代替第一个环。
118-123与特征100-104同,但使用第四个环来代替第一个环。
124-129与特征100-104同,但使用第五个环来代替第一个环。
130-135与特征100-104同,但使用第六个环来代替第一个环。
136-141与特征100-104同,但使用第七个环来代替第一个环。
154-197与98-141同,但它们被应用到粒子图像的FFT的FFT。
最后一族的粒子特征使用同心的正方形,其边等于FFT窗口尺寸(如128)的11%、22%、33%、44%、55%和66%,以便进一步体现FFT幅值分布变化的特征,该分布受到原始分析样品图像的尺寸、形状和纹理的影响。目前有两种熟知的用以表示FFT的纹理特征的纹理分析算法。第一种算法叫做矢量扩散,该算法涉及到使用常量来使一个平面适合教导区,并在作为参考结合于此的Parker的165-168页中描述。第二种算法叫做表面曲率量度,该算法涉及到使一个多项式符合该区域,并在作为参考结合于此的Parker的168-171页中描述。下面的粒子特征通过FFT上的不同尺寸的窗口进行计算142-147矢量扩散算法分别应用于11%、22%、33%、44%、55%和66%的FFT窗口。
148-153表面曲率量度分别应用于11%、22%、33%、44%、55%和66%的FFT窗口。
处理和判断操作一旦计算出前面的粒子特征,则用处理规则确定某些粒子的分类,或者确定将如何处理样本中的粒子集中的所有粒子。本优选实施例使用低倍物镜(如10X)来获取粒子图像,以执行具有较大视野的小功率场(LPF)扫描,以捕获较大的粒子,使用高倍物镜(如40X)来执行具有较高灵敏度的大功率场(HPF)扫描,以捕获较小粒子的更微小的细节。
本发明的系统使用独立的多个神经网络判断结构来把LPF扫描和HPF扫描时捕获的粒子进行分类。由于大部分感兴趣的粒子只会出现在LPF或HPF扫描之一当中,而不会同时出现在二者中,则该独立判断结构可以尽可能地减少每种结构必须分类的所感兴趣粒子数。
神经网络结构图8所示为在LPF和HPF扫描时用于所有神经网络的基本神经网络结构。该网络包括具有输入X1-Xd的输入层,每一个输入都对应于选择使用于该网络的上述粒子特征之一。每个输入均连接隐藏层中的多个神经元Z1-Zj之一。这些隐藏层中的每个神经元Z1-Zj把从输入层接收的所有值以加权的方式求和,从而可以单独指定每个神经元的实际加权值。每个隐藏层的神经元Z1-Zj还把非线性函数应用于加权和。隐藏层的每个神经元Z1-Zj的输出被应用到第二(输出)层的每一个神经元Y1-Yk。输出层的每个神经元Y1-Yk也把从隐藏层接收的输入以加权的方式求和,并把非线性函数应用到该加权和。输出层的神经元提供网络的输出,因此,这些输出神经元的数目就对应于该网络产生的判断类别的数目。输入数等于被选择用于输入网络的粒子特征数。
正如下面将要描述的,每个网络被“训练”产生准确的结果。对于所要进行的每个判断来说,只有那些与网络的判断相适合的粒子特征才被选择输入网络中。训练过程涉及修改神经元的各种加权值,直到整个网络获得一个令人满意的结果为止。在本优选实施例中,各种网络使用产品版本为5.30的NeuralWork进行训练,该产品是由Carnegie,Pa的NeuralWare生产的,还特别使用扩展的δ条δ反向传播算法。在本优选实施例中用于所有网络中的所有神经元的非线性函数是双曲正切函数,其中输入范围被限制在-0.8和+0.8之间,以剔除低斜率区。
LPF扫描过程LPF扫描过程在图6A中示出,并且以使用低倍物镜获得下一个粒子图像(分析样品)开始。随后执行神经网络分类,如图6B所示,该分类涉及到把级联结构的神经网应用到分析样品图像的过程。每个神经网络获取上述计算的198个粒子特征的所选子群,并计算范围从零到粒子满足该网络标准的分类概率因数。网络的级联配置有助于提高每个神经网络下游结果的准确性,这是因为假设每个网络所操作的粒子类型已被预先筛选具有或不具有某些特性,则每个网络可以为更高的准确性而进行特殊的设计。为了使系统更有效,最好计算每个粒子图像的全部198个粒子特征,然后再应用图6B的神经网络分类处理。
应用于粒子图像的第一神经网络是AMOR分类器网络,该网络判断该粒子是否为非晶态。对于本优选实施例来说,这个网络包括上述198个粒子特征的一个所选子集的42个输入、隐藏层中的20个神经元和输出层中的两个神经元。在图9A-9C的表中标记为LPF AMOR2的这一列表示上述被选择用于该网络的42个粒子特征的号码。这个网络的第一和第二输出分别对应于粒子是或不是非晶态的概率。概率较高的则构成网络的判断结果。如果该网络判断粒子为非晶态,则对该粒子的本次分析结束。
如果判断该粒子不是非晶态,则使用SQEP/CAST/OTHER分类器网络,该网络判断该粒子是鳞状上皮细胞(SQEP)、脱落细胞(CAST)或另外一种类型的细胞。对于本优选实施例来说,该网络包括上述198个粒子特征的一个所选子集的48个输入、隐藏层中的20个神经元和输出层中的三个神经元。在图9A-9C的表中标记为LPF CAST/SQEP/OTHER3的这一列表示上述48个被选择用于该网络的粒子特征的号码。该网络的第一、第二和第三输出分别对应于粒子是脱落细胞、SQEP或另一种粒子类型的概率。概率最高的则构成网络的判断结果。
如果确定该粒子是脱落细胞,则使用CAST分类器网络,该网络用于判断该粒子是白细胞团(WBCC)、透明脱落细胞(HYAL)或者是诸如病理脱落细胞这样的未分类脱落细胞(UNCC)。对于本优选实施例来说,该网络包括上述198个粒子特征的一个所选子集的36个输入、隐藏层中的10个神经元和输出层中的三个神经元。在图9A-9C的表中标记为LPF CAST3的这一列用于表示上述36个被选择用于该网络的粒子特征的号码。该网络的第一、第二和第三输出对应于粒子是WBCC、HYAL或UNCC的概率。概率最高的则构成网络的判断结果。
如果判断该粒子是磷状上皮细胞,则该判断不作处理。
如果判断该粒子是另一种类型的细胞,则使用OTHER分类器网络,它确定该粒子是诸如肾上皮细胞或移形上皮细胞这样的非磷状上皮细胞(NSE)、未分类晶体(UNCX)、酵母(YEAST)、或粘液(MUCS)。对于本优选实施例来说,该网络包括上述198个粒子特征的一个所选子集的46个输入、隐藏层中的20个神经元和输出层中的四个神经元。在图9A-9C的表中标记为LPF OTHER4的这一列用来表示上述46个被选择用于该网络的粒子特征的号码。该网络的第一、第二、第三和第四输出对应于粒子是NSE、UNCX、YEAST或MUCS的概率。概率最高的则构成网络的判断结果。
再次参考图6A,一旦该神经网络分类已经判断出粒子的类型,则应用弃权规则的ART,以确定该粒子是否应当被分类为人工产物,因为没有一个网络能够给出足够高的分类概率因数来证明粒子分类的正确性。由本优选实施例应用的使用弃权规则的ART表示如下如果网络结构的最终分类是HYAL,并且在SQEP/CAST/OTHER网络中CAST的概率小于0.98,则该粒子被重新分类为人工产物。另外,如果网络结构的最终分类是UNCC,并且在SQEP/CAST/OTHER网络中CAST的概率小于0.95,则该粒子被重新分类为人工产物。
图6A所示的下一个步骤用于使用弃权规则的ART处理之后所剩的粒子。如果该粒子由该网络结构分类为UNCC、HYAL或SQEP,则该分类被无条件接受。如果该粒子被分类为另一种类型的粒子,则使用部分捕获测试来确定该粒子是否应当被分类为人工产物。部分捕获测试确定粒子边界是否符合一个或多个粒子图像拼接块的边界,这样只有粒子图像的一部分由拼接图像捕获。本优选实施例的部分捕获测试基本上检查形成拼接块边界的像素,以确保它们表示背景像素。这一过程是通过收集有关拼接边界的累积强度直方图并计算这些强度的下限和上限来进行。本优选实施例中的下限可以是从直方图底部开始的第三个值,或者是从直方图底部开始2%的值,二者中较大的作为下限。上限可以是从直方图顶部开始的第三个值,或者是从直方图底部开始2%的值,二者中较大的作为上限。如果下限低于185(如范围从0-255的像素强度),则拼接图像被认为是部分捕获。如果上限小于等于250并且下限小于200(这要留意粒子图像的晕与拼接图像的边界接触的情况),则拼接图像也被认为是部分捕获。部分捕获测试之后剩下的所有粒子均保持它们的分类,并且LPF扫描过程结束。
在本优选实施例中,部分捕获测试也作为一些神经网络使用的粒子特征之一来使用。如果发现粒子边界符合一个或多个粒子图像拼接边界,则该特征值为1,否则为零。在图9A-9C中,这个粒子特征标记为“0”。
HPF扫描过程
HPF扫描过程在图7A中示出,它开始于使用高倍物镜获取下一个粒子图像(分析样本)。在让粒子经过神经网络分类之前要执行两个前处理人工产物分类步骤。第一前处理步骤是以定义五个尺寸的框(HPF1-HPF5)开始的,每个粒子与它可完全匹配的最小框相关联。在本优选实施例中,最小框HPF5是12×12个像素,最大框HPF1为50×50个像素。与HPF5框相关的所有像素均被分类为人工产物,并被去掉不再考虑,这是因为这些粒子对于给定的系统分辨率来说太小,不能进行准确分类。
第二前处理步骤寻找与HPF3或HPF4框相关联,细胞面积小于50平方像素且不长不细的所有剩余粒子,并把它们分类为人工产物。这个第二前处理步骤把尺寸与宽高比标准结合在一起,去除了那些一般为圆形的较小粒子。一旦与HPF3或HPF4框以及小于50平方像素的细胞面积相关联的粒子被分离,那么如果满足下面两个标准的任意之一,则每一个这种类型的粒子都将被分类为人工产物。首先,如果粒子周长的平方除以粒子面积小于20,则该粒子不长不细,被归类为人工产物。其次,如果X和Y力矩的共同变分矩阵的本征值(也称作展开值)之比小于20,则该粒子不长不细,被归类为人工产物。
经过上述两个前处理步骤后剩下的粒子图像要经过图7B所示的神经网络的级联结构的处理。每个神经网络获取以上计算的198个粒子特征中的一个所选子群,并且在从零到粒子满足该网络标准的范围内计算分类概率因数。网络的级联配置有助于提高每个神经网络下游结果的准确性,并且最好在HPF扫描开始之前计算每个粒子图像的全部198个粒子特征。
应用于粒子图像的第一神经网络是AMOR分类器网络,它判断该粒子是否为非晶态。对于本优选实施例来说,该网络包括上述198个粒子特征的一个所选子集的50个输入、隐藏层中的10个神经元和输出层中的两个神经元。在图9A-9C的表中标记为HPF AMOR2的这一列用于表示上述被选择用于该网络50个粒子特征的号码,这个网络的第一和第二输出对应于粒子是或不是非晶态的概率。概率较高的则构成网络的判断。如果该网络判断粒子为非晶态,则该粒子的分析结束。
如果判断该粒子不是非晶态,则使用圆/非圆分类器网络,该网络判断该粒子形状是否呈现出一定量的圆度。对于本优选实施例来说,这个网络包括上述198个粒子特征的一个所选子集的39个输入、隐藏层中的20个神经元和输出层中的两个神经元。在图9A-9C的表中标记为HPF ROUND/NOT ROUND2的这一列表示上述所选用于该网络的39个粒子特征的号码。这个网络的第一和第二输出对应于粒子是或不是“圆形”的概率。概率最高的将构成网络的判断结果。
如果判断该粒子是‘圆形的’,则使用圆细胞分类器网络,该网络用于判断该粒子是红细胞(RBC)、白细胞(WBC)、诸如肾上皮细胞或移形上皮细胞这样的非鳞状上皮细胞(NSE)、或酵母(YEAST)。对于本优选实施例来说,该网络包括上述198个粒子特征的一个所选子集的18个输入、隐藏层中的3个神经元和输出层中的三个神经元。在图9A-9C的表中标记为HPF ROUND4的这一列用于表示上述被选择用于该网络的18个粒子特征的号码,该网络的第一、第二、第三和第四输出分别对应于粒子是RBC、WBC、NSE或YEAST的概率。概率最高的则构成网络的判断结果。
如果判断该粒子不是‘圆形的’,则使用非圆细胞分类器网络,该网络确定该粒子是红细胞(RBC)、白细胞(WBC)、诸如肾上皮细胞或移形上皮细胞这样的非鳞状上皮细胞(NSE)、未分类晶体(UNCX)、酵母(YEAST)、精子(SPRM),或者是细菌(BACT)。对于本优选实施例来说,该网络包括上述198个粒子特征的一个所选子集的100个输入、隐藏层中的20个神经元和输出层中的七个神经元。在图9A-9C的表中标记为HPF NOT ROUND7的这一列用于表示上述所选用于该网络的100个粒子特征的号码。该网络的七个输出对应于粒子是RBC、WBC、NSE、UNCX、YEAST、SPRM或BACT的概率。概率最高的构成该网络的判断结果。
再次参考图7A,一旦该神经网络分类已经判断出粒子的类型,则应用使用弃权规则的ART,以确定该粒子是否应当被分类为人工产物,因为没有一个网络能够给出足够高的分类概率因数来证明粒子分类的正确性。如果满足某个标准,那么由本优选实施例应用的使用弃权规则的ART把四类粒子重新分类为人工产物。首先,如果该网络结构的最终分类是酵母,并且在非圆细胞分类网络中YEAST的概率小于0.9,则该粒子被重新分类为人工产物。其次,如果该网络结构的最终分类是NSE,并且在圆细胞分类器网络中NSE的概率小于0.9,或者在圆/非圆分类器网络中的圆形概率小于0.9,则该粒子被重新分类为人工产物。第三,如果该网络结构的最终分类不是圆形NSE,并且在非圆细胞分类器网络中NSE的概率小于0.9,则该粒子被重新分类为人工产物。第四,如果该网络结构的最终分类是UNCX,并且在非圆细胞分类器网络中UNCX的概率小于0.9,或者在圆/非圆分类器网络中的圆形概率小于0.9,则该粒子被重新分类为人工产物。
图7A中所示的下一个步骤是部分捕获测试,该测试被应用到经过弃权规则的ART之后剩下的所有粒子。该部分捕获测试确定粒子是否应当被分类为人工产物,因为粒子边界符合一个或多个粒子图像的拼接边界,因此只有部分粒子图像通过拼接图像捕获。至于LPF扫描,本优选实施例的部分捕获测试基本上检查形成拼接块边界的像素,以确保它们表示背景像素。这一过程是通过收集关于拼接边界的累积强度直方图并计算这些强度的下限和上限来进行。本优选实施例中的下限可以是从该直方图底部开始的第三个值,或者是从该直方图底部开始2%的值,其中较大的一个作为下限值。上限可以是从直方图顶部开始的第三个值,或者是从直方图顶部开始2%的值,其中较大的一个作为上限值。如果下限低于185(如范围从0-255的像素强度),则拼接图像被认为是部分捕获。如果上限小于等于250且下限小于200(注意粒子图像的晕与拼接图像的边界接触的情况)则该拼接图像也被认为是部分捕获。
该部分捕获测试之后剩下的所有粒子保持它们的分类。被认为是部分捕获的所有粒子都使用部分捕获规则的ART处理,如果满足以下6个标准中的任意一个标准,那么该处理将把这些粒子重新分类为人工产物1.如果该粒子与HPF1尺寸的框相关联。
2.如果该粒子未被归类为RBC、WBC、BYST或UNCX。
3.如果该粒子被归类为RBC,且如果它与HPF2尺寸的框相关或者具有大于等于5.0的展开值。
4.如果该粒子被归类为WBC,且它具有大于等于5.0的展开值。
5.如果该粒子被归类为UNCX,且它具有大于等于10.0的展开值。
6.如果该粒子被归类为BYST,且它具有大于等于20.0的展开值。
如果粒子图像不满足这六个标准中的任意一个标准,则允许神经网络分类维持原状,即使该粒子被认为是部分捕获,并且HPF扫描过程结束。在部分捕获不会使神经网络判断过程失真的情况下,选择这六个规则来保持粒子分类判断,同时去掉那些部分捕获将可能导致不正确判断的粒子。
为了更好地确定哪些特征将被用于上述的每个神经网络,对输入任何一个给定神经网络的特征值一次修改一个小的量,同时记录该修改后的特征值对神经网络输出的影响。对神经网络输出具有最大影响的那些特征将被使用。
后处理判断操作一旦对所有的粒子图像均以粒子类型进行分类后,则随即执行后判断处理以进一步提高分类结果的准确性。该处理考虑结果的全集,并且去除在整体上不可靠的分类结果。
用户可设置的浓度阈值是一种类型的后判断处理,它建立整个结果的噪声水平阈值。这些阈值可由用户设置。如果神经网络分类的图像浓度低于该阈值,则该类别中的所有粒子均被重新分类为人工产物。例如,如果HPF扫描在整个样本中只发现少数RBC,则有可能这些是错误的结果,这些粒子将被重新归类为人工产物。
过量非晶态检测是另一种后判断处理,如果太多的粒子被归类为非晶态,则该处理过程将去除有问题的结果。在本优选实施例中,如果有多于10个的不是非晶态的HPF拼接块,其中60%以上均由神经网络归类为非晶态,则整个样品的结果由于不可靠而被丢掉。
本优选实施例还包括一些LPF伪正滤波器,它们用于把矛盾的或有问题的结果去掉。与HPF粒子不同,LPF人工产物具有各种各样的形状和尺寸。在许多情况下,如果给定系统的分辨率,则把LPF人工产物与真正临床重要的分析样品区别开是不可能的。为了减小由于LPF人工产物引起的伪正,一些滤波器被用来检查由网络进行的集合判断,并且丢掉那些没有意义的结果。例如,如果HPE WBC的数小于9,则所有LPF WBC粒子应当被重新归类为人工产物,这是因为如果没有发现数目相当大的白细胞,则不可能存在白细胞团。另外,如果某些类型的粒子只检测到了少数,则这样的检测结果可以忽略,这是因为这些粒子不可能以这么低的数目存在。在本优选实施例中,系统必须发现多于3个的LPF UNCX检测粒子,或者多于2个的LPF NSE检测粒子,或者多于3个的LPF MUC检测粒子,或者多于2个的HPFSPRM检测粒子,或者多于3个的LPF YEAST检测粒子。如果不能满足这些阈值,则各类粒子被重新归类为人工产物。还有,任意的LPFYEAST检测粒子的检测结果必须有至少2个HPF BYST检测粒子才可以接受。
神经网络训练和选择每个神经网络使用预先分类的图像的一个训练组来训练。除了该训练组外,预先分类的图像的另一个较小组被保留作为测试组。在本优选实施例中,由NeuralWorks生产的商用程序NeuralWare用于执行该训练。当有关该测试组的平均误差降至最小时,训练停止。
对多个新籽(Starting Seeds)和网络结构重复这个过程(即,隐藏层和每层中的元件数)。最终的选择不仅根据整个平均差错率而定,而且还要满足特定类别之间的差错的限制。例如,我们不希望把鳞状上皮细胞识别为病理脱落细胞,因为鳞状上皮细胞常常出现在女性尿样中,而病理脱落细胞表示一种异常情况。因此,本优选实施例优选SQEP-UNCC的差错率小于0.03的网络,这是以UNCC被错误分类为SQEP的更大比率为代价的。这种情况在某种程度上降低了UNCC检测的灵敏度,但它使女性样品中的伪正(false positive)减少,而伪正足够高的出现率将会使系统变得无用,因为高比例的女性尿样将被称为异常。因此,最好采用一种方法能够不仅减小整体差错率又能够兼顾在选择“最佳”网络时特定差错率的成本,并且把这种选择标准结合到网络训练中。
从前面可以看出,本发明的方法和设备不同于下面所述的已有技术。在已有技术中,每个处理阶段都进行粒子的分类,该阶段中未归类的粒子则被认为是人工产物或未知的。为了尽可能少地把粒子分类为人工产物或未知物,在每一级的分类的数值范围都较大。这会引起粒子的错误分类。
相反,本发明每一级的分类的数值范围都较窄,这样,只有那些具有较大必然性概率的粒子可被如此分类,而其余的粒子则在与以前的处理级相关的其它处理的分类中进行分类。本发明的多网络结构使用粒子特征的子群以粒子的属性或物理特性(如其圆度)以及/或者包含未知类别的单个和成组粒子分类来划分判断空间。这样划分的判断空间在每次判断时产生概率因数,更有效地使用必然是有限的可用信息,并且有效地允许使用该信息进行总量相同但在每一级具有较少的可能结果的总判断。前处理和后处理使试探信息能够作为判定执行过程的一部分被包括于其中。后处理可使应用从其它信号源获得,或者从实际的判定执行过程中搜集到的上下文信息以进一步处理概率因数并增强判断。在多个处理阶段的神经网络必然性测量的使用促使图像成为弃权类别,如人工产物。在某种意义上,我们可把这种多网络方法看作是促使图像数据进行严格的检验,其中在每一阶段检验中,它都非常可能被置于“我不知道”的类别当中。这比单单经过一个网络要有效得多,实际上,这是因为多网络方法实现的是数据与模板的多个配合,由于更充分地利用了信息,因此它比单个模板所能确定得更加明确。另一种考虑这个情况的方式是对不同子空间中的数据进行分析,要求该数据与该子空间的特征在某种意义上完美符合,或者符合得足够好,否则,该数据就退出该分析过程。本发明的训练方法不只是简单地经过该训练组,而是要从大量网络中进行选择以降低特征矢量的尺寸。大量的特征本身将会提高系统的准确性,其中每个特征关注一个特定组的物理特性。
须要理解,本发明并不限于以上所述并在这里示出的实施例,还包括可以包含在所附权利要求范围内的任意及所有变化。因而须要理解,尽管本发明是根据生物样本的图像分类来描述的,但它也包括其特征可被提取并用于把图像分类的任何图像的图像分析。例如,本发明可用于面部识别。特征可被提取用于识别眼睛、鼻子、嘴等的形状、大小、位置和维度并将其分类,或者提取更全面的特征如脸形和大小,这样,面部图像就可被识别并被分类为预定的类别。
权利要求
1.一种用于把图像中的成分归类为多个类别之一的方法,其中该成分具有多个特征,该方法包括的步骤是从该成分的图像中提取多个特征;至少通过以下步骤之一确定该成分的类别选择并处理提取特征的第一子群以确定该成分的物理特性,和通过响应所确定的物理特性选择并处理提取特征的第二子群,以确定该成分的类别;以及选择并处理提取特征的第三子群以确定该成分的一组类别,和通过响应所确定的类别组选择并处理提取特征的第四子群,以确定该成分的类别;以及根据之前确定的多个类别判定结果修改该成分已确定的类别。
2.如权利要求1的方法,其中该成分是生物粒子。
3.如权利要求1的方法,其中每个确定过程均包括指定概率因数,并且在用于把该成分分类的一个或多个概率因数未超过一个预定阈值时还包括把所确定的类别改为人工产物类别的步骤。
4.如权利要求1的方法,还包括步骤根据该成分的物理特性把该成分归类为人工产物,其中人工产物成分回避了该成分的类别的确定。
5.如权利要求1的方法,还包括步骤确定该成分的边界是否与包含该成分的图像的边相交,以及在确定该成分边界与图像的边相交的情况下,把该成分已确定的类别改为人工产物类别。
6.如权利要求1的方法,其中提取特征的第一、第二、第三和第四子群的处理使用神经网络来执行。
7.如权利要求6的方法,还包括步骤通过利用训练组的已知成分以及测试组的成分,选择并处理提取特征的第一、第二、第三和第四子群来训练神经网络,其中神经网络的训练被重复执行,直到测试组成分的类别的确定准确率达到一个预定值为止。
8.如权利要求6的方法,其中通过把每个特征值修改一个预定的量并选择那些对相应的神经网络影响最大的特征来选择多个特征的第一、第二、第三和第四子群。
9.如权利要求1的方法,其中多个提取特征之一是该成分的对称性,对称性特征的提取包括定义穿过该成分矩心的第一线段;沿着第一线段上的点定义第二和第三线段,它们在相反的方向上从第一线段垂直延伸;利用第二和第三线段的长度差计算该成分的提取对称性特征。
10.如权利要求1的方法,其中多个提取特征之一是该成分图像的简化,简化特征的提取包括正交压缩该成分的边界以形成一条或多条线段。
11.如权利要求1的方法,其中多个提取特征的至少之一是该成分图像的空间分布的测量,并且多个提取特征的至少另外之一是该成分图像的空间频率领域的测量。
12.一种用于把图像中的成分归类为多个类别之一的成像设备,其中该成分具有多个特征,该设备包括从该成分的图像中提取多个特征的装置;确定该成分的类别的装置,该确定装置至少包括以下装置之一用于选择并处理提取特征的第一子群以确定该成分的物理特性的装置,以及通过响应所确定的物理特性选择并处理提取特征的第二子群以确定该成分的类别的装置;以及用于选择并处理提取特征的第三子群以确定该成分的一组类别的装置,以及通过响应所确定的类别组选择并处理提取特征的第四子群以确定该成分的类别的装置;以及根据之前确定的多个类别判定结果修改该成分已确定的类别的装置。
13.如权利要求1 2的设备,其中该成分是生物粒子。
14.如权利要求1 2的设备,其中每个确定过程均包括指定概率因数,并且该确定装置还包括在用于把该成分分类的一个或多个概率因数未超过一个预定阈值时把所确定的类别改为人工产物类别的装置。
15.如权利要求12的设备,还包括根据该成分的物理特性把该成分归类为人工产物的装置,其中人工产物成分绕过了该确定装置。
16.如权利要求12的设备,还包括确定该成分的边界是否与包含该成分的图像的边相交的装置,以及在确定该成分边界与图像的边相交的情况下,把该成分已确定的类别改为人工产物类别的装置。
17.如权利要求12的设备,其中提取特征的第一、第二、第三和第四子群的处理使用神经网络来执行。
18.如权利要求17的设备,还包括通过利用已知成分的训练组以及测试组的成分选择并处理抽取特征的第一、第二、第三和第四子群来训练神经网络的装置,其中训练装置重复训练神经网络,直到测试组成分的类别的确定准确率达到一个预定值为止。
19.如权利要求17的设备,其中通过以一个预定的量来修改每个特征值并选择那些对相应的神经网络影响最大的特征来选择多个特征的第一、第二、第三和第四子群。
20.如权利要求12的设备,其中多个提取特征之一是该成分的对称性,该提取装置包括用于定义穿过该成分矩心的第一线段的装置;用于沿着第一线段上的点定义第二和第三线段的装置,它们在相反的方向上从第一线段垂直延伸;利用第二和第三线段的长度差计算该成分的提取对称性特征的装置。
21.如权利要求12的设备,其中多个提取特征之一是该成分图像的简化图,并且该提取装置还包括用于正交压缩该成分的边界以形成一条或多条线段的装置。
22.如权利要求12的设备,其中多个提取特征的至少之一是该成分图像的空间分布的测量,并且多个提取特征的至少另外之一是该成分图像的空间频率域的测量。
23.一种用于把图像中的成分归类为多个类别之一的方法,其中该成分具有多个特征,该方法包括的步骤是从图像中提取多个特征;根据由第一确定标准所提取的多个特征确定该成分的分类,其中第一确定标准包括把该成分归类为未知类别;在该成分被第一确定标准归类为未知类别的情况下,由不同于第一确定标准的第二确定标准来确定该成分的分类;和在该成分被第一确定标准归类为多个类别之一的情况下,由不同于第一和第二确定标准的第三确定标准确定该成分的分类。
24.一种用于把图像中的成分归类为多个类别之一的成像设备,其中该成分具有多个特征,该设备包括提取器,用于从该成分的图像中提取多个特征;第一处理器,用于至少通过以下步骤之一确定该成分的类别选择并处理提取特征的第一子群以确定该成分的物理特性,并通过响应所确定的物理特性选择并处理提取特征的第二子群以确定该成分的类别;以及选择并处理提取特征的第三子群以确定该成分的一组类别,并通过响应所确定的类别组选择并处理提取特征的第四子群以确定该成分的类别;以及第二处理器,它根据多个先前确定的类别确定结果修改该成分已确定的类别。
全文摘要
一种多个神经网络的成像设备(2)和方法,用于诸如生物粒子的图像成分的分类。该多网络结构使用粒子特征的子群以粒子的属性或物理特性以及/或者包括未知类别的单个和成组粒子分类来划分判断空间。前处理(6)根据特定的物理特性把粒子归类为人工产物。后处理(6)可使用从其它信息源获得或通过实际判断处理搜集的上下文信息,以进一步处理概率因数并增强判断。
文档编号G01N15/14GK1383522SQ01801791
公开日2002年12月4日 申请日期2001年4月24日 优先权日2000年4月24日
发明者H·L·卡斯丹, M·R·阿舍, M·钟 申请人:国际遥距成象系统公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1