数据处理,图像处理和图像分类方法及设备,及存储介质的制作方法

文档序号:84607阅读:330来源:国知局
专利名称:数据处理,图像处理和图像分类方法及设备,及存储介质的制作方法
技术领域
本发明涉及数据处理方法,图像处理方法,图像分类方法及设备,以及存储介质。
背景技术
作为一种数据处理方法,K-均值聚类(K-means Cluster)方法是到目前为止应用非常广泛的用以发现数据中的聚类的方法。K-均值聚类方法被应用在很多领域,包括图形,计算机视觉,信号处理,压缩,以及计算几何(参见Anne-Claude Doux,Jean-Philippe Laurent,和Jean-Pierre Nadal,Symbolic Data Analysis with the K-Means Algorithm,Paris,France)。有很多发表的论文集中在如何加快该方法(参见BarbaraHohlt,Pthread Parallel K-means,CS267 Applications of ParallelComputing UC Berkeley December 14,2001;Jesse D.Hall John C.Hart,University of Illinois at Urbana-Champaign,GPU Acceleration ofIterative Clustering,June 4,2004)。但是本发明所提出的进一步的问题是如何更均匀地聚类数据。因此有必要开发一种改进的数据聚类方法以解决问题。至于数据聚类方法的使用,研究如何在图像处理甚至图像分类中有效地使用该改进的数据聚类方法也是有益的。

发明内容本发明的一个目的是根据标准K-均值方法开发一种新的数据聚类方法。
本发明的另一个目的是在图像处理以及图像分类中使用新的数据聚类方法。
本发明提供了一种数据处理方法,包括步骤输入包括了数个数据元素的数据集;将该数据集聚类到聚类中,满足以下的条件对于所述的数个数据元素的任一数据元素,所述任一数据元素和该任一数据元素所属的聚类的中心之间的加权距离小于等于该任一数据元素和该任一数据元素不属于的任一其它聚类的中心之间的加权距离,并且选择加权因数和中心使得该聚类均匀;对于所聚类的数据集进行后处理。
本发明还提供了一种图像处理方法,包括步骤输入包括数个图像元素的图像;将该图像元素聚类到聚类中,满足以下的条件对于所述的数个图像元素的任一图像元素,所述任一图像元素和该任一图像元素所属的聚类的中心之间的加权距离小于等于该任一图像元素和该任一图像元素不属于的任一其它聚类的中心之间的加权距离,并且选择加权因数和中心使得该聚类均匀;对于所聚类的图像元素进行进一步的处理。
本发明进一步提供了一种图像分类方法,包括步骤输入有待分类的图像,该图像包括数个图像元素;将该数个图像元素聚类到聚类中,满足以下条件对于所述的数个图像元素的任一图像元素,所述任一图像元素和该任一图像元素所属的聚类的中心之间的加权距离小于等于该任一图像元素和该任一图像元素不属于的任一其它聚类的中心之间的加权距离,并且事先确定加权因数和中心;从聚类中提取特征;使用所提取的特征对图像进行分类。
通过本发明,开发了一种根据标准K-均值方法的新的数据聚类方法。
在图像处理以及图像分类中使用新的数据聚类方法产生了很好的性能。
从以下参照附图对优选实施例所作的说明,本发明的其它特征和优势将明显可见,该附图通过示例描述了本发明的原理。
图1是标准K-均值聚类方法的流程图;图2的流程图表示了根据本发明的一种新的数据聚类方法以及根据该新的数据聚类方法的数据处理方法的流程图;图3是本发明的数据处理设备;图4表示使用了许多数据集的标准K-均值聚类方法的性能;图5表示使用了许多数据集的本发明的新的数据聚类方法的性能;图6表示根据本发明的一种图像处理方法;图7表示执行图6所示的图像处理方法的图像处理装置;图8表示根据本发明的图像分类方法;图9表示根据本发明的图像分类设备,用以执行图8所示的图像分类方法。
具体实施方式根据本发明,标准K-均值数据聚类方法被进一步地开发为一种新的数据聚类方法。
首先结合附图1对作为一种旧的数据处理方法的标准K-均值聚类方法进行简要的描述。
标准的K-均值数据聚类方法是一种迭代的非层级方法。其由J.B.MacQueen在1976年提出。
在步骤S10,输入包括有待聚类的n个数据元素(例如,矢量)的数据集{v}(v1v2...vn),使用下面的方法得到k个聚类,其中k为一给定的数目,并且k小于n。
在步骤S11,给出了初始的k个中心数据元素(例如,矢量)(在任何方法中,例如,从数据集{v}中随机地选择k个数据元素)。
令m1m2...mk为这k个中心数据元素。
在步骤S12,将该数据集{v}聚类到k个聚类{v}1,{v}2...{v}k中。该k个聚类满足条件对于{v}i中的任意数据元素v以及任意的j≠i,dis(v,mi)≤dis(v,mj)。
这里dis(v1,v2)意味着数据元素v1和数据元素v2之间的距离。其可以是任何类型的距离测量,例如,Euclidean距离。
在步骤s13,如下再次计算k个中心数据元素mi=mean({v}i),也就是数据集{v}i的均值。
在步骤s14,除非满足某些条件,例如,所有的迭代的次数大于固定值或是在本次迭代中m1m2...mk没有发生变化,否则进行到步骤s12。
下面描述本发明的新的数据聚类方法。
本发明的目的在于非常均匀地聚类数据,但是标准的K-均值算法不能做到。为了达到该目的,本发明介绍了一种新的数据聚类方法以及根据新的数据聚类方法的数据处理方法,如图2所示,由图3所示的数据处理设备30执行。
在步骤s20,包括有数个数据元素vi(i=1..n)的数据集{v}由数据输入装置31输入。
通过数据聚类装置32,所输入的数据集被如下聚类在步骤s21,给出了初始k个中心数据元素(例如,矢量),(在任何方法中,例如,从数据集{v}中随机地选择k个数据元素)。
令m1m2...mk为这k个中心数据元素(矢量)。
在步骤s22,给出了初始k个系数或是加权因数c1c2...ck。
对于i=1,2...k,令ci=1/k。
在步骤s23,数据集{v}被聚类到k个聚类{v}1,{v}2...{v}k中。该聚类满足条件对于{v}i中的任意数据元素v,以及任意的j≠i,ci×dis(v,mi)≤cj×dis(v,mj)。
这里dis(v1,v2)意味着数据元素v1和数据元素v2之间的距离。其可以是任何类型的距离测量,例如,Euclidean距离。
在步骤S24,如下再次计算k个中心数据元素mi=mean({v}i),也就是数据集{v}i的均值。
在步骤s25,如下再次计算k个系数或加权因数c1c2...ckci=1-klog(1-ci)/(log(n)-log(numberof({v}i)))]]>其中,numberof({v}i)意味着数据集{v}i中的数据元素的数目。接着如下将k个系数或加权因数标准化ci=ci/Σj=1kcj]]>在步骤s26,除非满足某些条件,例如,所有的迭代的次数大于一固定值或是在本次迭代中m1m2...mk不发生改变,否则进行到步骤s23。
在步骤s27,聚类的数据集接受后处理装置33的后处理,例如特征提取,数据分类等等。
对本发明的新的数据聚类方法的分析如下该新的数据聚类方法的关键点在于系数或是加权因数c1c2...ck以及得到该系数的方法。
通过该新的数据聚类方法,结果聚类非常均匀。
为了更清晰地描述该新的数据聚类方法,我们假定k=2。换句话说,我们将整个数据集{v}分成两个聚类{v}1,{v}2。令c1和c2成为在一些迭代之后的系数或是加权因数,c1′和c2′是经过这次迭代之后的更新的系数或加权因数。
c1′=1-2log(1-c1)/(log(n)-log(numberof({v}1)))]]>c2′=1-2log(1-c2)/(log(n)-log(numberof({v}2)))]]>如果某些聚类的计数,例如第一聚类的计数大于平均计数n/2,换句话说,numberof({v}1)>n/2,那么可以推出下面的表达式numberof({v}2)=n-numberof({v}1)<n-n/2=n/2
c1′=1-2log(1-c1)/(log(n)-log(numberof({v}1)))]]>>1-2log(1-c1)/(log(n)-log(n/2))]]>=1-2log(1-c1)/log(2)]]>=1-(1-c1)]]>=c1]]>c2′=1-2log(1-c2)/(log(n)-log(numberof({v}2)))]]><1-2log(1-c2)/(log(n)-log(n/2))]]>=1-2log(1-c2)/log(2)]]>=1-(1-c2)]]>=c2]]>对于聚类{v}2中的满足c2×dis(v,m2)≤c1×dis(v,m1)的数据元素v,可以推出,c2′×dis(v,m2)<c2×dis(v,m2)≤c1×dis(v,m1)<c1′×dis(v,m1)。根据上述的推导,数据元素v在本次迭代之后仍然属于{v}2。
也就是说,较小聚类中的数据元素在本次迭代之后将仍属于其聚类。
另一方面,{v}1中的数据元素v满足c1×dis(v,m1)≤c2×dis(v,m2)。
如上所述,经过上述迭代之后,c’2小于c2,并且c’1大于c1。对于{v}1中的某些数据元素v,可能发生下面的情况c2′×dis(v,m2)<c1′×dis(v,m1)因此经过本次迭代之后,矢量v属于{v}2而不是{v}1。
总而言之,可以得出结论在本次迭代之后,{v}1可能变小而{v}2可能变大,因此结果聚类就变得越来越均匀。
当结果聚类变得越来越均匀时,根据下面的公式,系数或加权因数c1c2...ck变化较小
limnumberof({v}i)->n/21-2log(1-ci)/(log(n)-log(numberof({v}i)))]]>=1-2log(1-ci)/(log(n)-log(n/2))]]>=1-2log(1-ci)/log(2)]]>=1-(1-ci)]]>=ci]]>这表明当聚类变得均匀时,系数或加权因数以及聚类都稳定。并且其可以作为均匀聚类的标准。
新的数据聚类方法和标准K-均值聚类方法的比较如下所示标准K-均值方法不能使数据集的结果聚类为均匀的。通过使用本发明的数据聚类方法,结果聚类的尺寸将会变得越来越均匀,但是旧的方法并没有追求这个目的。
另一方面,通过本发明的步骤,新的数据聚类方法可以使得结果聚类越来越均匀。
通过使用许多数据集,对标准K-均值聚类方法和本发明的新的数据聚类方法进行比较。图4和图5可以清楚地描述两种方法的结果之间的差距。图4表示标准K-均值方法可以对输入的数据进行聚类。但是聚类的尺寸不均匀,参见图4的直方图。本发明的新的数据聚类方法同样对输入的数据进行聚类。进一步地聚类的尺寸几乎相同,如图5所示。
在图4和图5中,x轴表示聚类的指数,y轴表示聚类尺寸。
根据以上的描述进行总结如果聚类结果不均匀,一些结果聚类的尺寸可能相较于其他聚类而言很小;如果聚类结果均匀,根据信息理论,能越均匀,平均信息量越大。而平均信息量越大,则得到更多的信息,在均匀的情况下,可以带来更多的信息,因此数据处理方法可以得到更好的性能。
根据以上的数据处理方法,本发明还开发了一种通过使用本发明的数据聚类方法的图像处理方法。在很多图像处理方法中,例如,图像识别,图像分类,图像编码,图像转换等等,有待处理的图像需要接受聚类处理。
图6表示了根据本发明的图像处理方法。图7表示了执行图6所示的图像处理方法的图像处理设备70。在步骤s61,有待处理的图像被图像输入装置71输入。所述输入的图像包括数个图像元素{v}(v1v2...vn),例如,图像的像素,用每个像素的r,g,b值表达为((r,g,b)}((r,g,b)1,(r,g,b)2,...(r,g,b)n)。在步骤s62,通过图像元素聚类装置72,数个图像元素{v}(v1v2...vn)根据上述的新的数据聚类方法被聚类。从步骤s20到步骤s26,图像元素被聚类到k个聚类{v}1,{v}2...{v}k。对于{v}i中的任意图像元素v以及任意j≠i,ci×dis(v,mi)≤cj×dis(v,mj)。
这里dis(v1,v2)意味着图像元素v1和v2,也就是,(r,g,b)1和(r,g,b)2之间的距离。其可以为任何类型的距离测量.例如,Euclidean距离。Mj为{v}i的中心。
较之标准的K-均值聚类方法,这样聚类的图像元素{(r,g,b)}((r,g,b)1,(r,g,b)2,...(r,g,b)n)将会更加均匀。并且在步骤s63,均匀的聚类随后被用于由进一步处理装置73执行的进一步的处理,例如输出,存储,图像识别或图像分类,并且带来图像处理的较佳性能。
上述图像处理的较佳性能将在以下根据本发明的图像元素聚类方法开发出来的图像分类方法中得以示例性地显示。
在以下的实施例中,新的图像元素聚类方法用于图像分类,以确定一个图像是否属于例如蓝天图像或非蓝天图像。本发明从图像中得到颜色直方图特征并且使用Fisher线性分类器以确定图像的类别。新的图像元素聚类方法用以将像素(表述为颜色空间值r,g,b)分配为均匀的聚类,为计算颜色直方图特征做准备。
本发明的图像分类方法如图8所示地被详细描述并且如图9所示地由图像分类设备执行。
作为一个可选的步骤,在步骤s81,优选地由图像输入装置91输入的输入图像被重调尺寸到一个特殊的尺寸,例如19200像素。图像的宽高比在重调尺寸之后没有发生变化。
在步骤s82,重调尺寸的图像中的像素由图像元素聚类装置92通过使用上面的新的图像元素聚类方法进行聚类。
本发明使用了矢量v=[r,g,b],其中r,g,以及b为颜色像素的r,g,和b颜色分量值。令像素集{v}由从重调尺寸的图像像素得到的矢量组成。本发明使用上面的新的图像元素聚类方法将像素集{v}聚类到k个聚类{v}i,{v}2...{v}k,对于{v}i中的任意v以及j≠i,满足条件ci×dis(v,mi)≤cj×dis(v,mj)(如果聚类方法为标准k-均值聚类方法,则条件变为dis(v,mi)≤ dis(v,mj)),其中m1m2...mk以及c1c2...ck为提前得到的。在下面的描述中将描述对于m1m2...mk以及c1c2...ck的训练方法。这里dis(v1,v2)意味着v1和v2之间的距离。其可以为任何类型的距离测量,在本方法中,使用了Euclidean距离。
在步骤s83,图像特征提取装置93提取图像特征。
这里,提取出了名为imf(i)的k-dim特征,其中对于i=1,2,3...k-1,imf(i)=numberof({v}i),且numberof({v}i)意味着像素集{v}i的计数。
在步骤s84,图像分类装置94通过使用上面提取的特征对图像进行分类。
定义k-dim权重w(i)。并且“th”被定义为阈值。
如果Σi=1kimf(i)×w(i)≥th,]]>则该图像为正片,否则不是。
计算下面参数m1m2...mk,c1c2...ck,w(i)(i=1,2,3...k-1)以及“th”的方法如下所述首先,描述计算m1m2...mk和c1c2...ck的方法。
在步骤s81选择许多图像并对其重调尺寸。
如在步骤s82所述,令像素集{v}由从重调尺寸后的图像的像素中得到的矢量组成。
接着使用本发明的新的图像元素聚类方法将像素集{v}聚类到k个聚类{v}1,{v}2...{v}k。并且也得到m1m2...mk和c1c2...ck。
下面描述计算w(i)(i=1,2,3...k-1)的方法。
1.得到许多蓝天图像和非蓝天图像;2.对于每个图像,得到矢量imf(i)(i=1,2,3...k-1)。于是,对于上面的两种图像,得到两种矢量。每一种都来自于对应种类的图像。
3.使用Fisher线性分类器训练两种类型的矢量,得到权重矢量w(i)(i=1,2,3...k-1)。
获得“th”的方法在下面进行描述。
选择“th”作为imf(i)和w(i)的内积,标准是在先步骤中得到的Fisher线性分类器可以得到对于使用该阈值的训练集而言为最好的结果(真实率和错误率之间的差值最大)。
下面的表格描述了使用上面两种聚类方法的图像分类算法的性能。该两种方法意在确定蓝天图像或非蓝天图像。示例性地,k在此处取为64。
算法 返回率 错误率使用标准k-均值 85.45% 20.00%使用新的聚类算法 88.80% 18.19%从结果我们可以得到,在图像分类方法中使用了新的聚类方法可以得到比使用标准K-均值聚类方法更佳的性能。
接着解释上面的返回率和错误率。
当在一种类别上适用时,本发明使用两个值来评估分类算法的能力。一个是所谓的“Recall”。假设n为一个类别中图像的数目并且NTure表示由该算法正确分类到该类别中的图像的数目。于是返回率r是NTure与n的比值。也就是r=NTrue/n另一个值称为“错误率”。假定不属于一个类别的图像的数目为m,且NFalse表示由该算法错误分类到该类别中的图像的数目,于是错误率fr是NFalse与m的比值。也就是fr=NFalse/m
这两个值被用来评估和比较使用标准K-均值聚类方法和本发明的新的数据聚类方法的图像分类。
根据上面的描述,新的数据聚类方法对于图像分类可以产生好的性能。
原因在于新的聚类算法可以得到均匀的聚类结果。
如果聚类结果不均匀,一些结果聚类的尺寸相较于其它的聚类可能会非常小。当在图像分类算法中使用了这样的结果聚类时,小尺寸聚类的对应图像特征imf(i)会非常小,甚至在某些输入图像中为零,这就意味着某些聚类没有很好地使用,这将削弱该方法的性能。而当聚类结果均匀时,就不会存在这样的问题。
如果聚类结果均匀,图像特征imf(i)一般也均匀。根据信息理论,能越均匀,平均信息量就越大。于是当imf(i)取做能时,均匀的imf(i)的平均信息量就大于不均匀的imf(i)的平均信息量,而当平均信息量越大时,就可以得到更多的信息,在均匀的情况下,imf(i)可以带来更多的信息,因此算法可以得到更好的性能。
数据处理方法,图像处理方法,以及图像分类方法在以下图像分类的例子中用数字进行显示。
从3470个样本图像中,在每个样本图像中随机地选择出100像素的(r,g,b)矢量作为样本矢量。这样就可以获得总共347000个这样的样本矢量,其中的十个列举如下79 127 176129 144 175163 178 2094 9 3880 102 1235 8 1321 32 6096 167 22163 124 18751 72 91... ...
首先,通过使用标准K-均值聚类方法将上面的347000个矢量聚类到64个聚类中。
K个中心m1m2...mk如下初始化(每一行为m,一共64个m)191 189 17661 76 4550 20 1081 132 189126 141 134215 170 10572 78 52132 136 16126 24 25201 186 189129 112 661 2 7217 227 22624 41 1194 35 102142 91 70137 136 13151 38 2995 25 1780 76 6525 20 274 39 6726 3 13155 152 16916 30 5192 187 183
103 70 5386 42 39119 120 11215 24 33140 152 14240 71 1176 81 1007 5 6129 150 135106 21 18111 69 53133 112 95185 90 70150 140 11529 27 4120 24 2587 128 1323 64 5696 131 15029 59 132197 186 18444 63 59152 137 13410 111 13985 70 2748 53 33118 105 70232 223 22890 99 192
13 0 369 47 34110 64 388 9 4208 201 149212 156 10598 23 1770 62 60104 73 55关于每个中心聚类的样本矢量的数目分别为4452,3137,7247,8391,2195,5009,3871,6644,6968,7721,4963,11833,11702,2153,1636,5204,3171,7317,2407,8911,2280,2922,6106,14650,3793,8463,1417,2309,10856,4220,3031,1703,15665,7608,575,2857,2279,6504,10099,6840,7057,5951,5231,768,5064,5139,809,9136,4186,2428,3727,7242,8564,7131,3055,2838,4873,5180,8335,4602,5392,529,7597,3057根据上面聚类的样本矢量,新中心(m1m2...mk)计算为185 181 16659 77 4151 19 1084 141 200121 132 136223 185 8475 86 50126 138 16829 27 21201 196 201133 126 551 2 3208 217 221
27 43 11310 35 99145 88 62135 130 13048 36 2886 29 1381 80 7025 15 2513 33 6826 8 10152 162 18119 28 7170 187 20195 65 5287 43 40113 114 11210 19 36148 155 14443 69 1276 85 1027 5 8124 162 127131 20 19121 69 55135 112 94196 95 48156 142 10531 31 4417 20 20
84 110 13110 68 5999 121 15434 68 138203 182 17745 56 65163 141 13516 101 16685 73 2346 51 36106 103 73237 232 22879 98 18114 2 268 47 33125 64 2810 12 7218 199 147208 146 9193 12 1267 59 62102 82 60关于每个新中心聚类的样本矢量的数目分别为6362,3349,5698,6362,4167,4070,4209,6587,7925,7364,4382,12206,10393,2910,1674,5455,5339,6350,3018,8492,2708,3050,5854,9360,3060,9514,3447,2456,9596,4020,5536,1954,11003,7139,912,2594,2699,7312,7641,5975,6610,7343,6258,1068,5000,4502,2969,8094,5088,3093,3025,7680,9015,7634,3516,3196,5102,4461,7715,4226,5317,115,8348,4083经过100次的重复,最后一次的中心为
170 168 16761 74 3065 13 1095 151 209119 123 132230 177 4680 102 43117 135 17030 28 23187 188 194110 128 562 2 2208 212 21538 66 11311 41 125167 106 49138 129 11247 32 2182 37 1473 75 7119 19 2315 25 7534 12 8138 161 19519 31 8157 191 21783 61 48115 48 33100 105 110
9 17 41147 146 14638 56 1770 82 1005 4 10148 163 81190 34 39131 83 56126 106 86219 104 36165 118 9029 33 4314 13 1463 89 13816 57 7192 113 14519 80 165219 199 16647 54 77184 157 12625 123 203102 71 2244 46 4395 93 83234 233 23276 113 1811 4 365 45 35154 70 24
8 12 5230 193 108211 136 80122 16 1759 60 55100 79 60关于在最后一次获得的每个中心聚类的样本矢量的数目分别为9065,3734,3 522,4253,7488,2322,3513,6667,7144,8675,3393,12317,12737,3730,2305,4234,7960,6166,3891,8715,7125,2553,5892,7043,2965,5861,5406,2942,9125,3406,9250,2949,6622,5739,2127,1904,5322,7853,3491,5149,5962,8874,4849,2408,5364,2619,5420,5623,6599,1833,2770,8560,8710,8155,4342,4680,5367,2923,4498,3308,3518,1978,8145,5940其次,通过使用本发明的方法,将上面347000个矢量聚类到64个聚类中。
K个中心m1m2...mk如下初始化(每一行为一个m,共有64个m)191 189 17661 76 4550 20 1081 132 189126 141 134215 170 10572 78 52132 136 16126 24 25201 186 189129 112 661 2 7217 227 22624 41 119
4 35 102142 91 70137 136 13151 38 2995 25 1780 76 6525 20 274 39 6726 3 13155 152 16916 30 5192 187 183103 70 5386 42 39119 120 11215 24 33140 152 14240 71 1176 81 1007 5 6129 150 135106 21 18111 69 53133 112 95185 90 70150 140 11529 27 4120 24 2587 128 132
3 64 5696 131 15029 59 132197 186 18444 63 59152 137 13410 111 13985 70 2748 53 33118 105 70232 223 22890 99 19213 0 369 47 34110 64 388 9 4208 201 149212 156 10598 23 1770 62 60104 73 55加权因数c1c2...ck的每一个都被初始化为1/64,也就是,0.015625。
关于每个中心聚类的样本矢量的数目分别为4452,3137,7247,8391,2195,5009,3871,6644,6968,7721,4963,11833,11702,2153,1636,5204,3171,7317,2407,8911,2280,2922,6106,14650,3793,8463,1417,2309,10856,4220,3031,1703,15665,7608,575,2857,2279,6504,10099,6840,7057,5951,5231,768,5064,5139,809,9136,4186,2428,3727,7242,8564,7131,3055,2838,4873,5180,8335,4602,5392,529,7597,3057根据上面聚类的样本矢量,新的中心(m1m2...mk)计算为
185 181 16659 77 4151 19 1084 141 200121 132 136223 185 8475 86 50126 138 16829 27 21201 196 201133 126 551 2 3208 217 22127 43 11310 35 99145 88 62135 130 13048 36 2886 29 1381 80 7025 15 2513 33 6826 8 10152 162 18119 28 7170 187 20195 65 5287 43 40113 114 112
10 19 36148 155 14443 69 1276 85 1027 5 8124 162 127131 20 19121 69 55135 112 94196 95 48156 142 10531 31 4417 20 2084 110 13110 68 5999 121 15434 68 138203 182 17745 56 65163 141 13516 101 16685 73 2346 51 36106 103 73237 232 22879 98 18114 2 268 47 33125 64 28
10 12 7218 199 147208 146 9193 12 1267 59 62102 82 60加权因数c1c2...ck再次计算为0.015471,0.014912,0.016414,0.016746,0.014422,0.015679,0.015237,0.016229,0.016330,0.016555,0.015662,0.017636,0.017604,0.014398,0.014067,0.015749,0.014928,0.016435,0.014542,0.016890,0.014471,0.014809,0.016057,0.018285,0.015205,0.016766,0.013908,0.014487,0.017397,0.015380,0.014862,0.014113,0.018507,0.016522,0.013068,0.014777,0.014470,0.016185,0.017205,0.016290,0.016357,0.016006,0.015759,0.013311,0.015699,0.015726,0.013357,0.016951,0.015366,0.014554,0.015177,0.016413,0.016794,0.016379,0.014874,0.014768,0.015629,0.015741,0.016730,0.015528,0.015816,0.013002,0.016518,0.014874,关于每个新的中心聚类的样本矢量的数目分别为6296,3510,5516,6224,4490,4102,4361,6673,7614,7173,4506,11965,10010,3267,1745,5518,5465,6233,3081,8301,3170,3141,5723,8299,3241,9701,3783,2550,9032,4037,5882,2141,10013,7183,1218,2711,2890,7409,7173,5656,6473,7261,6668,1255,4945,4406,3883,7670,5116,3226,2984,7541,8709,7774,3725,3543,5129,4300,7521,4084,5437,1714,8220,4413经过100次的重复,最后一次的中心为176 174 17458 70 4065 19 11123 165 207113 122 137
215 189 15184 100 43120 137 17020 18 20190 207 221118 137 652 1 1217 219 22156 71 9918 53 126167 109 58130 125 11736 24 17117 27 2165 69 7013 13 1215 30 6834 10 7150 157 17418 28 11157 184 21075 62 52103 65 47107 109 11012 17 36141 141 14541 56 1978 85 902 2 2
153 145 118220 124 44124 88 66121 105 90228 188 82152 117 9327 30 326 7 1486 98 11737 54 7787 113 15859 86 139190 191 19438 42 45172 161 14428 104 18584 52 2044 35 2898 96 84237 237 23687 134 20016 5 461 43 37136 78 315 6 4219 210 195193 144 104189 57 3953 53 55
87 80 68加权因数c1c2...ck为0.020386,0.013524,0.013216,0.015904,0.018817,0.014602,0.012724,0.017542,0.020310,0.020817,0.010569,0.013418,0.032077,0.013229,0.009845,0.012358,0.019450,0.014492,0.008763,0.018671,0.021267,0.010576,0.012992,0.020416,0.011769,0.018941,0.016793,0.013405,0.018815,0.011659,0.020423,0.011007,0.016835,0.021746,0.015626,0.010632,0.015364,0.016376,0.009660,0.014614,0.017199,0.013569,0.017204,0.012987,0.015573,0.012106,0.021543,0.018072,0.018799,0.008236,0.012332,0.015587,0.019748,0.018140,0.012617,0.014484,0.015205,0.011090,0.018991,0.018533,0.012981,0.008019,0.017797,0.019559,在最后一次获得的关于每个中心聚类的样本矢量的数目分别为5958,5219,5178,5502,5807,5351,5113,5681,5952,5997,4804,5262,6862,5180,4689,5064,5870,5337,4505,5793,6041,4805,5149,5962,4983,5821,5600,5203,5811,4968,5963,4871,5605,6082,5470,4814,5440,5555,4659,5352,5640,5222,5644,5148,5464,5029,6066,5739,5808,4409,5061,5461,5899,5741,5098,5339,5421,4883,5766,5781,5147,4368,5706,5882w(i)(i=1,2,3...k-1)和th如下计算根据上面获得的m1m2...mk和c1c2...ck,获得1001个蓝天样本的imf(i),其中的三个如下所列出的0 0 0 0 0 0 0 0 8 2 00 0 667 0 0 0 459 156 0 5170 11 79 0 103 438 62 507 3000 3480 908 0 346 0 391 1120 0436 38 63360 3066 584 0 561 19 847 286 206 10563 29 674 0 71 267 0 339 39 0 5560 0 0 4 0 0 0 0 0 0 00 0 0 0 0 93 226 78 0 30
77 811 128 1823 354 18 317 126 145 421152 0 249 0 241 946 324 365 540 1761426 997 1256 319 71 152 107 1 27 392205 3 673 66 782 21 24 1168 1383 012170 534 0 2 3 0 0 0 0 00 0 22 0 0 0 109 85 0 92 033 1130 102 1183 403 170 113 148 800 65145 0 1404 0 683 2654 0 924 340 631153 1227 1701 953 20 171 124 0 55209 259 0 498 8 190 36 0 62 2000 414获得2469个非蓝天样本的imf(i),其中三个如下面所列出的0 0 0 0 0 0 0 0 0 0 60 0 0 0 0 0 301 12 0 009 556 1831 616 77 5 76 494 203 2319172 213 7 0 13 214 0 0 332 425143 715 987 0 733 95 2 0 53 94181 3629 0 20 58 453 1475 552 0 015990 116 106 0 0 0 0 0 0 0 00 0 196 0 0 0 91 94 0 1101 4 1949 132 3704 75 273 138 51 13178 225 0 152 0 732 634 9 326 25168 314 1047 2032 1230 2424 22 127 507 11113 56 192 490 0 26 36 33 493 150 177
0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 48 0 0 41040 494 2533 470 0 0 93 649 34235 184 2 3 0 0 55 0 0 40881572 167 2057 105 41 1542 43 7 0 00 62 1982 0 1 0 0 884 1046 00 381通过Fisher训练获得w(i)(i=1,2,3...k-1)如下-0.35227 3.3024 3.9073 -1.7244 -2.8985-2.4238 -58.575 -0.53182 4.3216 -12.966-0.78011 -2.9213 4.2854 5.5448 5.5226-5.2381 1.1366 1.4633 3.388 -0.16725-0.49971 2.7099 0.10198 0.92013 -0.310775.9307 1.879 0.43546 0.52366 0.300420.62112 3.2043 0.98369 -0.62325 -0.73779-0.59747 1.6149 0.30388 -0.64783 1.3017-0.28726 -0.13114 -0.42833 1.7196 3.97824.5136 0.4049 0.46941 2.9196 4.7745-1.7852 0.81059 2.398 -1.1094 5.21590.82322 0.83805 0.25749 -0.020983 0.1336-0.3263 0.080883 -0.00065881Th=17433根据上面的计算,下面给出分类的数字性例子给出一个蓝天样本,其特征为0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 12 0 3090 530 62 26 2480 1051 167 142 0 152
101 179 0 968 0 257 713 0 685 360 195 20 192 19 176 22 670 2691 125820 169 491 2932 0 1216 0 0 121 4450 234该特征与w(i)的内积为50384,其大于th并且分类为蓝天。
给出一个非蓝天样本,其特征为0 0 0 0 0 20 0 14 0 0 00 0 0 0 0 9 0 190 0 57 01959 385 7 347 144 411 42 3 131 011 1 131 2041 247 164 5707 305 77 4867 0 0 0 97 3 145 0 1206 1323 490 0 1171 1047 625 140 0 265 10 19该特征与w(i)的内积为901.8,其小于th并且分类为非蓝天。
本发明还可以通过将存储有执行上述实施例的功能的软件的程序编码的存储介质(或记录介质)提供给一系统或设备,以及提供该系统或设备的读出并执行存储在存储介质中的程序码的计算机(或CPU或MPU(微处理单元)),而实现。在这种情况下,从存储介质中读出的程序编码本身实现了上述实施例的功能。本发明并不局限于其中计算机执行已经读出的程序码,并且上述实施例的功能被实现的情况,以及其中运行在计算机上的操作系统或类似执行实际处理的部分或全部,使得上述实施例的功能得以实现的情况。
进一步,本发明还包括这样的安排,其中上述实施例的功能由从记录介质中读出并写入到包括在插在计算机上的功能扩展卡或连接到计算机上的功能扩展单元中的存储器中的程序码实现,接着提供给该功能扩展卡或功能扩展单元的CPU或类似完成部分或者全部的实际处理,使得上述实施例的功能得以实现。
将本发明应用在上述的存储介质上时,对应于在先描述的流程图的程序码存储在该存储介质中。
虽然本发明的描述参考了示例性的实施例,应当理解的是本发明并不限于所披露的实施例。相反,本发明意在覆盖包括在所附权利要求
的精神和范围内的各种修改和等同安排。对于随后的权利要求
的范围应当给与最为广泛的解释,从而包含所有这样的修改和等同结构和功能。
权利要求
1.一种数据处理方法,包括步骤输入包括了数个数据元素的数据集;将该数据集聚类到聚类中,满足以下的条件对于所述的数个数据元素的任一数据元素,所述任一数据元素和该任一数据元素所属的聚类的中心之间的加权距离小于等于该任一数据元素和该任一数据元素不属于的任一其它聚类的中心之间的加权距离,并且选择加权因数和中心使得该聚类均匀;对于所聚类的数据集进行后处理。
2.根据权利要求
1的数据处理方法,其中所述的距离为Euclidean距离。
3.根据权利要求
1的数据处理方法,其中聚类步骤被执行数次。
4.根据权利要求
3的数据处理方法,其中在第一次执行该聚类步骤时,对加权因数和中心进行初始化。
5.根据权利要求
3的数据处理方法,其中在每一次执行聚类步骤结束时,中心被重新计算为各个聚类的平均值,并且加权因数c1c2...ck由下面的表达式进行重新计算ci=1-klog(1-ci)/(log(n)-log(numberof({v}i))),]]>其中{v}i意味着第i个聚类,numberof({v}i)意味着聚类{v}i中数据元素的数目,ci意味着对应于聚类{v}i的加权因数,n意味着在该数据集中数据元素的数目,k意味着聚类的数目。
6.根据权利要求
5的数据处理方法,其中c1c2...ck经过下面的等式标准化ci=ci/Σj=1kcj.]]>
7.根据权利要求
5的数据处理方法,其中重新计算过的加权因数和中心用于下一次的聚类步骤。
8.一种数据处理设备,包括数据输入装置,用于输入包括数个数据元素的数据集;数据聚类装置,用于将该数据集聚类到聚类中,满足以下的条件对于所述的数个数据元素的任一数据元素,所述任一数据元素和该任一数据元素所属的聚类的中心之间的加权距离小于等于该任一数据元素和该任一数据元素不属于的任一其它聚类的中心之间的加权距离,并且选择加权因数和中心使得该聚类均匀;后处理装置,用于对所聚类的数据集进行后处理。
9.根据权利要求
8的数据处理设备,其中所述的距离为Euclidean距离。
10.根据权利要求
8的数据处理设备,其中的数据聚类装置执行数次聚类。
11. 根据权利要求
10的数据处理设备,其中在第一次聚类时,数据聚类装置对加权因数和中心进行初始化。
12.根据权利要求
10的数据处理设备,其中在每一次执行聚类步骤结束时,聚类装置重新计算中心为各个聚类的平均值,并且通过下面的表达式对加权因数c1c2...ck进行重新计算ci=1-klog(1-ci)/(log(n)-log(numberof({v}i))),]]>其中{v}i意味着第i个聚类,numberof({v}i)意味着聚类{v}i中数据元素的数目,ci意味着对应于聚类{v}i的加权因数,n意味着在该数据集中数据元素的数目,k意味着聚类的数目。
13.根据权利要求
12的数据处理设备,其中数据聚类装置经过下面的等式对c1c2...ck进行标准化ci=ci/Σj=1kcj.]]>
14.根据权利要求
12的数据处理设备,其中数据聚类装置使用重新计算过的加权因数和中心用于下一次的聚类。
15.一种存储介质,其上编码有机器可读的计算机程序码用于图像分类,该存储介质包括用于使处理器完成根据权利要求
1到7的任意一个的方法的指令。
16.一种图像处理方法,包括步骤输入包括数个图像元素的图像;将该图像元素聚类到聚类中,满足以下的条件对于所述数个图像元素的任一图像元素,所述任一图像元素和该任一图像元素所属的聚类的中心之间的加权距离小于等于该任一图像元素和该任一图像元素不属于的任一其它聚类的中心之间的加权距离,并且选择加权因数和中心使得该聚类均匀;对于所聚类的图像元素进行进一步的处理。
17.根据权利要求
16的图像处理方法,其中的图像元素vi为图像的像素,表示为矢量(r,g,b)i,其中r,g,b为每个像素的红色,绿色和蓝色值。
18.根据权利要求
16的图像处理方法,其中所述距离为Euclidean距离。
19.根据权利要求
16的图像处理方法,其中的聚类步骤执行数次。
20.根据权利要求
19的图像处理方法,其中在第一次执行聚类步骤时,对加权因数和中心进行初始化。
21.根据权利要求
19的图像处理方法,其中在每一次执行聚类步骤结束时,中心重新计算为各个聚类的平均值,并且通过下面的表达式对加权因数c1c2...ck进行重新计算ci=1-klog(1-ci)/(log(n)-log(numberof({v}i))),]]>其中{v}i意味着第i个聚类,numberof({v}i)意味着聚类{v}i中图像元素的数目,ci意味着对应于聚类{v}i的加权因数,n意味着在该图像中图像元素的数目,k意味着聚类的数目。
22.根据权利要求
21的图像处理方法,其中通过下面的等式对c1c2...ck进行标准化ci=ci/Σj=1kcj.]]>
23.根据权利要求
21的图像处理方法,其中重新计算过的加权因数和中心用于下一次的聚类步骤。
24.一种图像处理设备,包括图像输入装置,用于输入包括数个图像元素的图像;图像元素聚类装置,用于将该图像元素聚类到聚类中,满足以下的条件对于所述的数个图像元素的任一图像元素,所述任一图像元素和该任一图像元素所属的聚类的中心之间的加权距离小于等于该任一图像元素和该任一图像元素不属于的任一其它聚类的中心之间的加权距离,并且选择加权因数和中心使得该聚类均匀;进一步处理装置,用于对所聚类的图像元素进行进一步的处理。
25.根据权利要求
24的图像处理设备,其中图像元素Vi为图像的像素,表示为矢量(r,g,b)i,其中r,g,b为每个像素的红色,绿色和蓝色值。
26.根据权利要求
24的图像处理设备,其中所述的距离为Euclidean距离。
27.根据权利要求
24的图像处理设备,其中图像元素聚类装置执行数次聚类。
28.根据权利要求
27的图像处理设备,其中在第一次聚类时,图像元素聚类装置对加权因数和中心进行初始化。
29.根据权利要求
27的图像处理设备,其中在每一次聚类结束时,图像元素聚类装置重新计算中心为各个聚类的平均值,并且通过下面的表达式对加权因数c1c2...ck进行重新计算ci=1-klog(1-ci)/(log(n)-log(numberof({v}i))),]]>其中{v}i意味着第i个聚类,numberof({v}i)意味着聚类{v}i中图像元素的数目,ci意味着对应于聚类{v}i的加权因数,n意味着在该图像中图像元素的数目,k意味着聚类的数目。
30.根据权利要求
29的图像处理设备,其中图像元素聚类装置经过下面的等式对c1c2...ck进行标准化ci=ci/Σj=1kcj.]]>
31.根据权利要求
29的数据处理设备,其中图像元素聚类装置使用重新计算过的加权因数和中心用于下一次的聚类。
32.一种存储介质,其上编码有机器可读的计算机程序码用以分类图像,该存储介质包括用于使处理器完成根据权利要求
16到23的任意一个的方法的指令。
33.一种图像分类方法,包括步骤输入有待分类的图像,该图像包括数个图像元素;将该图像元素聚类到聚类中,满足以下条件对于所述的数个图像元素的任一图像元素,所述任一图像元素和该任一图像元素所属的聚类的中心之间的加权距离小于等于该任一图像元素和该任一图像元素不属于的任一其它聚类的中心之间的加权距离,并且事先确定加权因数和中心;从聚类中提取特征;使用所提取的特征对图像进行分类。
34.根据权利要求
33的图像分类方法,其中提取特征为k-dim特征imf(i),其中对于i=1,2,3...k-1,imf(i)=numberof({v}i);且numberof({v}i)意味着第i个聚类{v}i的计数;k意味着聚类的数目。
35.一种图像分类设备,包括图像输入装置,用于输入有待分类的图像,该图像包括数个图像元素;图像元素聚类装置,用于将该图像元素聚类到聚类中,满足以下条件对于所述的数个图像元素的任一图像元素,所述任一图像元素和该任一图像元素所属的聚类的中心之间的加权距离小于等于该任一图像元素和该任一图像元素不属于的任一其它聚类的中心之间的加权距离,并且事先确定加权因数和中心;特征提取装置,用于从聚类中提取特征;图像分类装置,用于使用所提取的特征对图像进行分类。
36.根据权利要求
35的图像分类设备,其中由特征提取装置提取的特征为k-dim特征imf(i),其中对于i=1,2,3...k-1,imf(i)=numberof({v}i);且numberof({v}i)意味着第i个聚类{v}i的计数;k意味着聚类的数目。
37.一种存储介质,其上编码有机器可读计算机程序码用以分类图像,该存储介质包括用于使处理器完成根据权利要求
33到34的任意一个的方法的指令。
专利摘要
本发明涉及一种数据处理方法,图像处理方法,图像分类方法及装置,以及存储介质。通过本发明,基于标准K-均值方法提出了一种新的数据聚类方法。在图像处理以及图像分类中使用该新的数据聚类方法产生良好的性能。
文档编号G06K9/62GK1996343SQ200610000338
公开日2007年7月11日 申请日期2006年1月6日
发明者王健民, 纪新 申请人:佳能株式会社导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1