图像分类器生成方法和装置及图像分类方法和装置制造方法

文档序号：6488799阅读：204来源：国知局

图像分类器生成方法和装置及图像分类方法和装置制造方法
【专利摘要】本发明提供一种图像分类器生成方法和装置及图像分类方法和装置。生成用于表单分拣设备的图像分类器的方法，包括：从多个样本图像中的每个样本图像中提取多个局部特征；将多个样本图像中的每个样本图像划分为多个子区域；将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组；以及根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
【专利说明】图像分类器生成方法和装置及图像分类方法和装置
【技术领域】
[0001]本申请总体上涉及图像处理的领域，更具体而言，涉及一种图像分类器生成方法和装置及图像分类方法和装置。
【背景技术】
[0002]图像分类是图像处理领域中的一个重要方面。在图像处理领域，很多图像处理需要根据图像分类的结果来进行。因此，图像分类的有效性和准确度对图像处理领域中的很多图像处理起着至关重要的作用。
[0003]文档图像是各种图像类型中的一种图像类型。文档图像一般具有固定的版面格式，其具体示例包括表单图像、执照图像、证书图像、收据图像、发票图像等等。文档图像一般包括预打印的内容和后打印的内容，其中，预打印的内容通常对应于文档的模板本身，例如空白表单等等；后打印的内容涉及机打或手工填写的内容，例如签字、图章等等。文档图像分类通常在文档的自动分发、归档、标引和提取等方面起到至关重要的作用。
[0004]目前，对图像进行分类的技术主要是像素级别的模板图像匹配。这种技术的缺点在于难以避免繁琐的制定模板、书写规则和确认系统的过程。另外，某些技术使用字符识别的结果，但是如果图像质量劣化，则识别结果变得不可靠，从而导致分类的结果变差。另外，现有技术中还存在一种基于机器学习对图像进行分类的技术，但是该技术需要大量的手工标注的样本作为训练集。然而，在实际应用中由于版权保护和信息安全等原因，通常不容易获得真实的训练样本，这使得基于机器学习对图像进行分类的技术难以应用于实际。另外，现有技术中还存在一种基于图形匹配进行图像分类的技术，虽然该技术不需要大量的训练数据，但是其适用范围往往局限于某种特定的版式(例如曼哈顿板块等)，或者是假设可以获得完美的图像分割。因此，基于图形匹配进行图像分类的技术同样难以应用于实际。
[0005]因此，为了克服对图像进行分类的现有技术的上述缺点，本申请提出了一种新颖的和独创的对图像进行分类的技术，可获得如下技术益处中的至少之一:其适用范围广泛，需要的训练数据少，受图像格式、尺寸或质量的影响小，以及提高了图像分类的健壮性、准确性和有效性。

【发明内容】

[0006]在下文中将给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。
[0007]根据本申请的实施例，提供了一种生成用于表单分拣设备的图像分类器的方法，包括:从多个样本图像中的每个样本图像中提取多个局部特征；将多个样本图像中的每个样本图像划分为多个子区域；将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组；以及根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
[0008]根据上述方法，其中，子区域彼此交叠。
[0009]根据上述方法，其中，子区域为通过划分样本图像得到的网格、或通过对划分样本图像得到的网格按照方向进行划分而得到的分区。
[0010]根据本发明的另一实施例，提供了一种生成用于表单分拣设备的图像分类器的装置，包括:提取单元，用于从多个样本图像中的每个样本图像中提取多个局部特征；划分单元，用于将多个样本图像中的每个样本图像划分为多个子区域；分组单元，用于将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组；以及生成单元，用于根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
[0011]根据上述装置，其中，子区域彼此交叠。
[0012]根据上述装置，其中，子区域为通过划分样本图像得到的网格、或通过对划分样本图像得到的网格按照方向进行划分而得到的分区。
[0013]根据本发明的又一实施例，提供了一种在表单分拣设备中对图像进行分类的方法，包括:从待分类的至少一个图像中的每个图像中提取多个局部特征；将待分类的至少一个图像中的每个图像划分为多个子区域；针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征，通过与多个子区域中的关联于该局部特征的子区域对应的搜索树，得到与该局部特征最相似的最近邻特征，以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果；以及根据多个初级分类结果进行投票，以得到每个图像的最终分类结果。
[0014]根据上述方法，还包括:根据与从待分类的图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征，将待分类的图像与图像类别中的模板图像进行对准。
[0015]根据本发明的再一实施例，提供了一种在表单分拣设备中对图像进行分类的装置，包括:提取部分，用于从待分类的至少一个图像中的每个图像中提取多个局部特征；划分部分，用于将待分类的至少一个图像中的每个图像划分为多个子区域；初级分类部分，用于针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征，通过与多个子区域中的关联于每个局部特征的子区域对应的搜索树，得到与该局部特征最相似的最近邻特征，以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果；以及投票部分，用于根据多个初级分类结果进行投票，以得到每个图像的最终分类结果O
[0016]根据上述装置，还包括:对准部分，用于根据与从待分类的图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征，将待分类的图像与图像类别中的模板图像进行对准。
[0017]本申请的对图像进行分类的方法和装置可获得如下技术益处中的至少之一:其适用范围广泛，需要的训练数据少，受图像格式、尺寸或质量的影响小，因此可以提高图像分类的健壮性、准确性和有效性。
【专利附图】

【附图说明】
[0018]本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
[0019]图1是示出根据本发明的一个实施例的生成图像分类器的方法的示意性流程图；
[0020]图2是示出根据本发明的一个实施例的生成图像分类器的示意图；
[0021]图3是示出根据本发明的一个实施例的生成图像分类器的装置的示意性框图；
[0022]图4是示出根据本发明的一个实施例的对图像进行分类的方法的示意性流程图；
[0023]图5是示出根据本发明的一个实施例的对图像进行分类的示意图；
[0024]图6是示出根据本发明的一个实施例的对图像进行对准的处理的示意性流程图；
[0025]图7是示出对图像进行对准的示意图；
[0026]图8是示出对准后的图像的示意图；
[0027]图9是示出根据本发明的一个实施例的对图像进行分类的装置的示意性框图；
[0028]图10是示出根据本发明的另一个实施例的对图像进行分类的装置的示意性框图；
[0029]图11是示出可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。
【具体实施方式】
[0030]在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。
[0031]在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构，而省略了与本发明关系不大的其他细节。
[0032]下面结合图1和图2来描述根据本发明的一个实施例的生成图像分类器的方法。图1是示出根据本发明的一个实施例的生成图像分类器的方法的示意性流程图。图2是示出根据本发明的一个实施例的生成图像分类器的示意图。
[0033]在借助根据本发明的实施例的生成图像分类器的方法来生成图像分类器时，如图1所示，该方法在SlOO开始。在SlOO之后，该方法前进到S102。
[0034]在S102处，从多个样本图像中的每个样本图像中提取多个局部特征。
[0035]如图2中的202所示，为了便于从输入的多个样本图像201中的每个样本图像中提取多个局部特征，可以对输入的多个样本图像中的每个样本图像进行图像预处理。输入的多个样本图像201 —般为彩色图像，其包含的信息量较大，导致运算量也较大。为了减小后续的运算量，可以将作为彩色图像的多个样本图像201转化为灰度图像。本领域技术人员应该理解，可以采用将彩色图像转化为灰度图像的各种具体技术，其具体细节在此不再赘述。另外，为了减少所提取的特征的数量以减少运算量，还可以对输入的多个样本图像201或其转化后的灰度图像进行下采样。例如，当输入的多个样本图像201或其转化后的灰度图像的宽和高的像素值的最大值max_wh大于1000时，可以以系数K = 2n进行下采样，从而使下采样后的图像的宽和高的像素值的最大值max_wh’减小到1000以下。本领域技术人员应该理解，可以采用对图像进行下采样的各种具体技术，其具体细节在此不再赘述。
[0036]本领域技术人员应当理解，上述对多个样本图像中的每个样本图像进行图像预处理是可选的。即，也可以不对多个样本图像中的每个样本图像进行图像预处理，而是直接从多个样本图像中的每个样本图像中提取多个局部特征。
[0037]如图2中的203所示，可以直接从多个样本图像中的每个样本图像中提取多个局部特征，或者可以从经过图像预处理之后的多个样本图像中的每个样本图像中提取多个局部特征。本领域技术人员应当理解，可以采用本领域中的各种提取图像局部特征的方法来从多个样本图像中的每个样本图像中提取多个局部特征，例如可以采用SIFT (ScaleInvariant Feature Transform,尺度不变特征变换)方法、SURF (Speeded Up RobustFeature，加速稳健特征)方法、BRISK方法或FREAK方法等等。本文中采用SIFT方法作为示例从多个样本图像中的每个样本图像中提取多个局部特征。具体地，可以采用SIFT方法从多个样本图像201中的第i个样本图像中提取多个特征描述子，每个描述子包括:长
度M等于128维的特征向量Di=Iidil, di2,......，diM],其记录了与该局部特征相关联的特征
区域的强度；长度为4维的向量Fi=Ki, Yi],其分别记录了该局部特征的X轴和Y轴的位置；尺度Si ;以及主方向Ri等。有关SIFT方法的具体描述，可以参考“Distinctive ImageFeatures from Scale-1nvariant Keypoints，，，D.Lowe,In Intl.Journal of ComputerVision, vol.60，n0.2，第 91-110 页，2004 年。
[0038]回到图1，在S104处，将多个样本图像中的每个样本图像划分为多个子区域。
[0039]如图2所示，假设当前处理的样本图像201为通过扫描得到的“营业执照”的文档图像，则可以如图2中的204所示，将该“营业执照”的文档图像划分为多个子区域。本领域技术人员应当理解，可以采用各种方法按照一定的模式将文档图像划分为多个子区域，以及划分得到的多个子区域的形状、大小等可以相同，也可以不相同，只要可以将整个文档图像划分为多个面积比整个文档图像的面积更小的子区域即可。换言之，本发明对划分得到的子区域的形状和大小不做具体的限定。
[0040]具体地，根据本发明的一个实施例，子区域可以为通过划分样本图像得到的网格。例如，如图2所示，可以将“营业执照”的文档图像划分为mXn个网格，其中，m和η均为自然数，并且m和η可以相等但不同时等于I。网格的形状可以为矩形或正方形等。本领域技术人员应当理解，网格的形状也可以为其它形状，例如圆形或椭圆形等。另外，划分得到的mXn个网格中的各个网格之间的大小可以相同，也可以不同。换言之，本发明对划分得到的网格的形状和大小不做具体的限定。
[0041]根据本发明的另一个实施例，子区域可以为通过对划分样本图像得到的网格按照方向进行划分而得到的分区。例如，如图2中的206所示，针对将“营业执照”的文档图像划分得到的mXn个网格中的每个网格，按照方向将每个网格均匀划分为r个分区作为子区域，例如按照[O, η /4] > [ Ti /4, /2]、[31 /2，3 /4]、[3 η /4, π ]、[ Ji , 5 π /4]、[5 Ji/4，3 Ji/2]、[3 Ji/2，7 Ji/4]和[7 π/4，2 π/]共8个方向将每个网格划分为8个分区作为8个子区域。分别对mXn个网格中的每个网格执行分区的划分，由此可以得到mXnXr个分区作为mXnXr个子区域。
[0042]本领域技术人员应当理解，子区域还可以是其它形状或大小等，只要所有子区域的集合可以覆盖整个文档图像即可。
[0043]另外，为了进一步改善子区域边界附近的特征标记的不确定性可能引起的不足，在将样本图像划分为多个子区域时，可以使多个子区域彼此交叠。换言之，在将样本图像划分为多个子区域时，可以使相邻的一个子区域与另一个子区域存在部分重叠的区域。
[0044]具体地，在子区域是通过划分样本图像得到的网格的情况下，如图2中的205所示，由虚线框表示的相邻的两个网格彼此交叠，即由虚线框表示的相邻的两个网格存在部分重叠。另外，在子区域是通过对划分样本图像得到的网格按照方向进行划分而得到的分区的情况下，也可以对方向采用类似的方式，使得相邻的两个分区也彼此交叠。
[0045]再次回到图1，在S106，将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组。
[0046]如上所述，可以从每个样本图像中提取多个局部特征。另外，如上所述可以将每个样本图像划分为多个子区域。因此，可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息，来确定该局部特征是从样本图像中的哪个子区域中提取的，即确定与该局部特征相关联的子区域。
[0047]假设存在N个样本图像UMGdIMG2,……，IMGp,……，IMGN}，其中p和N均为自然数并且I SN。另外，假设N个样本图像中的每个样本图像可被划分为W个子区域(SR1, SR2,……，SRq,……，SRJ，其中q和W均为自然数并且I≤q≤W。另外，可以用Fp，q表示从第P个样本图像的第q个子区域中提取的局部特征。因此，可以将分别从N个样本图像的第I个子区域中提取的局部特征{FijFy，……，Fiu,……，Fn，J划分为同一组作为与第I个子区域相关联的所有局部特征。类似地，可以将分别从N个样本图像的第2个子区域中提取的局部特征汜，2，匕2，……，Fp，2，……，Fn，2}划分为同一组作为与第2个子区域相关联的所有局部特征，直至可以将分别从N个样本图像的第W个子区域中提取的局部特征……，FP，W，……，Fn，w}划分为同一组作为与第W个子区域相关联的所有局部特征为止。
[0048]具体地，在子区域是通过划分样本图像得到的mXn个网格的情况下，可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息，来确定该局部特征是从样本图像的mXn个网格中的哪个网格中提取的，即确定与该局部特征相关联的网格，从而可以将从多个样本图像中提取的多个局部特征中的至少与mXn个网格中的同一网格相关联的局部特征分为同一组。
[0049]另外，在子区域是通过对划分样本图像得到的mXn个网格按照方向进行划分而得到的mXnXr分区的情况下，可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息，来确定该局部特征是从样本图像的mXnXr个分区中的哪个分区中提取的，SP确定与该局部特征相关联的分区，从而可以将从多个样本图像中提取的多个局部特征中的至少与mXnXr个分区中的同一分区相关联的局部特征分为同一组。
[0050]在S106之后，该方法前进到S108。在S108处，根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
[0051]如上所述，通过步骤S106可以将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组。在从多个样本图像中获得与同一子区域相关联的所有局部特征作为同一组之后，可以利用该同一组中的所有局部特征生成与该同一子区域对应的搜索树作为图像分类器，其中该搜索树的每个叶子节点表示该同一组中的所有局部特征之一。例如，可以利用该同一组中的所有局部特征生成与该同一子区域对应的KD树作为图像分类器，其中该KD树的每个叶子节点表示该同一组中的所有局部特征之一。本领域技术人员应当理解，除了 KD树之外，还可以采用其它的存储方式作为上述搜索树，只要所生成的搜索树能够方便地实现对该同一组中的所有局部特征的最近邻搜索即可。
[0052]接着上述的示例，可以根据从N个样本图像的第I个子区域中提取的所有局部特征{Fu，F2,P……，Fiu,……，Fn, J，来生成与第I个子区域对应的搜索树TR1，其中该搜索树TR1的每个叶子节点表示该同一组中的所有局部特征{F^Fu，……，Fiu,……，Fn」}之一。类似地，可以根据从N个样本图像的第2个子区域中提取的所有局部特征{Fli2，F2,2)……，Fp；2,……，Fn，2}，来生成与第2个子区域对应的搜索树TR2，其中该搜索树TR2的每个叶子节点表示该同一组中的所有局部特征{Fi，2，F2，2，……，Fp，2，……，Fn，2}之一，直至可以根据从N个样本图像的第W个子区域中提取的所有局部特征……，FP,W，……，FN,W}，来生成与第W个子区域对应的搜索树TRw为止，其中该搜索树TRw的每个叶子节点表示该同一组中的所有局部特征{Fu，F2；w,……，Fp，w，……，Fn，w}之一。
[0053]具体地，在子区域是通过划分样本图像得到的mXn个网格的情况下，可以根据与mXn个网格中的同一网格相关联的所有局部特征生成与该同一网格对应的搜索树，从而可以总共生成分别与mXn个网格对应的mXn个搜索树。
[0054]另外，在子区域是通过对划分样本图像得到的mXn个网格按照方向进行划分而得到的mXnXr分区的情况下，可以根据与mXnXr个分区中的同一分区相关联的所有局部特征生成与该同一分区对应的搜索树，从而可以总共生成分别与mXnXr分区对应的mXnXr个搜索树。
[0055]最后，该方法在SllO处结束。另外，本领域技术人员应当理解，上述S102和S104的顺序可以是任意的，即S102和S104可以同时执行，也可以先执行S102再执行S104，或者先执行S104在执行S102。
[0056]根据上述方法生成的图像分类器可获得如下技术益处中的至少之一:其适用范围广泛，需要的训练数据少，受图像格式、尺寸或质量的影响小，因此采用该图像分类器进行图像分类可以提高图像分类的健壮性、准确性和有效性。
[0057]下面结合图3来详细说明根据本发明的一个实施例的生成图像分类器的装置的配置。图3是示出根据本发明的一个实施例的生成图像分类器的装置的示意性框图。
[0058]如图3所示，生成图像分类器的装置300包括:提取单元302，用于从多个样本图像中的每个样本图像中提取多个局部特征；划分单元304，用于将多个样本图像中的每个样本图像划分为多个子区域；分组单元306，用于将从多个样本图像中提取的多个局部特征中的至少与多个子区域中的同一子区域相关联的局部特征分为同一组；以及生成单元308，用于根据同一组中的局部特征生成与同一子区域对应的搜索树作为图像分类器。
[0059]需要指出的是，在与装置有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应，在此不再赘述。
[0060]上述图3中的装置例如可以被配置成按照相应方法中的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。[0061]本领域技术人员理解，在上面描述的根据本发明各实施例的生成图像分类器的方法中的各步骤或者生成图像分类器的装置中的各功能单元，可以根据实际需要进行任意的组合，即，一个生成图像分类器的方法实施例中的处理步骤可以与其它生成图像分类器的方法实施例中的处理步骤进行组合；或者，一个生成图像分类器的装置实施例中的功能单元可以与其它生成图像分类器的装置实施例中的功能单元进行组合，以便实现所期望的技术目的。
[0062]此外，本申请的实施例还提出了一种用于表单分拣设备的信息处理设备，其包括上述根据本发明的实施例的生成图像分类器的装置及其改进方案。
[0063]此外，本申请的实施例还提出了一种程序产品，该程序产品承载机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行如根据上述本发明的实施例的生成图像分类器的方法。
[0064]此外，本申请的实施例还提出了一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行如根据上述本发明的实施例的生成图像分类器的方法。
[0065]相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等
坐寸ο
[0066]下面结合图4和图5来描述根据本发明的一个实施例的对图像进行分类的方法。图4是示出根据本发明的一个实施例的对图像进行分类的方法的示意性流程图。图5是示出根据本发明的一个实施例的对图像进行分类的示意图。
[0067]在借助根据本发明的实施例的对图像进行分类的方法对图像进行分类时，如图4所示，该方法在S400开始。在S400之后，该方法前进到S402。
[0068]在S402处，从待分类的至少一个图像中的每个图像中提取多个局部特征。
[0069]如图5中的502所示，为了便于从输入的待分类图像501中提取多个局部特征，可以对输入的待分类图像进行图像预处理。输入的待分类图像501 —般为彩色图像，其包含的信息量较大，导致运算量也较大。为了减小后续的运算量，可以将作为彩色图像的待分类图像201转化为灰度图像。本领域技术人员应该理解，可以采用将彩色图像转化为灰度图像的各种具体技术，其具体细节在此不再赘述。另外，为了减少所提取的特征的数量以减少运算量，还可以对输入的待分类图像501或其转化后的灰度图像进行下采样。例如，当输入的待分类图像501或其转化后的灰度图像的宽和高的像素值的最大值max_wh大于1000时，可以以系数K = 2n进行下采样，从而使下采样后的图像的宽和高的像素值的最大值max_wh’减小到1000以下。本领域技术人员应该理解,可以采用对图像进行下采样的各种具体技术，其具体细节在此不再赘述。
[0070]本领域技术人员应当理解，上述对待分类图像进行图像预处理是可选的。S卩，也可以不对待分类图像进行图像预处理，而是直接从待分类图像中提取多个局部特征。
[0071]如图5中的503所示，可以直接从待分类图像中提取多个局部特征，或者可以从经过图像预处理之后的待分类图像中提取多个局部特征。本领域技术人员应当理解，可以采用本领域中的各种提取图像局部特征的方法来从待分类图像中提取多个局部特征，例如可以米用SIFT (Scale Invariant Feature Transform,尺度不变特征变换)方法、SURF(Speeded Up Robust Feature,加速稳健特征)方法、BRISK方法或FREAK方法等等。本文中采用SIFT方法作为示例从待分类图像中提取多个局部特征。具体地，可以采用SIFT方法从待分类图像501中提取多个特征描述子，每个描述子包括:长度M等于128维的特征向量D=W1, d2,……，dM]，其记录了与该局部特征相关联的特征区域的强度；长度为4维的向量F=[X，Y]，其分别记录了该局部特征的X轴和Y轴的位置；尺度S ；以及主方向R等。有关SIFT方法的具体描述，可以参考“Distinctive Image Features from Scale-1nvariantKeypoints，，，D.Lowe, In Intl.Journal of Computer Vision, vol.60, n0.2,第 91-110 页，2004 年。
[0072]回到图4，在S402之后，该方法前进到S404。在S404处，将待分类的至少一个图像中的每个图像划分为多个子区域。
[0073]如图5所示，假设当前处理的待分类图像501为通过扫描得到的“营业执照”的文档图像，则可以如图5中的504所示，将该“营业执照”的文档图像划分为多个子区域。本领域技术人员应当理解，可以采用各种方法按照一定的模式将文档图像划分为多个子区域，以及划分得到的多个子区域的形状、大小等可以相同，也可以不相同，只要可以将整个文档图像划分为多个面积比整个文档图像的面积更小的子区域即可。换言之，本发明对划分得到的子区域的形状和大小不做具体的限定。
[0074]具体地，根据本发明的一个实施例，子区域可以为通过划分样本图像得到的网格。例如，如图5所示，可以将“营业执照”的文档图像划分为mXn个网格，其中，m和η均为自然数，并且m和η可以相等但不同时等于I。网格的形状可以为矩形或正方形等。本领域技术人员应当理解，网格的形状也可以为其它形状，例如圆形或椭圆形等。另外，划分得到的mXn个网格中的各个网格之间的大小可以相同，也可以不同。换言之，本发明对划分得到的网格的形状和大小不做具体的限定。
[0075]根据本发明的另一个实施例，子区域可以为通过对划分样本图像得到的网格按照方向进行划分而得到的分区。例如，如图5中的506所示，针对将“营业执照”的文档图像划分得到的mXn个网格中的每个网格，按照方向将每个网格均匀划分为r个分区作为子区域，例如按照[O, η /4] > [ Ti /4, /2]、[31 /2，3 /4]、[3 η /4, π ]、[ Ji , 5 π /4]、[5 Ji/4，3 Ji/2]、[3 Ji/2，7 Ji/4]和[7 π/4，2 π/]共8个方向将每个网格划分为8个分区作为8个子区域。分别对mXn个网格中的每个网格执行分区的划分，由此可以得到mXnXr个分区作为mXnXr个子区域。
[0076]本领域技术人员应当理解，子区域还可以是其它形状或大小等，只要所有子区域的集合可以覆盖整个文档图像即可。
[0077]另外，为了进一步改善子区域边界附近的特征标记的不确定性可能引起的不足，在将待分类图像划分为多个子区域时，可以使多个子区域彼此交叠。换言之，在将待分类图像划分为多个子区域时，可以使相邻的一个子区域与另一个子区域存在部分重叠的区域。
[0078]具体地，在子区域是通过划分待分类图像得到的网格的情况下，如图5中的505所示，由虚线框表示的相邻的两个网格彼此交叠，即由虚线框表示的相邻的两个网格存在部分重叠。另外，在子区域是通过对划分待分类图像得到的网格按照方向进行划分而得到的分区的情况下，也可以对方向采用类似的方式，使得相邻的两个分区也彼此交叠。
[0079]再次回到图4，在S404之后，该方法前进到S406处。在S406处，针对从待分类的至少一个图像中的每个图像中提取的多个局部特征中的每个局部特征，通过与多个子区域中的关联于该局部特征的子区域对应的搜索树，得到与该局部特征最相似的最近邻特征，以及根据与最近邻特征对应的图像类别得到每个图像的初级分类结果。
[0080]如上所述，可以从待分类图像中提取多个局部特征。另外，如上所述可以将待分类图像划分为多个子区域。因此，可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息，来确定该局部特征是从待分类图像中的哪个子区域中提取的，即确定与该局部特征相关联的子区域。
[0081]假设待分类图像可被划分为W个子区域{SRp SR2,……，SR,，……，SRj，其中q和W均为自然数并且I W。另外，可以用Fq表示从待分类图像的第q个子区域中提取的局部特征。因此，可以将从待分类图像的第I个子区域中提取的局部特征F1作为与第I个子区域相关联的局部特征。类似地，可以将从待分类图像的第2个子区域中提取的局部特征F2作为与第2个子区域相关联的局部特征，直至可以将从待分类图像的第W个子区域中提取的局部特征Fw作为与第W个子区域相关联的局部特征为止。
[0082]具体地，在子区域是通过划分样本图像得到的mXn个网格的情况下，可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息，来确定该局部特征是从待分类图像的mXn个网格中的哪个网格中提取的，即确定与该局部特征相关联的网格。
[0083]另外，在子区域是通过对划分待分类图像得到的mXn个网格按照方向进行划分而得到的mXnXr分区的情况下，可以根据所提取的局部特征中所包含的X坐标和Y坐标的位置信息，来确定该局部特征是从待分类图像的mXnXr个分区中的哪个分区中提取的，即确定与该局部特征相关联的分区。
[0084]在确定了与从待分类图像中提取的局部特征相关联的子区域之后，可以通过与该子区域对应的搜索树，得到待分类图像的初级分类结果。具体地，可以利用从待分类图像中提取的局部特征，在与该局部特征相关联的子区域所对应的搜索树中搜索与该局部特征最相似的最近邻特征，以及根据最近邻特征中包含的与该最近邻特征对应的图像类别，得到待分类图像属于哪个图像类别的初级分类结果。例如，搜索树可以是KD树。本领域技术人员应当理解，除了 KD树之外，还可以采用其它的存储方式作为上述搜索树，只要搜索树能够方便地实现对局部特征的最近邻搜索即可。另外，本领域技术人员还应当理解，搜索树可以是预先设定的，也可以是通过本发明中之前描述的用于生成图像分类器的方法而生成的。
[0085]接着上面的示例，假设从待分类图像中提取了 W个局部特征{Fi，F2，……，Fq，……，Fw}，其中局部特征F1是从待分类图像的第I个子区域中提取的，局部特征F2是从待分类图像的第2个子区域中提取的，Fq是从待分类图像的第q个子区域中提取的，而Fw是从待分类图像的第W个子区域中提取的。另外，假设与待分类图像中的第I至第W个子区域对应的搜索树分别为TR1, TR2,……，TR,，……，TRW。可以利用局部特征F1，在与第I个子区域对应的搜索树TR1中搜索与局部特征F1最相似的最近邻特征！\。如上所述，最近邻特征中包含与该最近邻特征对应的图像类别。假设存在如下3个图像类别A、B和C，并且假设与最近邻特征T1对应的图像类别为A，则根据与最近邻特征T1对应的图像类别A，判断待分类图像的图像类别为A (即初级分类结果)；类似地，可以利用局部特征F2，在与第2个子区域对应的搜索树TR2中搜索与局部特征F2最相似的最近邻特征T2。假设与最近邻特征T2对应的图像类别为B，则根据与最近邻特征T2对应的图像类别B，判断待分类图像的图像类别为B (即初级分类结果)；……；类似地，可以利用局部特征Fw，在与第W个子区域对应的搜索树TRw中搜索与局部特征Fw最相似的最近邻特征Tw。假设与最近邻特征Tw对应的图像类别为C，则根据与最近邻特征Tw对应的图像类别C，判断待分类图像的图像类别为C (BP初级分类结果)。因此，根据从待分类图像中提取的W个局部特征，可以分别通过与关联于W个局部特征的W个子区域对应的W个搜索树，得到该待分类图像属于哪个图像类别的W个初级分类结果。[0086]在S406之后，该方法前进到S408。在S408处，根据多个所述初级分类结果进行投票，以得到每个图像的最终分类结果。
[0087]接着上面的示例，根据得到的W个初级分类结果进行投票，以统计W个初级分类结果中有多少个将待分类图像的图像类别判断为A、W个初级分类结果中有多少个将待分类图像的图像类别判断为B以及W个初级分类结果中有多少个将待分类图像的图像类别判断为C，并且将得票最高的图像类别作为待分类图像的最终分类结果。该投票过程可以用下面的公式表不:
[0088]C(/) = arginax!| {xy | L(x,) = /,0 < y < ,V} ||
0<i<k '
[0089]其中，&表示从待分类的图像中提取的局部特征，S表示从待分类的图像中提取的局部特征的数量，L(Xj)表示与Xj的最近邻特征对应的图像类别。
[0090]一般情况下，通过上述步骤就可以获得待分类图像的图像类别。另外，如果在上述投票步骤中得票数排名前两位的图像类别的得票数之间的差小于预定阈值，则表示存在相似的图像类别。例如，电汇凭证的“借方凭证”、“汇款依据”、“付出凭证”与“收入凭证”之间的差别往往仅在于标题不同。在这种情况下，可以通过其它方法对这些相似的图像类别进行细分类，例如可以根据颜色将相似的图像类别区分开。另外，也可以在得票数排名前两位的图像类别的得票数之间的差小于预定阈值的情况下向用户给出相应的提示，以及由用户从这些相似的图像类别中选择与待分类的图像最相似的图像类别。本领域技术人员应当理解，上述预定阈值可以预先设定或者根据试验来确定。另外，本领域技术人员应该理解，上述处理仅是优选的，而非必须的。
[0091]最后，该方法在S410处结束。另外，本领域技术人员应当理解，上述S102和S104的顺序可以是任意的，即S102和S104可以同时执行，也可以先执行S102再执行S104，或者先执行S104在执行S102。
[0092]上述对图像进行分类的方法可获得如下技术益处中的至少之一:其适用范围广泛，受图像格式、尺寸或质量的影响小，因此可以提高图像分类的健壮性、准确性和有效性。
[0093]下面结合图6、图7和图8来描述根据本发明的一个实施例的对图像进行对准的方法。图6是示出根据本发明的一个实施例的对图像进行对准的处理的示意性流程图。图7是示出对图像进行对准的示意图。图8是示出对准后的图像的示意图。对图像进行对准具有重要意义。例如，通过对图像进行对准可以得到待分类的图像相对于模板图像的几何变换的信息，例如旋转、平移、放大或透视等等。另外，将待分类的图像与模板图像对准之后，可以根据预定的模板从待分类的图像的感兴趣区域中提取关键数据，以及可以将提取的关键数据用于后续的数据分析与挖掘等等。[0094]在借助根据本发明的实施例的对图像进行对准的方法对图像进行对准时，如图6所示，该方法在S600开始。在S600之后，该方法前进到S602。
[0095]在S602处，根据与从待分类的图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征，将待分类的图像与图像类别中的模板图像进行对准。
[0096]如上所述，通过上述S406可以获得与从待分类图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征，这些最近邻特征属于图像类别中的模板图像。由此，可以根据所得到的最近邻特征，将待分类的图像与图像类别中的模板图像进行对准。也就是说，在对图像进行分类的过程中，还可以利用对图像进行分类的中间结果(即与从待分类图像中提取的多个局部特征中的每个局部特征最相似的最近邻特征)，将待分类的图像与模板图像进行对准。然而，现有的对图像进行对准的方法主要是通过对图像的特定区域进行匹配，例如表格线、基准点或特定的字符图像(例如标题)等。现有的对图像进行对准的方法必须预先将图像调整为规定的尺寸，同时对图像质量要求较高。相反，本申请利用对图像进行分类的中间结果来实现待分类的图像与模板图像的对准，从而可以获得以下益处中的至少之一:无需将图像调整为规定的尺寸，或对图像质量要求较低。下面结合图7和图8详细描述将待分类的图像与图像类别中的模板图像进行对准的处理。
[0097]首先，获得待分类的图像与图像类别中的模板图像之间所有最近邻的匹配特征对。所有的匹配特征对组成匹配特征对集合TS。匹配特征对集合TS中的每个匹配特征对包括两个特征Tl和T2，其中Tl来自于待分类的图像，而T2来自于模板图像。匹配特征对集合TS是所有满足如下条件的匹配对的集合:1)通过上述S406获得的与特征Tl最相似的最近邻特征是特征T2 ；2)特征T2属于图像类别中的用于对准的模板图像。
[0098]接着，利用两个匹配特征对得到用于对图像进行对准的非反射性的几何变换(仿射变换的一种)函数。非反射性的几何变换是一种只包括缩放、旋转和平移的线性变换，这类变换可以用下面的公式来表示:
【权利要求】
1.一种生成用于表单分拣设备的图像分类器的方法，包括: 从多个样本图像中的每个样本图像中提取多个局部特征；将所述多个样本图像中的每个样本图像划分为多个子区域；将从所述多个样本图像中提取的所述多个局部特征中的至少与所述多个子区域中的同一子区域相关联的局部特征分为同一组；以及根据所述同一组中的局部特征生成与所述同一子区域对应的搜索树作为所述图像分类器。
2.根据权利要求1所述的方法，其中，所述子区域彼此交叠。
3.根据权利要求1或2所述的方法，其中，所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
4.一种生成用于表单分拣设备的图像分类器的装置，包括: 提取单元，用于从多个样本图像中的每个样本图像中提取多个局部特征；划分单元，用于将所述多个样本图像中的每个样本图像划分为多个子区域；分组单元，用于将从所述多个样本图像中提取的所述多个局部特征中的至少与所述多个子区域中的同一子区域相关联的局部特征分为同一组；以及生成单元，用于根据所述同一组中的局部特征生成与所述同一子区域对应的搜索树作为所述图像分类器。
5.根据权利要求4所述的装置，其中，所述子区域彼此交叠。
6.根据权利要求4或5所述的装置，其中，所述子区域为通过划分所述样本图像得到的网格、或通过对划分所述样本图像得到的网格按照方向进行划分而得到的分区。
7.—种在表单分拣设备中对图像进行分类的方法，包括: 从待分类的至少一个图像中的每个图像中提取多个局部特征；将所述待分类的至少一个图像中的每个图像划分为多个子区域；针对从所述待分类的至少一个图像中的每个图像中提取的所述多个局部特征中的每个局部特征，通过与所述多个子区域中的关联于该局部特征的子区域对应的搜索树，得到与该局部特征最相似的最近邻特征，以及根据与所述最近邻特征对应的图像类别得到所述每个图像的初级分类结果；以及根据多个所述初级分类结果进行投票，以得到所述每个图像的最终分类结果。
8.根据权利要求7所述的方法，还包括: 根据与从待分类的图像中提取的所述多个局部特征中的每个局部特征最相似的所述最近邻特征，将待分类的图像与图像类别中的模板图像进行对准。
9.一种在表单分拣设备中对图像进行分类的装置，包括: 提取部分，用于从待分类的至少一个图像中的每个图像中提取多个局部特征；划分部分，用于将所述待分类的至少一个图像中的每个图像划分为多个子区域；初级分类部分，用于针对从所述待分类的至少一个图像中的每个图像中提取的所述多个局部特征中的每个局部特征，通过与所述多个子区域中的关联于该局部特征的子区域对应的搜索树，得到与该局部特征最相似的最近邻特征，以及根据与所述最近邻特征对应的图像类别得到所述每个图像的初级分类结果；以及投票部分，用于根据多个所述初级分类结果进行投票，以得到所述每个图像的最终分类结果。
10.根据权利要求9所述的装置，还包括: 根据与从待分类的图像中提取的所述多个局部特征中的每个局部特征最相似的所述最近邻特征，将待分类的图像与图像类别中的模板图像进行对准。
【文档编号】G06K9/62GK103679188SQ201210337846
【公开日】2014年3月26日申请日期:2012年9月12日优先权日:2012年9月12日
【发明者】陈思源, 何源, 孙俊申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈思源;何源;孙俊
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：盘符漂移预防及处理方法及装置制造方法
上一篇：一种打补丁的方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。