对移动设备捕获的数字图像中的对象进行分类的系统和方法_4

文档序号：9553549阅读：来源：国知局

-tan(a)x+dt;对于下边缘：y =-tan(a)χ+db;对于右边缘：x=tan(a)y+dr;对于左边缘：x=tan(a)y+dl，其中dt 和db是分别描述了文档的数字表现的上和下边缘的线性方程的y轴截距，并且其中dr和 dl是分别描述了文档的数字表现的右和左边缘的线性方程的X轴截距。
[0181] 在一种方法中，已经限定了的描述文档的数字表现的每条边的线性方程，例如矩形文档，它的歪斜角，可以通过设置a= 〇进行校正，这样对于上边：y =dt;对于下边：y =db;对于右边：x=dr;对于左边：x=dl。
[0182] 检测照明问题的多个实施例
[0183] 仍然在更多的实施例中，目前描述的图像处理算法可以包括用于检测文档的数字表现是否包括一个或多个照明问题的特征。
[0184] 例如，照明问题可以包括数字图像此处未饱和的区域，当数字图像中亮度值从像素到像素改变很大时，例如特点是在周围照明不足和/或提供的照明不足的环境中捕获的图像，以及数字图像此处过饱和的区域，当数字图像中的一些区域褪色，例如在闪光反射中。
[0185] 下面描述了根据一个实施例的、检测数字图像包括文档的数字表现中照明问题的一种示例性方法；并且其描绘了确定文档的数字表现中是否存在照明问题的方法。如本领域技术人员通过阅读本说明书可以领会的，该方法可以在任何合适的环境中执行，例如，此处描述的以及一起提交的多个图中表示的那些。当然，其他也适于操作方法的环境也落入本公开的范围，就像本领域技术人员阅读此说明书可以领会的。
[0186] 在一个实施例中，处理方法包括（优选地利用移动设备处理器）将包括文档的数字表现的四边形分成多个部分，每个部分包括多个像素。
[0187] 在更多的方法中，确定每个部分的亮度值分布。如本领域技术人员理解的，亮度值分布可以通过任何已知的方式编译和/或收集，并且适合任何已知的标准分布模型，例如高斯分布、双峰式分布、偏斜分布等。
[0188] 仍然在更多的方法中，确定每个部分的亮度值范围。如本领域技术人员领会的，在给定的分布中被限定为最大值和最小值间的差数。此处亮度值范围将被限定为给定部分特有的最大亮度值和相同部分特有的最小亮度值之间的差数。例如，这些特有的值可以分别与整个分布的第2和第98个百分数值相对应。
[0189] 在许多的方法中，确定每个部分的多个亮度值。
[0190] 在多种方法中，确定每个部分是否过饱和。例如，根据一个实施例的，操作可以包括确定描绘文档的数字表现的数字图像的区域是过饱和的。确定每个部分是否是过饱和的可以包括对每个部分确定过饱和部分的比例。尤其是，在优选的实施例中，每个部分过饱和的比例被限定为此部分中展示最大亮度值的像素的总数除以此部分中像素的总数。
[0191] 不均匀照明的图像可以描绘或特点为多个暗点，这些暗点在数字图像的对应像素、点或区域的亮度级比图像或文档的其他区域的亮度级低和/或比图像或文档的平均亮度级低的区域中更加浓密。在一些实施例中，不均匀照明的特点是亮度梯度，例如从图像的右上角（附近区域）开始到图像的较低的左侧角（附近区域）的梯度，这样亮度沿着梯度降低，伴随着相对地图像的右上角（附近区域）的亮区以及相对地图像的较低的左侧角（附近区域）的暗区。
[0192] 在一些方法中，确定每个部分是否过饱和可以进一步包括，针对每个部分，确定该部分的过饱和度是否比预定临界值更大，例如10% ;并且当确定该部分的饱和度比预定的临界值更大时，将该部分标记为过饱和。而目前描述的实施例使用10 %的临界值，可以使用其他过饱和度的预定临界值而不脱离本公开的范围。尤其是，准确值是一个视觉感知和专业判断问题，在多个实施例中，可以由用户调节和/或设置。
[0193] 在更多的方法中，确定每个部分是否是未饱和的。例如，根据一个实施例，操作可以包括确定描述文档的数字表现的数字图像的区域是未饱和的。确定每个部分是否是未饱和的可以包括附加操作，例如确定每部分的亮度值分布的中值变化；确定每个中值变化是否比预定的变化临界值更大，例如中值亮度变化18来自0-255的整数值范围；并且对每个部分，当确定某部分的中值变化比预定的变化临界值更大时，确定该部分是未饱和的。尤其是，准确值是视觉感知和专业判断问题，在多个实施例中，可以由用户调节和/或设置。
[0194] 在一种特别的方法中，确定某部分的变化可以包括，确定多个像素中对象像素的亮度值；计算对象像素的亮度值和一个或多个邻近像素的亮度值之间的差数，每个邻近像素是距离对象像素一个或多个（例如，2)像素远的像素；对多个像素中的每个像素重复进行确定和计算，以得到每个对象像素变化；并且生成对象像素变化值分布，其中每个对象像素亮度值和对象像素变化值是从〇到255范围内的一个整数。这种方法可以通过，例如，自增在0到255的范围内所有可能变化值的阵列中的对应计数器实现，例如生成变化值的柱状图。
[0195] 尤其是，当利用邻近像素确定特别部分的变化时，邻近像素可以在对象像素沿着或者垂直方向、水平方向或二者（例如，对角线方向）的两个像素以内。当然，可以利用其他像素接近限制而不脱离本发明的范围。
[0196] 在一些方法中，方法可以进一步包括从对象像素变化值分布中移除一个或多个对象像素变化值，以生成经校正的分布；以及基于经校正的分布限定特有的背景变化。例如，在一个实施例中，生成经校正的分布以及限定特有的背景变化可以包括，移除总计数值的最高35% (或任何足够覆盖与从背景到前景的转换相关联的重大亮度变化的其他值），并且基于分布中余下的值（即从文档的数字表现的相对平坦的背景区域取得的值）来限定特有的背景变化。
[0197] 在更多的方法中，确定多个过饱和部分。这个操作可以包括确定过饱和部分总数的任何方法，例如通过图像处理期间自增计数器，通过对每个过饱和部分设置标志，以及在处理期间计数某些点的标志等，如本领域技术人员在阅读本说明书时可以理解的。
[0198] 在更多的方法中，确定多个未饱和部分。这个操作可以包括确定未饱和部分的全部方法，例如通过图像处理期间自增计数器，通过对每个未饱和部分设置标志，以及在处理期间计数某些点的标志等，如本领域技术人员在阅读本说明书时可以理解的。
[0199] 在更多的方法中，当确定过饱和部分的数目相对部分的总数的比例超过过饱和临界值时，确定数字图像是过饱和的，过饱和临界值可以由用户限定，其可以是一个预定值等，如本领域技术人员在阅读本说明书时可以理解的。
[0200] 在更多的方法中，当确定未饱和部分的数目相对部分的总数的比例超过未饱和临界值时，确定数字图像是未饱和的，未饱和临界值可以由用户限定，可以是一个预定值等，如本领域技术人员在阅读本说明书时可以理解的。
[0201] 在更多的方法中，当确定数字图像或者未饱和或者过饱和时，可以确定数字图像中存在照明问题。
[0202] 仍然在更多的方法中，方法可以包括一个或多个附加的和/或可替代的操作，例如，将在下面详细描述的。
[0203] 在一个实施例中，方法可以包括对每个部分执行下列操作。通过将文档的高度分成水平部分的预先确定的数目，限定部分的高度；以及通过将文档的宽度分成垂直部分的预先确定的数目，限定部分的宽度。在优选的方法中，部分的高度和宽度基于产生一定数目的部分并且通过将文档的高度分成一定数目的水平部分以及通过将文档的宽度分成一定数目的垂直部分来使得这些部分组成近似正方形的目的来确定。
[0204]因此，在一些实施例中，每个部分具有部分高度和部分宽度的特征，其中，数字图像的特征是图像宽度w和图像高度h，其中h多w，其中部分的大小具有部分宽度ws和部分高度hs，其中ws=w/m，其中hs=h/n，其中m和η被限定，以便w5近似等于hs。例如，在优选的实施例中，m> = 3,n> = 4。
[0205] 在另一种方法中，确定文档的数字表现中是否存在照明问题的方法包括下列操作，部分或所有这些操作可以在此处描述的和/或目前公开的图中表示的任何环境中执行。
[0206] 柃ιΗ不抝匀照明的多个实施例
[0207] 在一些方法中，校正数字图像中照明的不均匀包括使数字图像的全部亮度正常化。正常化全部亮度可以是对数字图像，将特征为如上讨论的亮度梯度的数字图像转换成特征为亮度分布相对平坦、均匀的数字图像。这样可以注意到，一些区域的特点是：比特点是大体相似的暗点密度区域更加明显浓密的暗点分布。
[0208] 依照本公开，照明的不均匀性可以校正。尤其是，此处提供了校正数字图像的一个或多个区域中不均匀照明的方法，以用于任何合适的环境，包括那些在此处描述的以及在多个图中表示的，在其他本领域技术人员阅读本说明书时将知道的合适的环境中。
[0209] 在一个实施例中，方法包括利用处理器将二维照明模型从数字图像中导出的操作。
[0210] 在一个实施例中，二维照明模型应用于数字图像中的每个像素。
[0211] 在更多的方法中，可以将数字图像分成多个部分，并且一个部分中的一些或所有像素可以基于颜色，例如一个或多个颜色通道中的亮度值、色调中值等聚类（cluster)，如本领域技术人员在阅读本说明书时可以理解的。而且，可以分析几个最大数目的聚类，以确定一个或多个可能的局部背景的特点。为了指定一个聚类作为部分的局部背景，属于这个聚类的像素数目必须超过某一预先确定的临界值，例如总的部分面积的临界值百分数。
[0212] 在不同的方法中，可以利用任何已知的方法进行聚类，包括马尔可夫链蒙特卡罗法（Markov-chainMonteCarlomethods)、最近邻接法、基于分布的聚类方法例如期望值-最大化，基于密度的聚类方法例如基于空间密度的群以噪声发现聚类算法（DBCSAN)、通过对象排序识别聚类结构算法（OPTICS)等，如本领域技术人员在阅读本说明书时可以理解的。
[0213] 在一个实施例中，方法可以包括，针对背景聚类中的每个颜色通道值分布，确定对应部分的主要背景的一个或多个平均颜色以及对应部分的次要背景的一个或多个平均值颜色，如果一个或两个存在于部分中。
[0214] 在一个实施例中，方法包括对每个部分指定主要背景颜色或次要背景颜色作为文档的数字表现的主要背景的局部表示，每个局部表示或者以对应部分的主要背景的平均颜色为特点或者以对应部分的次要背景的平均颜色为特点。
[0215] 在一个实施例中，方法包括使选择的图像背景的局部表示的多个平均颜色通道值适合于二维照明模型。在一些方法中，二维照明模型是特征为方程式v= ax2+bxy+cy2+dx+ey+f的二级多项式；其中v是多个颜色通道中一个的平均颜色通道值； a,b，c，d，e和f是二维照明模型的每个未知参数，每个未知参数a,b，c，d，e和f是利用最小均方逼近得到的近似值，x是部分中中点像素的x坐标，并且y是部分中中点像素的y坐标。
[0216] 在一种方法中，二维照明模型的导出可以包括，对多个背景聚类：计算每个背景聚类的平均颜色通道值，计算每个背景聚类的色调比例，以及对多个背景聚类计算色调中值比例。而且，导出也可以包括将每个背景聚类的色调比例与多个聚类的色调中值比例相比较；基于比较结果选择两个可能背景中更加可能的作为文档背景的局部表现；将至少一个二维照明模型适于局部表现的平均通道值；以及通过多个局部表现计算多个主要背景颜色平均通道值。
[0217] 方法的应用可以包括，计算一个或多个预测背景通道值和主要背景颜色平均通道值间的差数；以及对数字图像中的每个像素将差数的一小部分加到一个或多个颜色通道值中。例如，加入一部分可以包括加入差数的从0到1范围内的值，例如，在优选的实施例中，将差数的3/4加到真正像素值中。
[0218] 仍然在更多的方法中，方法可以包括附加的和/或可替代的操作，例如下即将讨论的那些。
[0219] 例如，在一个方法中，方法进一步包括以下中的一个或多个：对每个部分，确定多个颜色聚类；确定多个众多颜色聚类，每个众多颜色聚类对应于部分中表现的高频率（例如，颜色聚类是具有属于那个聚类的部分中最高数目像素的一个聚类）；确定部分的总面积；确定多个部分的部分面积，每个部分的部分面积对应于由多个众多颜色聚类中的一个表示的面积；通过总面积将每个部分的部分面积分开，以得到每个众多颜色聚类的聚类百分比面积（例如，通过像素的总数将属于众多颜色聚类的部分中的像素数目分开，以得到由对应的最多的众多颜色聚类占用的部分的总面积的百分比），以及基于聚类百分比区域，将每个众多颜色聚类分类为背景聚类或非背景聚类。
[0220] 尤其是，在优选的方法中，分类操作识别：部分中没有背景、部分中有单个最多的背景，或者部分中有两个最多的背景。而且，分类包括对每个属于包含比背景临界值更大数目的像素的聚类进行分类，作为背景像素。在一些方法中，背景临界值在〇到1〇〇 %的范围内（例如，在优选的方法中为15%)。背景临界值可以由用户限定，可以是个预先确定的值等，如本领域技术人员在阅读本说明书时可以理解的。
[0221] 分辨率估计的多个实施例
[0222] 作为现在公开的有创造性的实施例的进一步对象，移动图像处理可以包括估计文档的数字表示的分辨率的方法。当然，这些方法可以在合适的环境中执行，包括那些在此处描述的以及在随同呈现的多个图中表现的。而且，该方法可以与此处描述的其他方法一起使用，并且可以包括下面描述的那些附加的和/或替代的操作，如本领域技术人员在阅读本说明书时可以理解的。
[0223] 在一个实施例中，在数字图像中检测多个非背景成分的多个连通区域。在一些方法中，数字图像的特点可以是双调图像，即图像仅包含两个色调，并且优选地仅包括黑色和白色图像。
[0224] 在另一个实施例中，基于多个连通区域确定多个可能的特征。可能的特征可以是特点为在给定方向预定数目的亮到暗转换的数字图像区域，例如就像会遇到的在垂直方向的三个亮到暗转换对数字图像的小区域描写大写字母"E"，每个亮到暗转换对应于从文档的背景（亮）到字母"E"的一道水平笔画。当然，可以利用其他数目的亮到暗的转换，例如对字母为两个垂直和/或水平亮到暗的转换，对字母" 1 "为一个垂直的亮到暗的转换等，如本领域技术人员在阅读本说明书时可以理解的。
[0225] 仍然在另一个实施例中，一个或多个平均字符尺寸基于多个可能的文本字符被确定。如此处理解的，平均字符尺寸可以包括一个或多个平均字符宽度以及平均字符高度，但是当然可以利用其他合适的字符尺寸，就像技术人员阅读说明书时会承认的。
[0226] 仍然在另一个实施例中，数字图像的分辨率基于一个或多个平均字符尺寸被确定。
[0227] 在更多的实施例中，方法可以可选择地和/或替代地包括一个或多个附加操作，例如下面描述的。
[0228] 例如，在一个实施例中，方法可以进一步包括以下中的一个或多个的：基于数字图像的估计的分辨率估计文档的数字表示的一个或多个尺寸；将一个或多个文档的数字表现的估计的尺寸与多个已知文档类型的一个或多个已知的尺寸进行比较；基于比较，将文档的数字表现与多个已知文档类型的一个或多个相匹配；确定匹配是否满足一个或多个质量管理标准；并且当确定匹配满足一个或多个质量管理标准时，基于已知文档类型的已知尺寸调节文档的数字表现的估计的分辨率。在一些方法中，仅仅如果发现文档的数字表现和一种已知文档类型匹配良好，才调节估计的分辨率。
[0229] 在一些方法中，一个或多个已知文档类型包括：信纸尺寸文档（8. 5x11英寸）；法定尺寸文档（8. 5x14英寸）；A3文档（11. 69x16. 54英寸）；A4(欧洲信纸尺寸）文档 (8· 27x11. 69) ;A5 文档（5· 83x8. 27 英寸）；账目 / 小报（ledger/tabloid)文档（llx17 英寸）；驾驶证（3x7. 25英寸）；名片（2x3. 5英寸）；个人支票（2. 75x6英寸）；商用支票 (3x7. 25英寸）；商用支票（3x8. 25英寸）；商用支票（2. 75x8. 5英寸）；商用支票（3. 5x 8. 5英寸）；商用支票（3. 66x8. 5英寸）；商用支票（4x8. 5英寸）；2. 25英寸宽的收据；以及3. 125英寸宽的收据。
[0230] 仍然在更多的方法中，方法进一步和/或可选择地包括，对一个或多个连通组件，计算以下中的一个或多个：连通组件内的多个通断转换（例如，从字符到文档背景的转换，例如从黑到白、白到黑等的转换，如技术人员在阅读说明书时理解的）；连通组件内的黑色像素密度；连通组件的纵横比；一个或多个连通组件基于一个或多个黑色像素密度、通断转换的数目以及纵横比表示文本字符的似然值。
[0231] 仍然在更多的方法中，方法可以进一步和/或可选择地包括，确定多个文本字符中的至少两个的字符高度；基于至少两个文本字符中的每个字符的高度计算平均字符高度；确定多个文本字符中的至少两个的字符宽度；基于至少两个文本字符中的每个字符的宽度计算平均字符宽度；执行至少一次比较。尤其是，比较可以从以下中选择：将平均字符高度与参考平均字符高度相比较；以及将平均字符宽度与参考平均字符宽度相比较。
[0232] 在这样的方法中，方法可以进一步包括，基于至少一个比较结果估计数字图像的分辨率，其中参考平均字符高度和参考平均字符宽度中的每个与一个或多个参考字符相对应，每个参考字符的特点为已知的平均字符宽度和已知的平均字符高度。
[0233] 在多个实施例中，每个参考字符与在一些可选择的分辨率例如300DPI下扫描一个或多个商业文档的有代表性的样本得到的字符的数字表现相对应，并且每个参考字符进一步与一个或多个通用字体相对应，例如Arial，TimesNew Roman,Helvetica,Courier,CourierNew,Tahoma等，如本领域技术人员在阅读本说明书时理解的。当然，商业文档的有代表性的样本可以在其他分辨率下扫描，只要作为结果的图像分辨率适于辨认文档上的字符。在一些方法中，分辨率必须足够高，以提供最小字符尺寸，例如在一个实施例中，最小的字符高度不小于12像素。当然，本领域技术人员可以理解，最小字符高度可以根据图像类型改变。例如，处理灰度级图像相比处理二进制（例如双调）图像需要不同的字符高度。在更多的方法中，字符必须足够大以能够由光学字符识别法（OCR) 识别。
[0234] 仍然在更多的实施例中，方法可以包括以下中的一个或多个的：基于估计的文档的数字表示的分辨率，估计文档的数字表示的一个或多个尺寸；由平均字符尺寸计算平均字符宽度；由平均字符尺寸计算平均字符高度；比较平均字符宽度和平均字符高度；基于比较结果估计文档的数字表现的方位；以及基于估计的尺寸和估计的方位，将文档的数字表现与已知的文档类型相匹配。
[0235] 在替代性的实施例中，估计分辨率可以用相反的方法执行，即通过处理文档的数字表现来确定文档的内容，例如支票的数字表示的支付数额、信件的收件人、表格的样式、条形码等，如本领域的技术人员在阅读说明书时可以理解的。基于确定的内容，可以确定文档的数字表现，以与一个或多个已知的文档类型相对应，并且利用已知的一个或多个文档类型的信息，可以确定和/或估计文档的数字表现的分辨率。
[0236] 樽糊检测的多个实施例
[0237] 根据多个实施例，将描述检测数字图像中一个或多个模糊区域的方法。如本领域技术人员在阅读本说明书时将理解并领会的，方法可以在任何合适的环境中执行，例如此处讨论的以及随同提交的大量图中表示的。进一步地，方法可以单独和/或连同此处描述的其他方法（包括但不限于图像）中的任何其他操作一起执行。
[0238] 在一个实施例中，方法包括操作，其中，利用处理器将数字图像中包括文档的数字表现的四边形分成多个部分，每个部分包括多个像素。
[0239] 在一个实施例中，方法包括操作，其中，对每个部分，确定该部分在第一方向上是否包含一个或多个准确的像素到像素的转换。
[0240] 在一个实施例中，方法包括操作，其中，对每个部分，计

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6