对移动设备捕获的数字图像中的对象进行分类的系统和方法_6

文档序号：9553549阅读：来源：国知局

然，与图6中示出的那些差不多的操作可以用与方法600 -致的方法执行。就像本领域技术人员在阅读本说明书时将领会的。
[0302] 在操作602中，基于移动设备捕获的数字图像生成第一特征矢量。
[0303] 在操作604中，将第一特征矢量与多个参考特征矩阵进行比较。
[0304] 在操作606中，数字图像中描述的对象作为特别对象类别的成员至少部分基于比较（例如，在操作604中进行的比较）进行分类。
[0305] 在操作608中，对象的一个或多个对象特征至少部分基于特别对象类别确定。
[0306] 在操作610中，执行处理操作。处理操作包括执行一个或多个下列子处理：至少部分基于一个或多个对象特征检测数字图像中描绘的对象；至少部分基于一个或多个对象特征矩形化数字图像中描绘的对象；至少部分基于一个或多个对象特征裁剪数字图像；并且至少部分基于一个或多个对象特征二进制化数字对象。
[0307] 如本领域技术人员在阅读文档分类的上述说明书时将进一步领会的，在多个实施例中，执行一个或多个附加的处理操作是有利的，例如上面描述的通过文档分类确定的关于操作610至少部分基于对象特征的子处理。
[0308] 例如，在对数字图像中描述的对象分类后，例如文档，可能提炼其他处理参数、功能等和/或利用已知正确的经分类的对象属于哪个对象类别的信息，例如对象形状、大小、维度，感兴趣对象的区域位置，例如描绘一个或多个符号、图案、文本等的区域，如本领域技术人员在阅读本说明书时将理解的。
[0309] 关于基于分类执行页面检测，在一些方法中，为了改进对象检测能力，利用属于特别对象类别的对象的已知信息是有利的。例如，如本领域技术人员将领会的，将可能识别数字图像中对象的一组特征限制成一个或少数离散的、已知的特征，并且搜索那些一个或多个特征，可以具有较少的计算成本，和/或导致更高的置信度或更高质量的结果。
[0310] 可以用于改进对象检测的典型特征可以包括特征，例如对象尺寸、对象形状、对象颜色、对象类别的一个或多个参考特征（例如，位于文档的已知位置的参考符号）。
[0311] 在另一种方法中，通过帮助对象检测算法将描述一个对象的数字图像区域与描绘其他对象，图像背景、伪像等的数字图像区域区分开，可以基于一个或多个已知特征改进对象检测，如本领域技术人员在阅读本说明书时将理解的。例如，如果属于特别对象类别的对象已知展示了特别颜色简档或方案，尝试检测数字图像内的特别颜色简档或方案可能比检测从一个颜色简档或方案（例如，背景颜色简档或方案）到另一个颜色简档或方案（例如，对象颜色简档或主题）要更加简单和/或更加可靠，尤其是如果两个颜色简档或方案不具有明显相对的特征的特点。
[0312] 关于基于分类执行矩形化，在一些方法中，为了改进对象矩形化的性能，利用关于对象属于特别对象类别的已知信息是有利的。例如并且本领域技术人员将领会的，基于一组决定性地表示了真正的对象构造的已知的对象特征，将对象的数字表现从天然的外貌变换成真正的构造，而不是尝试从自然的外貌估计真正的对象构造并且将自然的外貌投影到估计的对象构造上，可以具有较低的计算成本和/或可以导致更高的置信度或更高质量的结果。
[0313] 在一种方法中，分类可以识别对象的已知的尺寸，并且基于这些已知的尺寸可以将数字对象矩形化（例如，以通过移除利用移动设备的照相机而不是传统平板扫描仪、进纸扫描仪或其他类似的多功能外围设备（MFP)捕获图像的过程中引入的投影效果），将数字图像中对象的变形的表现变换成不变形的表现。
[0314] 关于基于分类进行裁剪，与上面讨论的关于矩形化的原则类似，在一些方法中，利用关于对象属于特别对象类别的已知信息，对改进描述对象的数字图像的裁剪是有利的，这样所有经裁剪的图像的所有或大部分描述了对象并且没描绘图像背景（或其他图像中描绘的对象、伪像等）。
[0315] 作为一个简单的例子，根据对象类别确定对象的已知的大小、维度、配置等，并且利用这个信息从没有描述对象的图像区域识别描述对象的图像区域，并且限制对象周围的裁剪线以移除没有描绘对象的图像区域，是有利的。
[0316] 关于基于分类执行二值化，现在公开的分类算法具有若干对移动图像处理有用的改进。这种改进的若干示例性实施例现在将在图4A-4D中描述。
[0317] 例如，二值化算法一般地将多色调的数字图像（例如，灰度级、颜色或任何其他图像，例如展示了多于两个色调的图像400)变换成二值化图像，即仅展示两个色调（典型地，白色和黑色）的图像。本领域技术人员将领会，试图二值化描述对象的数字图像，其区域展示了两个或更多不同的颜色简档和/或颜色方案（例如，描绘彩色图片402的区域与描绘黑/白文本区域404的区域对比，彩色文本区域406,符号408,例如参考对象、水印等，对象背景区域410等），会产生不成功或不能令人满意的结果。
[0318] 根据一种说明，这些困难可能至少部分是由于颜色简档、方案等间的不同，其将反向影响单向二值化变换。因此，提供区分具有完全不同颜色方案或简档的每个区域的能力，并且限制每个分离的二值化参数，可以大大改进作为结果的整个双调图像的质量，特别是关于每个各自区域中变换的质量。
[0319] 根据图4A-4B中示出的一个示例性实施例，改进的二值化可以包括，确定对象类别颜色简档和/或方案（例如，确定对象背景区域410的颜色简档和/或方案）；基于对象类别颜色简档和/或颜色方案调节一个或多个二值化参数；并且利用一个或多个经调节的二值化参数对数字图像设置临界值。
[0320] 如本领域技术人员在阅读本说明书时可以领会的，二值化参数可以包括任何合适的二值化过程的任何参数，并且二值化参数可以根据任何合适的方法进行调节。例如，关于基于对象类别颜色简档和/或颜色方案调节二值化参数，二值化参数可以调节为依照对象类别颜色简档/方案（例如强调不够红色调等相对饱和的对象类别颜色简档/方案的红色通道）过于强调和/或强调不够一个或多个颜色通道、强度等的贡献。
[0321] 类似地，在其他实施例中，例如尤其是在图4B-4D中示出的，改进的二值化可以包括，确定对象类别掩膜，将对象类别掩膜应用于数字图像，并且基于对象类别掩膜对数字图像的子区域设置临界值。在对象类别掩膜为属于该类的对象提供关于感兴趣的特征的特别区域位置的信息（例如，描述彩色图片402的区域，描述黑/白文本区域404、彩色文本区域 406的区域，描述符号408的符号区域，例如参考对象、水印等，对象背景区域410等）并且使得可以从一个或多个二值化操作中选择这种区域的包含物和/或排除物的条件下，对象类别掩膜可以是任何类型的掩膜。
[0322] 例如，图4B，改进的二值化包括，确定识别区域（例如紧接上面讨论）的对象类别掩膜420,并且将对象类别掩膜420用于将所有数字图像400从二值化中排除，除了感兴趣的单个区域，例如对象背景区域410。可替代地，整个数字图像可以被遮盖，并且感兴趣的区域例如对象背景区域410随后被透明遮盖，以用于二值化过程。而且，无论怎样，现在关于图4B中描述的遮盖功能可以与上面描述的示例性的颜色简档和/或颜色方案信息功能结合在一起，例如通过获得对象类别掩膜和对象颜色简档和/或颜色方案，除了对象背景区域410以外将对象类别掩膜应用于从二值化中排除所有的数字对象，基于对象背景区域颜色简档和/或颜色方案调节一个或多个二值化参数，并且利用经调节的二值化参数为对象背景区域410设置临界值。
[0323] 延伸图4B中示出的原理，感兴趣的多个区域可以利用对象类别掩膜420进行透明遮盖和/或遮盖，以在设计为生成高质量的双调图像的分层的方法中可选择地为二值化指定区域和/或参数。例如，在应用对象类别掩膜420之后图4C中的多个文本区域404、406 可以为二值化保留（可能地，利用经调节的参数），例如，在一些方法中，用于从二值化中排除所有非文本区域。
[0324] 类似地，仅简单地从二值化中排除图像的一部分是有利的，无论是否调节任何参数。例如，关于图4D，利用对象类别掩膜420遮盖数字图像400的唯一区域是想要的，例如描述彩色图片402的区域。然后，特别地在方法中，其中数字图像400的余下部分的特点是单个颜色简档和/或颜色方案，或小数目的（即不大于3)本质上类似的颜色简档和/或颜色方案，可以进行二值化以对数字图像400余下的部分进行分类。随后，被遮盖的唯一区域可以可选择地恢复给数字图像400,其结果是受到二值化的数字图像400的所有区域内改进的双调图像质量加上未受到二值化的图像区域内未受到打扰的彩色图片402。
[0325] 仍然在更多的实施例中，至少部分基于分类和/或分类结果执行光学字符识别 (OCR)是有利的。特别地，确定关于属于特别类别的对象中描绘的文字的位置、形式和/或内容的信息，并且基于期望的文本位置、形式和/或内容修改通过传统的OCR方法估计的预测是有利的。例如，在一个实施例中，其中OCR预测估计对应于文档的"日期"地方的区域读取"Jan，14, 2011"，现在公开的算法可以确定此文本期望的形式采用形式，例如"[缩写月份][.][##][，][####] "。该算法可以改正错误的OCR预测，例如，将"Jan"后面的逗号转换成句号和/或将"2011"末尾的字母"1"转换成数字字符。类似地，现在公开的算法可以确定相同文本的期望形式用"[##]/[##]/[####]"代替，并且将"Jan"转换成"01"，并且将每套逗号间隔字符"，"转换成斜线"/"，以改正错误的OCR预测。
[0326] -种方法包括：接收移动设备捕获的数字图像；并且利用移动设备的处理器：生成数字图像的第一表现，第一表现的特点是分辨率降低；基于第一表现生成第一特征矢量；将第一特征矢量与多个参考特征矩阵进行比较；并且对数字图像中描述的对象进行分类，作为至少部分基于比较结果的特别对象类别中的成员。生成第一表现包括将数字图像分成多个部分；并且，对每个部分确定至少一个特征值，每个特征值与一个或多个描述部分的特征相对应。第一表现包括多个像素，多个像素中的每一个与多个部分中的每一部分相对应，并且多个像素中的每一个的特点是对对应部分确定的至少一个特征值。数字图像包括经裁剪的彩色图像。一个或多个参考特征矩阵包括多个特征矢量，并且每个特征矢量与至少一个对象特征相对应。比较包括N维比较，并且N大于50。第一特征矢量的特点是特征矢量长度大于500。方法也包括，至少部分基于特别对象类别确定对象的一个或多个对象特征；至少部分基于分类和/或其结果检测数字图像中描述的对象；至少部分基于分类和/或其结果矩形化数字图像中描述的对象；至少部分基于分类和/或其结果裁剪数字图像；至少部分基于分类和/或其结果二值化数字图像。二值化附加地和/或可替代地包括以下中的一个或多个的：确定对象类别掩膜；将对象类别掩膜应用于数字图像；并且基于对象类别掩膜对数字图像的子区域设置临界值。方法可以包括，基于对象类别掩膜调节一个或多个二值化参数利用一个或多个经调节的二值化参数对数字图像设置临界值。确定对象类别颜色方案。类似地，二值化可以包括，基于对象类别颜色方案调节一个或多个二值化参数；并且利用一个或多个经调节的二值化参数对数字图像设置临界值。方法附加地和/或可替代地包括：确定与移动设备相关的地理位置，其中，进一步至少部分基于地理位置进行分类。方法附加地和/或可替代地包括：向移动设备的显示器输出特别对象类别的指示，并且响应于输出指示，通过移动设备的显示器接收用户输入。方法附加地和/或可替代地包括：至少部分基于特别对象类别确定对象的一个或多个对象特征。
[0327] 方法包括：基于移动设备捕获的数字图像生成第一特征矢量；将第一特征矢量与多个参考特征矩阵进行比较；对数字图像中描绘的对象进行分类，作为至少部分基于比较结果的特别对象类别中的成员；并且确定至少部分基于特别对象类别的对象的一个或多个对象特征；该方法也包括，利用移动设备的处理器执行至少一个处理操作，至少一个处理操作从由下列组成的组中选择：检测至少部分基于一个或多个对象特征的数字图像中描述的对象；矩形化至少部分基于一个或多个对象特征的数字图像中描绘的对象；裁剪至少部分基于一个或多个对象特征的数字图像；并且二值化至少部分基于一个或多个对象特征的数字图像。一个或多个对象特征包括对象颜色方案，并且二值化包括：确定对象颜色方案；基于处理结果调节一个或多个二值化参数；并且利用一个或多个经调节的二值化参数对数字图像设置临界值。一个或多个对象特征可以附加地和/或可替代地包括对象类别掩膜，并且二值化包括：确定对象类别掩膜；将对象类别掩膜应用于数字图像；并且基于对象类别掩膜对数字图像的子区域设置临界值。
[0328] 当然，改进和/或校正OCR预测的其他方法，技术人员在阅读这些说明时将领会，也完全落入本公开的范围。
[0329] 此处公开的有创造性的概念作为例子呈现，以说明多个说明性情境、实施例和/ 或实现方式中的无数个特征。应领会，普遍公开的观点应视为模块化的，并且可以以其任何组合、排列或综合实现。此外，本公开的特征、功能和观点的任何修改、变化或等价，本领域技术人员在阅读本说明书时将领会，也应该视为落入本公开的范围。
[0330] 因此，本发明的一个实施例包括此处公开的所有特征，包括那些示出的以及连同图中描述的。其他实施例包括此处公开的特征的子集和/或连同任何图中示出和描述的。这样的特征或其子集，可以利用已知的技术以任何方式组合，其在本领域技术人员阅读本说明书后将变得显而易见。
[0331] 虽然上面描述了多个实施例，但是应理解，它们仅作为例子介绍，并且不是限制。因此，本发明的实施例的宽度和范围不应该受到上面描述的任何示例性实施例的限制，但仅根据下面的权利要求和它们的等价物进行限制。
【主权项】
1. 一种方法，包括：接收移动设备捕获的数字图像；并且利用所述移动设备的处理器：生成所述数字图像的第一表现，所述第一表现的特点是分辨率降低；基于所述第一表现生成第一特征矢量；将所述第一特征矢量与多个参考特征矩阵进行比较；并且至少部分基于所述比较，将所述数字图像中描绘的对象分类为特定对象类别的成员。2. 根据权利要求1所述的方法，其中生成所述第一表现包括：将所述数字图像分成多个部分；并且对每个部分确定至少一个特征值，每个特征值与一个或多个描述所述部分的特征相对应。3. 根据权利要求2所述的方法，其中所述第一表现包括多个像素，其中所述多个像素中的每一个与所述多个部分中的每一部分相对应，并且其中所述多个像素中的每一个的特点是针对对应部分所确定的至少一个特征值。4. 根据权利要求1所述的方法，其中所述数字图像包括经裁剪的彩色图像。5. 根据权利要求1所述的方法，其中一个或多个所述参考特征矩阵包括多个特征矢量，并且其中每个特征矢量与对象的至少一个特征相对应。6. 根据权利要求1所述的方法，其中所述比较包括N维比较，并且其中N大于50。7. 根据权利要求1所述的方法，其中所述第一特征矢量的特点是特征矢量长度大于 500 〇8. 根据权利要求1所述的方法，进一步包括：至少部分基于所述特别对象类别确定所述对象的一个或多个对象特征。9. 根据权利要求1所述的方法，进一步包括：至少部分基于所述分类和/或分类结果检测所述数字图像中描绘的所述对象。10. 根据权利要求1所述的方法，进一步包括：至少部分基于所述分类和/或分类结果矩形化所述数字图像中描绘的所述对象。11. 根据权利要求1所述的方法，进一步包括：至少部分基于所述分类和/或分类结果裁剪所述数字图像。12. 根据权利要求1所述的方法，进一步包括：至少部分基于所述分类和/或分类结果二值化所述数字图像。13. 根据权利要求12所述的方法，其中所述二值化包括：确定对象类别颜色方案；基于所述对象类别颜色方案调节一个或多个所述二值化参数；并且利用一个或多个经调节的所述二值化参数对所述数字图像设置临界值。14. 根据权利要求12所述的方法，其中二值化包括：确定对象类别掩膜；将所述对象类别掩膜应用于所述数字图像；并且基于所述对象类别掩膜对所述数字图像的子区域设置临界值。15. 根据权利要求14所述的方法，其中所述二值化进一步包括：基于所述对象类别掩膜调节一个或多个所述二值化参数；并且利用一个或多个经调节的所述二值化参数对所述数字图像设置临界值。16. 根据权利要求1所述的方法，进一步包括：确定与所述移动设备相关联的地理位置，其中进一步至少部分基于所述地理位置进行分类。17. 根据权利要求1所述的方法，进一步包括：向所述移动设备的显示器输出所述特别对象类别的指示；并且响应于输出所述指示，经由所述移动设备的显示器接收用户输入。18. 根据权利要求1所述的方法，进一步包括：至少部分基于所述特别对象类别确定所述对象的一个或多个对象特征。19. 一种方法，包括：基于移动设备捕获的数字图像生成第一特征矢量；将所述第一特征矢量与多个参考特征矩阵进行比较；至少部分基于所述比较，将所述数字图像中描绘的对象分类为特定对象类别的成员；并且至少部分基于所述特别对象类别，确定所述对象的一个或多个对象特征；并且利用移动设备的处理器执行至少一个处理操作，所述至少一个处理操作从由下列组成的组中选择：至少部分基于一个或多个所述对象特征，检测所述数字图像中描绘的所述对象；至少部分基于一个或多个所述对象特征，矩形化所述数字图像中描绘的所述对象；至少部分基于一个或多个所述对象特征，裁剪所述数字图像；并且至少部分基于一个或多个所述对象特征，二值化所述数字图像。20. 根据权利要求19所述的方法，其中一个或多个所述对象特征包括对象颜色方案，并且其中所述二值化包括：确定所述对象颜色方案；基于所述处理，调节一个或多个二值化参数；并且利用一个或多个经调节的所述二值化参数对所述数字图像设置临界值。21. 根据权利要求19所述的方法，其中一个或多个所述对象特征包括对象类别掩膜，并且其中所述二值化包括：确定所述对象类别掩膜；将所述对象类别掩膜应用于所述数字图像；并且基于所述对象类别掩膜对所述数字图像的子区域设置临界值。22. 根据权利要求21所述的方法，其中一个或多个所述对象特征进一步包括对象颜色方案，并且其中所述二值化包括：确定所述对象颜色方案；基于所述处理，调节一个或多个二值化参数；并且利用一个或多个经调节的所述二值化参数对所述数字图像设置临界值。23. -个系统，包括：处理器；以及处理器内的逻辑和/或处理器可执行逻辑，使得所述处理器能够：生成由移动设备捕获的数字图像的第一表现；基于所述第一表现生成第一特征矢量；将所述第一特征矢量与多个参考特征矩阵进行比较；并且至少部分基于所述比较，将所述数字图像中描绘的对象分类为特定对象类别的成员。24. -种计算机程序产品，包括：其中体现了程序代码的计算机可读存储介质，所述程序代码可由处理器读取/执行，从而：生成由移动设备捕获的数字图像的第一表现；基于所述第一表现生成第一特征矢量；将所述第一特征矢量与多个参考特征矩阵进行比较；并且至少部分基于所述比较，将所述数字图像中描绘的对象分类为特定对象类别的成员。
【专利摘要】在一个实施例中，方法包括接收移动设备捕获的数字图像；并且利用移动设备的处理器：生成数字图像的第一表现，第一表现的特点是分辨率降低；基于第一表现生成第一特征矢量；将第一特征矢量与多个参考特征矩阵进行比较；并且至少部分基于比较，将数字图像中描绘的对象分类为特定对象类别中的成员。
【IPC分类】H04N1/60
【公开号】CN105308944
【申请号】CN201480014229
【发明人】简·维勒斯·阿姆特鲁普, 安东尼·马乔拉, 斯蒂芬·迈克尔·汤普森, 马继勇, 亚历山大·舒斯特洛维奇, 克里斯多夫·W·斯拉舍
【申请人】柯法克斯公司
【公开日】2016年2月3日
【申请日】2014年3月13日
【公告号】EP2974261A2, EP2974261A4, US9355312, US20140270349, WO2014160433A2, WO2014160433A3

完整全部详细技术资料下载

当前第6页1 2 3 4 5 6