用于ocr的基于文本图像质量的反馈的制作方法

文档序号：8548112阅读：575来源：国知局

用于ocr的基于文本图像质量的反馈的制作方法
【专利说明】
[0001] 对相关申请秦的香叉参考
[000引本申请案主张2013年3月15日申请且题目为"用于改善OCR的基于文本图像质量的反馈（TextImageQualityBasedFeedbackForImprovingOCR)"的美国申请案第 13/843, 637号的优先权，所述美国申请案又主张2012年12月13日在印度专利局申请且题目为"用于改善OCR的基于文本图像质量的反馈（TextImageQualityBasedFeedback ForImprovingOCR)"的印度临时专利申请案第5200/C肥/2012号的优先权，所述两个申请案被W引用的方式全部并入本文中。
技术领域
[0003] 本专利申请案设及用于在自然图像或视频帖中识别文本的字符的装置和方法。
【背景技术】
[0004] 识别经光学扫描（例如，通过光复印机的平面扫描器）的纸中的文本区域显著比在可在图像（也称为"自然图像"）中捕捉的或在由具有内置式数码相机的手持式装置 (例如，智能电话）实时捕捉的视频帖中的现实世界的场景中检测可含有文本的区域更容易（例如，归因于竖直定向、大的尺寸和缓慢速度）。具体来说，现有技术的光学字符辨识 (OCR)方法来源于文档处理领域，其中文档图像在文档中含有光学扫描页面的一连串文本行（例如，30行文本）。文档处理技术虽然成功地用于由光学扫描仪创建的经扫描的文档上，但却产生过多的假阳性和/或假阴性，W致当用于含有呈各种字体（归因于照明、色彩、倾斜、焦点、字体等的变化）的文本的自然图像（例如，交通标识、商店口面、车辆牌照）上时不可行。
[0005] 图1说明在印度的现实世界场景100中的告示牌。用户110(见图1)可使用装备有相机的移动装置（例如，蜂窝式电话）108来捕捉场景100的图像107 (也称为"自然图像"或"现实世界图像"）。相机捕捉的图像107可显示在移动装置108的屏幕106上。此图像107 (图1)在使用现有技术图像处理技术经直接处理的情况下可导致未能辨识区域 103(图1)中的一或多个字词。然而，当图像质量针对上文提到的一或多个原因（例如，归因于照明、色彩、倾斜、焦点、字体等的变化）而不良时，现有技术方法的使用可造成问题。
[0006] 因此，存在在识别自然图像或视频帖中的文本的区域的块中的字符前改善图像质量的需求，如下所描述。

【发明内容】

[0007] 在所描述实施例的若干方面中，一种电子装置和方法使用具有一或多个大小的相同文本的多个图像来改善文本辨识。具体来说，电子装置和方法获得由相机（例如，在例如智能电话或平板计算机的手持式装置中）在多个变焦等级下捕捉的多个图像或视频帖（也称为"图像"）中的区域，且确定图像中的区域是否满足测试。由电子装置和方法使用的测试指示区域中的文本的存在，且也称为"文本存在"测试。此文本存在测试可检测（例如）表示标头行（在梵文本母中也称为"shiro-re化a")的共用二进制值的一行像素的存在，和/或笔划或标志符号的宽度的方差（指示区域中的字符的存在）。如果所述区域含有文本和/或非文本，那么在其不为电子装置和方法所知的阶段应用"文本存在"测试。注意，在若干实施例中，将"文本存在"测试个别地应用于每一区域，且因此，此测试为区域级测试 (且并非图像级测试）。
[0008] 因此，在获得含有一或多个大小的文本的场景的多个图像后，从多个图像中的每一者自动提取一或多个区域，接着为应用上文所描述的类型的测试W识别有可能为文本的区域（也称为"潜在文本区域"或简单地"文本区域"）。接着，所述电子装置和方法分析与如从多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性（在 W上描述的测试前或后）。此属性的一个实例为第一文本区域的高度。如果因为第一文本区域的属性不符合光学字符辨识（OCR)的限制（例如，如果第一文本区域的高度低于对于 OCR所需的的最小数目个像素，例如，40个像素）而一个图像中的第一文本区域具有对于文本辨识不可接受的属性的值，那么类似地分析同一场景的另一图像。注意，在若干实施例中检查的图像的质量个别地处于每一区域中，且因此此检查为区域级检查（且非图像级检查）。因此，在该些实施例中可提供的反馈处于区域级（非图像级）。
[0009] 当第一文本区域具有可接受的属性的值时，进一步处理第一文本区域的那个版本，W辨识其中的文本，例如，通过对通过细分（例如，通过切分）所述区域获得的一连串块当中的每一块执行OCR,且在存储器中存储所述OCR的结果。其后，OCR的结果用W对用户显示经辨识的文本或通过使用经辨识的文本（例如，将字词从印地语翻译成英语）获得的任何其它信息。
[0010] 应理解，所描述实施例的若干其它方面将从本文中的描述而变得易于对所属领域的技术人员显而易见，其中W说明方式展示和描述各种方面。下文的图式和实施方式应被视为本质上是说明性的，而非限制性的。
【附图说明】
[0011] 图1说明用户使用现有技术的装备有相机的移动装置来捕捉现实世界中的告示牌的图像。
[0012] 图2W高阶流程图说明在若干所描述实施例中由一或多个处理器404执行W从图像提取有可能为文本的一或多个区域、检查潜在文本区域是否满足针对图像质量的测试且当文本区域需要重新成像W用于在文本辨识中使用时产生反馈的动作。
[0013] 图3AW中阶流程图说明在图2中说明的类型的一些实施例中的一或多个处理器 404执行的动作。
[0014] 图3B和3C说明在一些实施例中用W验证图像中的如含有文本的区域的笔划宽度的计算。
[0015] 图3D说明执行图3A的操作220的文本图像质量反馈模块。
[0016] 图3EW高阶框图说明指示文本图像的质量的一或多个参数的提取器，和图4A中说明的类型的反馈模块的在一些实施例中使用的伪影分类器。
[0017] 图3FW表说明由图4C中说明的类型的提取器提取的文本图像质量参数和在一些实施例中产生的对应的反馈的实例。
[0018] 图4A说明执行图3A的操作210的文本区域提取器。
[0019] 图4B说明执行图3A的操作230中的文本辨识的OCR模块330。
[0020] 图5AW高阶数据流图说明图3D中说明的类型的伪影分类器的训练。
[0021] 图5BW高阶数据流图说明图5A的伪影分类器的使用，其中大小作为文本图像质量参数。
[0022] 图6AW高阶数据流图说明使用一或多个伪影分类器识别在一些实施例中为图2 中说明的类型的单一图像的两个不同潜在文本区域中的假影。
[0023] 图6BW流程图说明在一些说明性实施例由图6A的伪影分类器681执行的动作。
[0024] 图7说明现实世界（现有技术）中的告示牌1100,其中文本区域1101、1102、1103 和1104在不同位置处具有不同大小。
[00巧]图8AW高阶框图说明一些实施例的移动装置，其中通过使用相同文本的多个图像来改善文本辨识。
[0026] 图8BW高阶流程图说明在一些实施例中经实施W允许通过使用多个图像在较小大小潜在文本区域1102和1103的位置处放大来按较高分辨率捕捉其的自动多分辨率捕捉。
[0027] 图9W高阶框图说明所描述实施例中的一些中的手持式装置的各种组件。
[0028] 图10AW中阶流程图说明在一些实施例中由一或多个处理器404执行W评估从相机接收的图像中的有可能为文本的每一区域且确定变焦等级（针对每一潜在文本区域）的动作。
[0029] 图10BW中阶流程图说明在一些实施例中由一或多个处理器404执行W按降序对关于变焦等级的列表排序且在相机视野中识别来自此列表的保留所有文本区域的最大变焦等级狂）的动作。
[0030] 图10CW中阶流程图说明在一些实施例中由一或多个处理器404执行W放大到适当变焦等级同时在视野内保留将重新成像的文本区域的动作。
[003。图10D说明相对于由相机捕捉的图像的在图10B的方法中使用的"h"和"W"。
[0032] 图11A说明在一些实施例中在手持式装置401的屏幕406上显示的消息1510,例如，句子"检测的字词极小。请放大或走近"（其可叠加于屏幕406上的相机所捕捉图像的变暗版本（未图示）上）。
[0033] 图11B说明在一些实施例中在如图11B中所说明的消息显示后由手持式装置的相机捕捉的（图1的）图像107的放大版本1517。
[0034] 图11C说明在一些实施例中在字词已在（图11B的）版本1517中辨识后的呈英语的经翻译字词的显示。
[003引图12A说明（图7的）告示牌1100的图像1518,其中图像1518中的文本区域 1104R1和1102R1过小而不能在OCR中使用。
[0036] 图12B说明（图7的）告示牌1100的放大版本1519,在一些实施例中，其通过相机的自动放大W获得图像1518中的较大大小的潜在文本区域1104R2和1102R2来捕捉。
【具体实施方式】
[0037] 本文中描述的类型的若干操作和动作由移动装置401 (图9)中包含的一或多个处理器404实施，所述一或多个处理器能够识别现实世界场景的图像的矩形部分（或块），接着将每一矩形部分（或块）分段W形成一连串子块且识别每一子块中的字符。因此，移动装置401可包含相机405 (图9)W产生现实世界中的场景的图像或视频的帖。移动装置401 可进一步包含传感器（例如，加速计、巧螺仪、GI^S传感器或类似者），其可用W辅助确定移动装置401相对于现实世界场景的姿态（包含位置和定向）。
[0038] 所属领域的技术人员将了解，本文中描述的技术可经调适W识别图像的具有除了矩形之外的形状的部分，和识别其中的字符。虽然本文中描述的各种实例使用梵文本母来说明某些概念，但所属领域的技术人员将了解，该些概念可应用于除了梵文本母之外的语言或手迹。举例来说，本文中描述的实施例可用W识别韩文、中文、日文和/或其它语言中的字符。此外，注意，在W下描述中，有时为方便起见而描述单一处理器，但应理解，可取决于实施例而使用多个处理器。
[0039] 因此，按照图2中的动作201，一或多个处理器404通常按多个变焦等级（例如，其可预定）获得（例如，从相机405,见图9)现实世界的场景的多个图像。现实世界的场景含有一或多个大小的文本，例如，在告示牌上。其后，处理器404执行操作210W从多个图像中的每一者提取一或多个文本区域。随后，在操作220中，处理器404分析与如从多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性。当属性具有符合第一文本区域的一版本中的光学字符辨识（OCR)的限制的值时，处理器404将第一文本区域的所述版本作为输入提供到OCR。
[0040] 在执行操作210时，在动作211中，处理器404应用预定方法（例如，MSER)W识别图像中相互连接且在一或多个性质（例如，强度和/或色彩）方面不同于周围像素的像素的区域。上文所描述的类型的区域可由于连接分量和/或最大稳定极值区域或MSER而与现有技术中已知的区域类似或相同。在动作211完成后，将该些区域存储在存储器中。取决于实施例，动作211可包含多个区域（包含一或多个文本区域）的偏斜校正，接着为经偏斜校正的区域中的shiro-re化a检测。在一些实施例中，shiro-re化a的检测后接着为应用群集规则W将shiro-re化a区域与其在轴线（例如，X轴）上的突起重叠的邻近区域合并。
[0041] 在操作210期间，在动作212中，接收提取的区域中的一者（例如，从存储器），接着为动作216,其中针对文本的存在测试

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P·K·拜哈提;A·S·比塞恩;R·桑德拉拉简;D·A·戈尔;
技术所有人：高通股份有限公司;
我是此专利的发明人

上一篇：用户定位系统的制作方法
上一篇：用于图像捕捉和便于注解的方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。