用于ocr的基于文本图像质量的反馈的制作方法_3

文档序号:8548112阅读:来源:国知局
模糊算法,如在(例如)W引用的 方式全部并入本文中的W下论文中所描述;A.莱文、R.费格斯、F.杜兰德和W.T.弗里曼, "使用自然图像先验信息的反卷积值econvolutionusingnaturalimagepriors)",ACM SIGGRAPH,2007。
[0058] 在若干说明性实施例中,发现由图3D的文本区域提取器290(其执行上文所描述 的操作210)提取的文本区域在尺寸上过小而不能由移动装置401的文本辨识子系统恰当 地辨识。举例来说,在一些实施例中,移动装置401具有对于将经受辨识的文本区域的40 个像素高度的下限,且具有低于此限制的高度的图像区域导致不良性能。因此,图3D的伪 影分类器320可确定公告牌1100 (图7)上的区域1102和1104将被重新成像(例如,归因 于高度小于40个像素)。
[0059] 在一些此类实施例中,伪影分类器320可产生到用户的反馈消息,要求用户移动 得更靠近文本。在其它该些实施例中,伪影分类器320可产生自动操作相机W放大到公告 牌1100(图7)的信号。变焦的量可由此伪影分类器320基于按比例扩大文本区域的当前 高度W达到预定数目个像素(例如,如果文本高度为30个像素,那么按1. 34倍按比例扩大 达到40个像素高度)来自动计算,且此按比例扩大因数用W放大(但注意,视野减小了)。 当在自动变焦距(例如,W捕捉区域1104)后先前存在的文本区域(例如,区域1101)不再 存在于图像中后,接着一些实施例的伪影分类器320另外产生到用户的反馈W身体移动得 更靠近图像。在一些实施例中,从不同图像提取的文本区域用在一起,W辨识场景(图7) 中的文本,所述场景在响应于伪影分类器320的一或多个反馈获得的图像上是共用的。
[0060] 在操作220 (图3A)的执行后,执行操作230 (由OCR模块330)W按照出自动作 221(图3A)的"是"分支辨识文本区域中的文本。具体来说,处理器404W正常方式从此文 本区域获得一连串子块,例如,通过操作231(图3A)中的细分(或切分)。可使用任何已知 方法(例如,基于文本区域的高度和字符的预定纵横比,和/或基于在识别为形成MSER区 域的像素的边界外但在文本区域内的空间的出现)从区域切分子块。在动作231 (图3A) 中的切分的结果为一连串子块,且每一子块(或块的切片)接着经受光学字符辨识(OCR), 如下所描述。
[0061] 具体来说,在动作232 (图3A)中,处理器404针对文本区域的每一子块(或切片) 形成特征向量,接着为动作233。取决于实施例,在动作232中形成的特定特征向量可不同。 在动作233中,处理器404通过与预定字母表的字母的对应的特征向量相比,对进行解码特 征向量W识别一或多个字符(例如,用于每一子块的替代字符,伴有每一字符的概率)。随 后,在动作234中,处理器404使用识别的字符的一或多个序列与字符序列的存储库,W识 别经识别为存在于文本区域中的字词且将其存储于存储器(和/或屏幕上的显示器)中。
[0062]如在接下来描述的图4A和4B中的一或多者中所说明来实施移动装置401的若干 实施例。在若干实施例中,移动装置401包含在存储器501中的软件610中的多个指令,所 述指令当由处理器404执行时实施文本区域提取器611,例如,通过执行操作410 (图4A), 其中从图像提取一或多个区域,例如,基于图像中的像素的强度的变化,接着为操作420、 430、440、450、452和460,如下所描述。在操作410中,在集合(其可实施为列表)中识别 图像中的像素,所述集合又识别包含图像中的强度的局部极值(例如,局部最大值或局部 最小值)的区域化。此区域A可在操作510中识别为相对于在范围i-A到i+A中的一 或多个强度最大限度地稳定,每一强度i被用作与区域A中包含的多个像素的强度比较的 阔值(其中A为输入到MS邸方法的参数),W识别各别区域&和Q。
[0063]可通过使用任一MS邸方法在操作410 (图4A)中识别此区域(其可构成"连接 组件"),例如,如在W引用的方式全部并入本文中的J.马塔斯、0.查姆、M.乌本和T.帕 亚德拉的题目为"来自最大稳定极值区域的稳固宽基线立体声(RobustWideBaseline StereofromMaximallySt油leExtremalRegions)"的论文(BMVC2002,第 10页)中 所描述。可使用其它方法执行在操作510中的连接组件分析和区域的识别,例如,如在W 引用的方式全部并入本文中的申炫景和申重尚的题目为"弗洛伊德-沃肖尔标记技术的 应用;二值图像中的连接像素组件的识别(ApplicationofFloyd-WarshallL油elling Technique:IdentificationofConnectedPixelComponentsInBinaryImage) " 的论 文(在Kangweon-Kyungki数学期刊发布,14(2006),第1期,第47到55页)中所描述,或 如在W引用的方式全部并入本文中的朴正美、卡尔G.鲁巧和陈慧娟的题目为"使用分治技 术的快速连接组件标记算法(FastConnectedComponentL油elingAlgorithmUsingA DivideandConquerTechnique)"的论文(矩阵(Matrix) (2000)发布,卷号;4,期号;1, 出版商;埃尔塞维尔有限公司,第4到7页)中所描述。
[0064] 在识别了图像中的一或多个区域后,一些实施例的移动装置401中的文本区域提 取器611在操作420(见图4A)中执行偏斜存在检测,接着为偏斜校正。在于操作460(下 文描述)中将像素分类成文本或非文本前执行操作420。此外,在相互邻近的区域的合并 (例如,在操作440中)前,且还在二进制化(例如,在操作450中)前,执行操作420。在 操作420期间,移动装置401计算在特定区域中局部的偏斜的指示符的值。处理器404的 一些实施例针对每一区域A计算偏斜的指示符的值,其通过使用(a)紧紧地拟合区域Qi的 矩形的面积(也称为"最小限界矩形"),和化)区域A中的像素的计数W获得度量Mi,其可 用W确定区域i的偏斜。在若干该些实施例中,将度量Mi与阔值tl比较W确定区域Qi中 的偏斜是否可接受(例如,当区域的偏斜角度大于±5度时,不可接受),由此W获得每一 区域A中的偏斜的二元值指示符。在其它该些实施例中,直接使用度量Mi,作为每一区域i 中的偏斜的实值指示符。
[0065] 在操作420中针对每一区域计算的偏斜的指示符的值个别地(针对每一区域)或 按集合(跨多个区域)存储在存储器501中的特定位置处。每当将区域标记为偏斜存在时, 移动装置401的一些实施例在存储器501中增加针对整个图像的偏斜计数。其它实施例在 存储器中将每一区域个别地地标注为偏斜存在或偏斜不存在。在此阶段(例如,在操作420 中)并不知晓由所述区域形成的特征是否为文本或非文本,虽然正针对所述区域确定偏斜 的指示符的值。在若干方面中,移动装置401应用预定测试到针对图像中的多个区域分别 地计算的偏斜的指示符(和/或偏斜的度量)的多个值,且所述多个值用W确定总体上在 图像中是否全局存在偏斜。操作420的某些实施例可使用统计方法计算多个值的平均值或 中值,接着为过滤多个值当中的离群值,接着为重新计算经过滤的值的平均值或中值,且与 阔值(例如,大于±5度)比较W确定图像中的偏斜是否总体上可接受。
[0066] 在操作420后,当发现跨图像的多个区域的偏斜可接受时,一些实施例的移动装 置401中的文本区域提取器611执行检查共用二进制值的一行像素的存在的操作430 (图 4A),且其后,当区域中的一者满足针对行存在的测试(在操作530中)时,执行使用预定规 则合并相互邻近的区域的操作440。操作440后接着为在二进制化模块中的操作450,其二 进制化从操作540产生的区域(经合并或未合并)的限界框。
[0067] 操作450后接着为在文本区域提取器611中的操作452(图4A)W验证共用二进 制值的一行像素存在于区域(不管是否合并)的经二进制化块中,接着为操作460(图4A)W将经二进制化的块分类为文本或非文本(例如,通过使用神经网络和/或基于笔划宽度 的方差)。操作452可不同地实施于文本区域提取器611的不同实施例中的验证模块中。 在操作460中的分类后,经分类为文本的一或多个块由文本区域提取器611供应到选择器 310,在图3D中所说明。
[0068] 图像的区域中的文本的字词的辨识在一些实施例中由接下来描述的图4B中说明 的类型的OCR模块330执行。具体来说,移动装置401的若干实施例包含实施执行本文中 描述的类型的方法的逻辑的模块621、622、623、624、625、628和629 (图4B)。该些模块可实 施于硬件中或由处理器604执行的软件中或按其组合实施,如下关于图4B所描述。具体来 说,一些实施例的移动装置401包含模块622 (图4B)中的字符分段逻辑,其基于移动装置 401的存储器501中的模块621中的语言特定规则切分文本区域的块(其中块由其边界框 识别)。
[0069] 将由模块622产生的一连串子块输入到模块623 (图4B)中的特征表示逻辑,所述 特征表示逻辑针对序列中的每一块准备N个元素的特征向量。取决于实施例,任何类型的 特征向量可由模块623用W表示每一子块(含有指示将经OCR处理的文本的字符的像素, 包含shiro-re化a和可如图4B中针对字母诗所示的任一上maatra)中的像素。
[0070] -些实施例可将含有字符的像素的每一子块细分成预定数目个子子块,例如, 2X2或4个子子块、4X4或16个子子块或甚至5X4或20个子子块。接着,针对一特征 向量形成两个尺寸W保持在沿着子块的每一子子块中的像素行的水平方向(例如,从左到 右)上的黑到白和白到黑转变的计数,且针对所述特征向量形成两个额外尺寸W保持在沿 着子块的一列的垂直方向(例如,从底部到顶部)上的黑到白和白到黑转变的计数。
[0071] 取决于实施例,可包含于此特征向量中的额外计数为像素的强度值的改变不存在 的计数。举例来说,该些额外计数可跟踪在沿着子块中的像素行的水平方向(例如,从左到 右)上的黑到黑(即,无改变)强度值的出现数目和白到白(也无改变)强度值的出现数 目。类似地,在沿着子块中的像素列的垂直方向(例如,从顶部到底部)上的黑到黑强度值 的出现数目和白到白(也无改变)强度值的出现数目。
[0072] 由模块623形成的一或多个特征向量可在一些实施例中用W识别在同一场景的 对应的多个图像中(例如,在图12A中的图像1518中和在图12B中的图像1519中)的特 定文本区域(例如,在图12A中的告示牌1100上含有字词"讯争FT的文本区域1102)的多 个版本。因为图12A中的图像1518中的字词"印女FT"具有不同于图12B中的图像1519中 的同一字词"印章巧"的高度h4的高度h3,所W用W使跨图像的文本区域相关的特征向量比 例不变。
[0073] 在执行此相关(例如,使用图像中的关键点位置和/或地图点位置)的移动装置 401的若干实施例中,当属性具有不符合第一文本区域的版本中的光学字符辨识(OCR)的 限制的值时,移动装置401可自动分析从本文中描述的类型的同时或连续捕捉的图像提取 的第一文本区域的额外版本。此外,移动装置401的某些实施例分析与如从一或多个图像 提取的第二文本区域的一或多个版本中的OCR相关的属性,且当所述属性具有符合特定图 像中的第二文本区域的版本中的光学字符辨识(OCR)的限制的值时,移动装置401将从特 定图像提取的第二文本区域作为输入提供到OCR。此过程可针对从多个图像提取的文本的 一或多个额外区域而继续,直到已将识别的文本区域中的每一者的版本输入到OCR,用于辨 识其中含有的文本。在若干该些实施例中,此移动装置401可另外或替代地输出在第一文 本区域中和在第二文本区域中辨识的文本。
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1