用于文档图像的畸变校正方法和设备的制造方法

文档序号:9472204阅读:396来源:国知局
用于文档图像的畸变校正方法和设备的制造方法
【技术领域】
[0001] 本发明涉及用于校正文档图像的崎变的方法和设备。更具体而言,本发明涉及用 于至少通过延伸文档图像中包含的短文本行来校正文档图像的崎变的方法和设备。
【背景技术】
[0002] 近年来,信息技术已经在诸如计算机视觉、图像处理和理解等的多个领域快速发 展,并且尤其电子文档处理领域获得日益广泛的关注并且得到广泛应用。
[0003] 在电子文档处理中,文档图像识别(诸如OCR)已经被应用于并且有助于多种应用 W及多种设备,该多种设备从具有图像拾取装置(诸如扫描仪等)的用于文档处理的专业 办公设备到具有用于拾取文档图像的装置(诸如照相机等)的、可拾取并处理文档图像W 清楚识别送样的文档的内容的个人设备(诸如PC计算机、PDA、手持设备)。
[0004] 随着配备有照相机的手持设备的发展,在各种环境(诸如文档的办公室外数字 化、外语路标的识别、W及视力障碍人员的文本语音输入)中迫切需要移动(基于照相机 的)OCR应用。
[0005] 然而,由于扫描仪和照相机之间的差别,移动OCR成为新的挑战。在基于扫描仪的 文档捕获中,文档通常被压板按压,因此基本是平的,并且由于文档的物理状态导致的崎变 几乎没有。而在基于照相机的文档捕获中,要被捕获的文档通常是不受约束的并且可能是 不平的,因此物理扭曲文档所导致的崎变是常见的现象。崎变将大大降低OCR准确度,送是 因为不平的文档形状使得针对被捕获图像的典型文本处理(诸如,分割(文本行分割和字 符分割)和识别)即使在局部旋转之后仍变得困难。因此,用于照相机捕获的文档图像的 崎变校正是必要的用于移动OCR的处理。
[0006] 现有技术中存在关于文档图像的崎变校正的多种研究。
[0007] -种研究是基于3D的技术。在典型的实现中,送种技术通过近似原始文档表面来 得到原始文档的3D表面形状,然后对送样得到的3D表面进行校正(诸如基于一些专用模 型进行平坦化)。原始文档表面可通过诸如将照片投影到3D网格上的物理建模被近似,或 者可使用SFS(由明暗恢复形状)技术从单个图像中的明暗分布得出。
[0008] 但是,送样的方法具有限制。特别地,对于物理建模,一些专用的且复杂的附加设 备是必需的,送样可能不方便并且在一些情况下费时。对于由明暗恢复形状方法,应满足一 些假设(诸如,近点光源)并且应知晓一些现有照相机限制(例如,焦距),送只能通过准确 的照相机校准处理来获得。因此,送样的基于3D的方法通常需要更复杂的设备机构W及费 时的操作。
[0009] 鉴于上述的基于3D的方法的缺陷,提出了针对文档的2D图像的一些其它方法W 确定和校正文档图像的崎变。一种送样的用于校正文档图像的崎变的技术是基于如下假 设:扭曲类型是特定类型并且预先知晓。在典型实现中,送种技术假定弯曲文档的表面为某 一几何类型(诸如圆柱类型),因此基于文档表面具有某一几何类型的假定,对于送种假定 的文档图像的几何类型表面执行校正(诸如低秩矩阵恢复和稀疏误差校正)。
[0010] 但是,考虑到要被拾取图像的文档的实际表面通常具有比假定的表面的简单形状 更复杂的形状,送种技术不能有效地校正文档图像。
[0011] 另一种方法是基于边界的方法,其基于文档图像的边界对文档图像执行校正。参 考文献[1]公开了一种基于边界的方法,该方法提取并且使用文档边界W描述崎变。送对 于在成像时遭遇的常见崎变(例如,粘结扭曲)是适当的,送是因为该方法假设文档表面由 两条相对边界曲线构成(例如,打开的厚书本)。但是,此方法不能校正边界不是相对的时 的情况。另一限制是此基于边界的方法假定文档的四条边界是完整的,然而实际存在的不 完整边界的情况将导致不能生成整个文档的扭曲网格(wa巧ingmesh)。
[0012] 另外的一种方法通过基于文档图像的文本信息(例如,文本区域中包含的文本的 基线、文本区域的扭曲网格)估计文档图像的崎变,从而能够基于文档图像中的文本信息 执行崎变校正。一些方法直接使用文本的基线信息。参考文献[2]提出了用于校正弯曲的 文本行的方法。它们通过聚类连接分量来找到文本行曲线,并且移动该分量W恢复直的水 平基线。参考文献[3]估计文本方向并且通过词语分割结果来恢复文档图像。参考文献 [4]使用样条线描述基线并且使用样条线来构建二维网格,并且使用图像扭曲技术来进行 修正,其假设目标网格中的相邻列之间的距离是均匀的。
[0013] 美国专利申请US2010/0073735公开一种基于照相机的文档成像方法,并且提出 了基于文本的方法,该方法假设文本区域中的局部区域的崎变是线性的,其可通过透视崎 变校正被解决,其中局部崎变信息可被从文档内的文本行收集。基于文本的方法基于所估 计的行和字符方向将扭曲文档图像划分成多个栅格(grid),然后将每个栅格变换成方形, 并且将它们置于一起W得到图像的完全恢复。
[0014] 图1示出美国专利申请US2010/0073735中公开的方法中的处理,首先提取输入文 档图像中的所检测到的所有文本行的基线,然后基于霍夫变换方法(假定垂直边界是线性 的)确定各段落的垂直边界。基于郝些基线和垂直边界,生成扭曲网格,然后在扭曲网格的 各栅格中执行透视崎变校正,最终将图像去扭曲。
[0015] 但是,上述现有技术的方法具有一些缺陷。
[0016] 首先,送样的基于文本的方法通常假设文档图像的文本区域中包含的大部分文本 行是长的且完整的,从而在此基础上确定并校正文档的文本区域的崎变。
[0017] 但是,通过送样的方法,当文档图像的文本区域实际包括远小于其它文本行的多 个短文本行(非常短的行)时,送些短文本行将被作为噪声直接丢弃而不会进行任何处理, 然而文本区域的左边界和右边界的确定将受所丢弃的短文本行影响,并且被丢弃的文本行 附近的局部崎变不能被准确地估计,从而送样的基于文本的方法不能准确地确定文本区域 的崎变信息,并且不能对文本图像进行有效地校正。因此,现有技术的基于文本的方法不能 应对在文档图像的文本区域中具有多个短文本行的情况。
[001引图1B示出了通过现有技术对其中文本区域包括多个短文本行的文档图像进行校 正的结果,并且如图1B所示,现有技术中的校正方法忽略了如图1B中的左侧圆圈所示的具 有短文本行的区域,因此对于该区域的对应校正将是不准确的,诸如一些文字仍将被丢弃, 甚至一些短的文字(诸如标题文字)将丢失,并且文本区域的对应边界将不准确,如图1B 中的右侧圆圈所示。
[0019]其次,现有技术的方法假定文档图像的文本区域的垂直崎变是线性的,然后基于 此假设利用霍夫变换来得出文本区域的垂直边界。
[0020] 但是,通过此方法,当文档图像的文本区域的垂直崎变实际是非线性的时,送样的 基于文本的方法将不能准确地确定边界,由此不能准确地确定文本区域的崎变信息,并且 不能对文档图像进行有效地校正。因此,送样的方法不能应对垂直崎变是非线性的情况。
[0021] 图1C示出了通过现有技术对于其中垂直边界实际上是非线性的文档图像进行校 正的结果,并且如图1C所示,现有技术中的校正方法简单地假设垂直崎变是线性的,因此 对于该文档图像的对应校正将是不准确的,诸如特别由在文本区域的边界处的符号所 表示地,文本区域的边界在一些位置将不整齐(例如,没有对齐),边界的崎变未被充分校 正。
[0022] 由上可见,现有技术的对于文档图像的崎变校正技术仍需要被改进。
[002引所引用的文献
[0024] [1]Y.C.TsoiandM.S.Brown.Geometricandshadingcorrectionforimagesof printedmaterialsauni円edapproachusingboundary.CVPR,pages240 - 246, 2004.
[0025] [2]Z.ZhangandC.L.Tan."Correctingdocumentimagewarpingbasedon regressionofcurvedtextlines',.InProceedingsoftheIntern曰tion曰 1Conferenceon DocumentAnalysisandRecognition,volumel,pages589 - 593, 2003.
[0026] [3]B.Gatos,I.PratikakisandK.Ntirogiannis,"SegmentationBasedRecovery ofArbitraryWarpedDocumentImage',,Proc. 9thInternationalConferenceonDocument AnalysisandRecognition,pp. 989-993, 2007.
[0027] [4]C.WuandG.Agam."Documentimagede-warpingfortext/graphics recognition".InProceedingsofJointIAPR2002andSPR2002, 2002.
[0028] [引USpatentapplicationUS2010/0073735

【发明内容】

[0029] 本发明针对文档图像的崎变校正被开发,并且旨在解决上述问题。
[0030] 本发明的一个目的是即使文档图像包括多个短文本行,仍准确确定文档图像的文 本区域的崎变W便进行有效校正。
[0031] 本发明的另一个目的是准确确定文档图像的文本区域的边界W便进行有效校正。
[0032] 在一个方面,本发明提供了一种用于文档图像的崎变校正设备,包括基线提取单 元,被配置用于提取文档图像中包含的文本区域中的文本行的基线,其中每个文本行对应 于一条基线;基线延伸单元,被配置用于基于所提取的基线中包含的长基线来延伸所提取 的基线中包含的短基线;W及校正单元,被配置用于基于所提取的长基线和所延伸的短基 线来校正文档图像的崎变。
[0033] 在另一个方面,本发明提供了一种用于文档图像的崎变校正方法,包括基线提取 步骤,用于提取文档图像中包含的文本区域中的文本行的基线,其中每个文本行对应于一 条基线;基线延伸步骤,用于基于所提取的基线中包含的长基线来延伸所提取的基线中包 含的短基线;W及校正步骤,用于基于所提取的长基线和所延伸的短基线来校正文档图像 的崎变。
[0034] 优选地,长基线可W是所提取的线中的其长度长于或者等于第一阔值的线,并且 短基线可w是所提取的线中的其长度短于第一阔值的线。
[0035] 优选地,基线延伸步骤可进一步包括:子区域划分步骤,
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1