用于文档图像的畸变校正方法和设备的制造方法

文档序号：9691237阅读：743来源：国知局

用于文档图像的畸变校正方法和设备的制造方法
【技术领域】
[0001] 本发明涉及用于校正文档图像的畸变的方法和设备。更具体而言，本发明涉及用于至少通过延伸文档图像中包含的文本区域的网格以获得整个文档图像的网格来校正文档图像的畸变的方法和设备。
【背景技术】
[0002] 近年来，信息技术已经在诸如计算机视觉、图像处理和理解等的多个领域快速发展，并且尤其电子文档处理领域获得日益广泛的关注并且得到广泛应用。
[0003] 在电子文档处理中，文档图像识别（诸如OCR)已经被应用于并且有助于多种应用以及多种设备，该多种设备从具有图像拾取装置（诸如扫描仪等）的用于文档处理的专业办公设备到具有用于拾取文档图像的装置（诸如照相机等）的、可拾取并处理文档图像以清楚识别这样的文档的内容的个人设备（诸如PC计算机、PDA、手持设备）。
[0004] 随着配备有照相机的手持设备的发展，在各种环境（诸如文档的办公室外数字化、外语路标的识别、以及视力障碍人员的文本语音输入）中迫切需要移动（基于照相机的）OCR应用。
[0005] 然而，由于扫描仪和照相机之间的差别，移动OCR成为新的挑战。在基于扫描仪的文档捕获中，文档通常被压板按压，因此基本是平的，并且由于文档的物理状态导致的畸变几乎没有。而在基于照相机的文档捕获中，要被捕获的文档通常是不受约束的并且可能是不平的，因此物理扭曲文档所导致的畸变是常见的现象。畸变将大大降低OCR准确度，这是因为不平的文档形状使得针对被捕获图像的典型文本处理（诸如，分割（文本行分割和字符分割）和识别）即使在局部旋转之后仍变得困难。因此，用于照相机捕获的文档图像的畸变校正是必要的用于移动OCR的处理。
[0006] 现有技术中存在关于文档图像的畸变校正的多种研究。
[0007] -种研究是基于3D的技术。在典型的实现中，这种技术通过近似原始文档表面来得到原始文档的3D表面形状，然后对这样得到的3D表面进行校正（诸如基于一些专用模型进行平坦化）。原始文档表面可通过诸如将照片投影到3D网格上的物理建模被近似，或者可使用SFS(由明暗恢复形状）技术从单个图像中的明暗分布得出。
[0008] 但是，这样的方法具有限制。特别地，对于物理建模，一些专用的且复杂的附加设备是必需的，这样可能不方便并且在一些情况下费时。对于由明暗恢复形状方法，应满足一些假设（诸如，近点光源）并且应知晓一些现有照相机限制（例如，焦距），这只能通过准确的照相机校准处理来获得。因此，这样的基于3D的方法通常需要更复杂的设备机构以及费时的操作。
[0009] 鉴于上述的基于3D的方法的缺陷，提出了针对文档的2D图像的一些其它方法以确定和校正文档图像的畸变。一种这样的用于校正文档图像的畸变的技术是基于如下假设：扭曲类型是特定类型并且预先知晓。在典型实现中，这种技术假定弯曲文档的表面为某一几何类型（诸如圆柱类型），因此基于文档表面具有某一几何类型的假定，对于这种假定的文档图像的几何类型表面执行校正（诸如低秩矩阵恢复和稀疏误差校正）。
[0010] 但是，考虑到要被拾取图像的文档的实际表面通常具有比假定的表面的简单形状更复杂的形状，这种技术不能有效地校正文档图像。
[0011] 另一种方法是基于边界的方法，其基于文档图像的边界对文档图像执行校正。参考文献[1]公开了一种基于边界的方法，该方法提取并且使用文档边界以描述畸变。这对于在成像时遭遇的常见畸变（例如，粘结扭曲）是适当的，这是因为该方法假设文档表面由两条相对边界曲线构成（例如，打开的厚书本）。但是，此方法不能校正边界不是相对的时的情况。
[0012] 美国专利申请US2012/0320427描述了一种基于边界来估计扭曲文档的深度信息并且可获得具有均匀字符宽度的校正结果的方法，但是，此方法假定扭曲表面为圆柱形。图 1A示出了美国专利申请US2012/0320427中公开的方法中的处理。首先其检测输入文档图像的边界，基于检测到的边界产生扭曲网格，然后执行扭曲网格的每个栅格中的透视畸变校正，图像最终被去扭曲。
[0013] 从上文可见，当前的基于边界的方法具有明显的缺陷，更特别地，当前的基于边界的方法需要文档图像的边界属于特定类型，诸如文档的四个边界是完整的，或者扭曲表面为圆柱形，然而，这样的假设通常与扭曲文档的实际状态明显不同，因此根据这样的假设确定的扭曲信息是不准确的，因此扭曲文档图像不能被适当地校正。
[0014] 还另外一种方法是基于文本区域的方法，其通过作为文档图像中的文本区域的畸变信息（例如，文本区域中包含的文本的基线、文本区域的扭曲网格）来估计文档的畸变，从而能够基于文档图像中的文本信息执行畸变校正。一些方法直接使用文本的基线信息。参考文献[2]提出了用于校正弯曲的文本行的方法。它们通过聚类连接分量来找到文本行曲线，并且移动该分量以恢复直的水平基线。参考文献[3]估计文本方向并且通过词语分割结果来恢复文档图像。参考文献[4]使用样条线描述基线并且使用样条线来构建二维网格，并且使用图像扭曲技术来进行修正，其假设目标网格中的相邻列之间的距离是均匀的。
[0015] 美国专利申请US2010/0073735公开一种基于照相机的文档成像方法，并且提出了基于文本的方法，该方法假设文本区域中的局部区域的畸变是线性的，其可通过透视畸变校正被解决，其中局部畸变信息可被从文档内的文本行收集。基于文本的方法基于所估计的行和字符方向将扭曲文档图像划分成多个栅格（grid)，然后将每个栅格变换成方形，并且将它们置于一起以得到图像的完全恢复。
[0016] 图1B示出美国专利申请US2010/0073735中公开的方法中的处理，首先提取输入文档图像中的所检测到的所有文本行的基线，然后基于霍夫变换方法（假定垂直边界是线性的）确定各段落的垂直边界。基于那些基线和垂直边界，生成扭曲网格，然后在扭曲网格的各栅格中执行透视畸变校正，最终将图像去扭曲。
[0017] 这样的基于文本区域的校正可被适当地应用于如下这样的文档图像，该文档图像的整体几乎全部是文本，从而文本区域的畸变特性可表示文档图像的畸变特性。但是，当文档图像包含文本区域和非文本区域时（特别地，非文本区域可能不可忽略时），仅文本区域的特性不能适当地校正整个图像的畸变，这是因为非文本区域（例如，页眉、图像、页脚等）的畸变信息不能被准确地确定。
[0018] 由上可见，现有技术的对于文档图像的畸变校正技术仍需要被改进。
[0019] 所引用的文献
[0020] [1]Y. C. Tsoi and M. S. Brown. Geometric and shading correction for images of printed materials a unified approach using boundary. CVPR, pages 240 - 246, 2004.
[0021] [2]Z. Zhang and C. L. Tan. "Correcting document image warping based on regression of curved text lines，'· In Proceedings of the International Conference on Document Analysis and Recognition, volumel, pages 589 - 593, 2003.
[0022] [4]C. ffu and G. Agam. "Document image de-warping for text/graphics recognition" · In Proceedings of Joint IAPR2002 and SPR 2002, 2002.

【发明内容】

[0023] 本发明针对文档图像的畸变校正被开发，并且旨在解决上述问题。
[0024] 本发明的一个目的是即使文档图像包括文本区域和非文本区域，仍准确确定整个文档图像的畸变。
[0025] 在一个方面，提供了用于包括文本区域和非文本区域的文档图像的畸变校正设备，该畸变校正设备包括边界检测单元，被配置用于检测文档图像的边界；文本区域畸变信息获得单元，被配置用于获得文本区域的畸变信息；图像畸变信息确定单元，被配置用于基于文本区域的畸变信息以及所检测的文档图像的边界确定整个文档图像的畸变信息；以及校正单元，被配置用于基于所获得的整个文档图像的畸变信息来校正文档图像。
[0026] 在另一个方面，提供了用于包括文本区域和非文本区域的文档图像的畸变校正方法，该畸变校正方法包括边界检测步骤，用于检测文档图像的边界；文本区域畸变信息获得步骤，用于获得文本区域的畸变信息；图像畸变信息确定步骤，用于基于文本区域的畸变信息以及所检测的文档图像的边界确定整个文档图像的畸变信息；以及校正步骤，用于基于所获得的整个文档图像的畸变信息来校正文档图像。
[0027] 优选地，畸变信息可以是包含网格线的网格的形式，并且图像畸变信息确定步骤可进一步包括延伸文本区域的网格中包含的网格线至文档图像的对应边界，以确定文档图像的对应非文本区域的网格。
[0028] 优选地，图像畸变信息确定步骤可包括延伸交点确定步骤，用于确定网格线与对应边界的延伸交点；网格线延伸步骤，用于将网格线延伸至该延伸交点；结点定位步骤，用于在从网格线到延伸交点的延伸线中定位结点，以及结点连接步骤，用于连接各个延伸线中的对应结点以形成用于对应非文本区域的网格。这里，整个文档图像的网格可基于文本区域的网格和非文本区域的网格被形成。
[0029] 优选地，延伸交点确定步骤可包括确定基准网格线与对应边界的基准延伸交点的步骤；对于除基准网格线之外的其余网格线中的每一个，从基准网格线之一开始，依次基于该网格线的端点与前一水平网格线的对应端点之间的距离来计算该网格线与边界的延伸交点。
[0030] 优选地，其余网格线中的每一个的交点被计算为使得该交点与前一网格线和文档图像的边界的交点之间的距离与该文档图像的该边界的长度的比率对应于网格线的最接近边界的端点与前一网格线的对应端点之间的距离和该文本区域的对应边界的长度的比率。其中，该文档图像的边界的长度是基于所确定的基准交点被确定的。
[0031] 优选地，延伸交点确定步骤可进一步包括如下步骤：确定平行于且最接近于对应边界的网格线与平行于且最接近于基准网格线的文档边界的辅助交点。
[0032] 优选地，该基准交点和辅助交点可被确定为使得该基准交点、辅助交点、对应边界的最接近端点和文本区域的网格的最接近拐点构成平行四边形。
[0033] 优选地，结点定位步骤可进一步包括对于从网格线到对应延伸交点的每一延伸网格线，基于延伸网格线的长度和文本区域中的网格线中的平均结点间隔确定要在延伸网格线中添加的结点的数量的步骤；基于各个延伸网格线的各自结点数量的统计值来确定延伸网格线中的均匀结点数量的步骤；以及根据所确定的均匀结点数量确定要在各个延伸网格线中添加的结点的位置。
[0034] 优选地，要在延伸网格线中添加的结点的位置被确定为使得延伸网格线按所确定的均匀结点数量被划分成具有相同长度的分段。
[0035] 优选地，文本区域畸变信息获得步骤可包括基线提取步骤，用于提取文档图像中包括的文本区域中的文本行的基线，其中每个文本行对应于一条基线；以及基线延伸步骤，用于基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线。
[0036] 优选地，网格线可基于所提取的长基线和经延伸的短基线形成以便获得文本区域的网格。
[0037] 优选地，文本区域畸变信息获得步骤可包括基线提取步骤，用于提取文档图像中包含的文本区域中的文本行的基线；未对齐基线识别步骤，用于识别所有提取的基线中的端点是未对齐端点的基线；未对齐基线修正步骤，用于对于所识别的端点是未对齐端点的基线中的每一个，基于所有提取的基线中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，以及边界生成步骤，用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。其中，网格线可基于所提取的基线和所生成的文本区域边界形成，以便获得文本区域的网格。
[0038] 优选地，文本区域畸变信息获得步骤可进一步包括未对齐基线识别步骤，用于识别所有提取的长基线和经延伸的短基线中的端点为未对齐端点的基线；未对齐基线修正步骤，用于对于所识别的端点是未对齐端点的基线中的每一个，基于所有提取的长基线和经延伸的短基线中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点，以及边界生成步骤，用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。其中，网格线可基于所提取的长基线、经延伸的短基线和所生成的文本区域边界形成，以便获得文本区域的网格。
[0039][技术效果]
[0040] 本发明提供了一种新的文档图像畸变校正方法，并且可有效地解决关于文档图像的畸变的确定和校正的技术问题。
[0041] 更特别地，已经提出了本发明的用于准确校正具有文本区域和非本区域的文档图像的畸变的解决方案，该方案扩展对于文本区域确定的畸变信息（例如，网格）以由其确定非文本区域的畸变信息，从而整个文档图像的畸变信息可被准确地确定，因此整个文档图像的畸变可被准确地校正。
[0042] 与现有技术的基于3D的方法相比，本发明不依赖于任何附加的设备，并且仅仅基于所捕获的图像就可获得准确的校正结果。
[0043] 与现有技术的基于文本的方法进行比较，本发明的解决方案有效地扩展文本区域的畸变信息以由其确定非文本区域的畸变信息，从而整个文档图像的畸变信息可被准确地确定，因此整个文档图像的畸变可被准确地校正。
[0044] 与现有技术的基于边界的方法相比，本发明的该解决方案可以处理四条边界都是非线性曲线构成的任意情况。
[0045] 因此，对于其中垂直畸变为非线性的文档图像，本发明的解决方案可通过延伸文本区域的网格以准确确定整个文档图像的畸变信息，来准确和有效地确定和校正文档图像的畸变。
[0046] 本发明的其它特性特征和优点将从下文参照附图的描述清楚可见。
【附图说明】
[0047] 并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在附图中，相似的附图标记指示相似的项目。
[0048] 图1A示出了现有技术中的用于文档图像的基于边界的畸变校正的典型过程，并且图1B示出了现有技术中的用于文档图像的文本区域畸变校正的典型过程。
[0049] 图2是示出可实现本发明的实施例的计算机系统的示例性硬件配置的框图。
[0050] 图3是示出根据本发明的第一实施例的用于文档图像的畸变校正方法的流程图。
[0051] 图4示意性地示出所检测的文档图像的边界。
[0052] 图5是示意性地示出文本区域网格形成的处理的流程图。
[0053] 图6A~6C示意性地示出文档图像中的文本区域的基线提取，并且图6D示意性地示出文档图像的文本区域的所形成的网格。
[0054] 图7是示出根据本发明的第一实施例的网格线延伸步骤中的处理的流程图。
[0055] 图8是示出根据本发明的第一实施例的延伸交点确定步骤中的处理的流程图。
[0056] 图9是示出根据本发明的第一实施例的确定网格线的延伸线中的结点的处理的流程图。
[0057] 图10示

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏晓明;
技术所有人：佳能株式会社;
我是此专利的发明人

上一篇：图像校正装置和方法
上一篇：基于pwlcm混沌的多幅图像加密方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。