书籍的书脊区域中数字图像的检测和校正方法

文档序号：6365418阅读：448来源：国知局

专利名称：书籍的书脊区域中数字图像的检测和校正方法
技术领域：
本发明涉及对文档的扫描，具体涉及对书籍的扫描。
背景技术：
书籍页面的扫描图像通常具有由扫描产生的三种类型的失真。根据书籍放在扫描表面上时书籍相对于扫描方向的取向以及书脊区域在该表面上方的高度，这三种类型的失·真以不同等级出现。如图I所示，当书脊在扫描表面上方时，扫描的图像常常具有阴影，阴影出现在图像中靠近书脊的地方(“阴影失真(shadow distortion)”)。当页面图像挤向书脊，从而离书脊较近的文本变窄并且难以辨识时，出现“挤压失真(squeeze distortion)”。另一种类型的失真“曲率失真”由于同样的原因而出现，但是仅出现在以书脊与扫描仪传感器条平行的方式对书籍进行扫描时，称作“平行扫描情况”。在这种情况下，靠近书脊的文本还向页面的中心弯曲。在受影响区域中，上述失真不仅影响图像的视觉可读性，还在光学字符识别(OCR,optical character recognition)的处理中引起故障。本发明提供了一种检测失真的存在并对失真进行校正的方法。

发明内容
本发明提供了一种对数字化的或扫描的文档图像进行分析的方法和设备。本发明使用基于块的处理来创建特征图像，所述特征图像指示文档图像的空间特性。基于这种特征图像设计了三种检测算法，以检测页面本体、书脊、以及由扫描产生的失真。更具体地，通过使用特征图像来映射对应于页面区域的像素，创建页面对象和检测页面边界，来分割所扫描的书籍的图像。利用页面边界，在左右页面边界附近的列中检查特征图像，以检测像素值的顶部至底部下降(top-to-bottom decline)和底部至顶部下降(bottom-to-top decline),从而确定原始扫描图像中阴影失真的左上角、右上角、左下角以及右下角。通过以下操作来检测书脊区域定位两个页面对象之间的纯(plain)背景，分析页面边界以检测边界的形状，以及分析边界的形状以检测书脊端点(end point)。如果页面边界缺少定位书脊必需的信息，则可以采用主行(dominant line)(如果存在的话)作为书脊。对失真的检测包括对垂直于书脊的像素值的强度变化进行逼近(approximate)，并将强度值拟合成贝塞尔曲线(Bezier curve)以创建强度曲线。此外，将强度曲线变换成挤压曲线。对失真的检测还包括通过检查页面图像中的文本来检测曲率,并将一串文本段上的点拟合成贝塞尔曲线以创建曲率曲线。通过首先定义梯形校正区域来校正检测到的失真。沿着梯形校正区域内的线应用分别以贝塞尔曲线定义的强度校正、挤压校正和曲率校正。本发明可应用于扫描仪和用于数字文档图像处理和操控的成像软件，这是因为本发明的组成部分可以用来构建各种增强和分割方案。因为扫描仪典型地对扫描区域的整个表面进行扫描，并且所扫描的文档在扫描仪表面上的尺寸和位置都可能显著改变，所以通常需要自动去除实际文档周围的暗页边空白，或者甚至提取文档上的纯文本本体，以减小图像尺寸和降低进一步处理的计算复杂度。结合附图，通过以下描述和权利要求，本发明的其他目的和效果将变得清楚，并且可以更全面地理解本发明。

附图中，相同的附图标记表不相同的部分。图I示出了以书脊平行于扫描仪传感器条的形式扫描的厚书籍；图2是使用本发明的图像捕获设备和系统的总体框图；图3是本发明的总体方法的流程图；图4示出了针对上下左右边界的搜索区域的初始页面边界框；图5示出了用于对两个页面之间的纯背景的上下边界进行检测的文本搜索窗；图6示出了通过分析页面边界的形状的书脊检测；图7A示出了二进制页面边界图像的示例，其中检测到了单个边界，图7B示出了二进制边界图像的示例，其中检测到了两个分离的边界；图8示出了具有不同控制AP1的贝塞尔曲线的示例；图9示出了计算书脊端点的五种情况；图10示出了所扫描的书籍中的阴影失真；图11是本发明的强度翅曲参数(intensity warping parameter)检测过程的总体流程图；图12示出了自动选择图像中的一个条带以检测阴影；图13示出了强度曲线；图14示出了强度曲线拟合的过程；图15示出了所扫描的书籍的一幅图像，其中使用网格页来进行校准；图16示出了来自于一幅校准图像的强度曲线和挤压曲线的图；图17示出了使用校准数据对AY-AYs关系的建模；图18示出了使用校准数据对Λ Ι-Λ δ关系的建模；图19示出了曲率检测的示例；图20示出了在下部页面左侧的测试区域的检测；图21示出了在两个文本区域中检测到的曲线的示例；图22示出了梯形(trapezoidal)校正区域的定义。
具体实施例方式在以下详细描述中参考了附图，附图以说明的方式示出了本发明的示例实施例。在附图中，贯穿多幅图，相同的数字描述实质上相似的部分。这些实施例描述足够详细，以至于本领域技术人员能够实现本发明。可以使用其他实施例，在不脱离本发明的范围的前提下可以进行结构、逻辑和电学上的改变。此外还应理解，本发明的各种实施例虽然不同，但并不必须互相排斥。例如，在一个实施例中描述的具体特征、结构或特性可以包含在其他实施例中。因此，以下详细描述并不旨在限制，本发明的范围仅由所附权利要求及其等价物的整个范围来限定。一般地，示例实施例涉及对图像(特别是数字化或扫描的文档)进行检查的方法、设备和计算机可读介质。检查图像以检测在扫描期间引起的失真，然后对图像进行校正以将失真去除或最小化。示例实施例从数字化或扫描的图像中提取特征，并对文档进行分析，以检测具体特性。然后可以对这些特性(例如，页面区域、书脊和失真参数)进行处理，以校正图像。这种校正可以包括强度和翘曲校正。根据本发明的方法可以实现在诸如平台式扫描仪之类的图像捕获设备中以及包括打印机驱动器或图像编辑软件等的软件模块中。
·
现在参考图3，示出了用于特征提取的示例方法300。通常，示例方法300以数字化或扫描的图像(输入图像X)来开始步骤302。将输入图像X中多个不相交的像素块中的每一个变换成特征图像中的单一像素。然后可以使用特征图像来分析原始输入图像，例如文档。在图3中，方法300的主要步骤被示为一般性的模块，但是在以下描述中将详细论述方法300。可以使用承载或存储有计算机可执行指令或数据结构的非暂时性(non-transitory)计算机可读介质来实现本文公开的示例方法300及其变型。这样的计算机可读介质可以是能够被通用或专用计算机的处理器访问的任何可用介质。例如而非限制性地，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备、或者能够用于承载或存储计算机可执行指令或数据结构形式的程序代码并且可以被通用或专用计算机的处理器访问的任何其他介质。上述示例的组合也应当包含在计算机可读介质的范围之内。例如，计算机可执行指令包括使通用计算机或专用计算机的处理器执行特定的功能或功能组的指令和数据结构。尽管本文以特定于方法逻辑动作的语言描述了主题内容，然而应理解所附权利要求所限定的主题不必限于本文描述的特定动作。而是，本文描述的特定动作被公开为权利要求的示例实现形式。专用计算机的示例包括图像处理设备，如数字摄像机(数字摄像机的示例包括但不限于由总部在 Owa, Suwa, Nagano, Japan 的 Seiko Epson Corporation 制造的 EpsonR-Dl数字摄像机);数字摄像放像机(camcorder);投影仪；打印机；扫描仪；复印机；便携式照片浏览器(photo viewer)(便携式照片浏览器的示例包括但不限于由Seiko EpsonCorporation制造的Epson P-3000或P-5000便携式照片浏览器)；或便携式电影播放器；或它们的某种组合，如打印机/扫描仪/复印机组合(打印机/扫描仪/复印机组合的示例包括但不限于由 Seiko Epson Corporation 制造的Epson Stylus Photo RX580> RX595或 RX680，Epson Stylus CX4400、CX7400、CX8400 或 CX9400Fax，以及 Epson AcuLaser CX11NF)，打印机/扫描仪组合(打印机/扫描仪组合的示例包括但不限于EpsonTM-J9000、TM-J9100、TM-J7000、TM-J7100 和 TM-H6000III，它们全都是由 Seiko EpsonCorporation制造的)，或数字摄像机/摄像放像机组合。图像处理设备可以包括特征提取能力，例如从图像中提取特征，然后使用所提取的特征对图像进行分析。例如，诸如平台式扫描仪等具有这种特征提取和分析能力的图像捕获设备可以包括实现示例方法300的一个或多个计算机可读介质。备选地，与图像捕获设备相连的计算机可以包括实现示例方法300的一个或多个计算机可读介质。图2示出了示例图像捕获设备200的示意图。示例图像捕获设备200通过中间接口(intervening interface) 202与主计算机250交换数据。还可以存储应用程序和图像捕获设备驱动器，以在主计算机250上访问。例如，当从应用程序接收到图像获取命令时，图像捕获设备驱动器控制命令数据向适合图像捕获设备200的格式的转换，并将转换后的命令数据发送至图像捕获设备200。驱动器还对来自图像捕获设备200的各种信号和数据进行接收和解释，并通过主计算机250向用户提供必要的信息。当主计算机250发送了数据时，接口 202接收该数据并将其存储在接收缓冲器中，所述接收缓冲器构成RAM 204的一部分。可以例如通过寻址将RAM 204划分成多个部分，·并分配为不同的缓冲器，如，接收缓冲器或发送缓冲器。图像捕获设备200还可以从一个或多个捕获机构212、闪速EEPROM 210或ROM 208获得诸如数字图像数据之类的数据。例如，所述一个或多个捕获机构212可以通过扫描诸如书籍之类的源文档来产生数字图像。然后可以将该数字图像存储在RAM 204的接收缓冲器或发送缓冲器中。例如，处理器206使用ROM 208或闪速EEPROM 210上存储的计算机可执行指令来执行特定的功能或功能组，例如本发明的方法。例如在RAM 204的接收缓冲器中的数据是数字图像的情况下，处理器206可以对该数字图像实现本发明方法的方法逻辑动作，以提取数字图像中的特征并基于所提取的特征来进一步分析图像。然后，例如在将图像显示在显示器214(例如，IXD显示器)上、或者传送到主计算机250以在打印机262上打印、用投影仪264投影或在硬盘260上存储之前，可以对数字图像执行成像流水线(imagingpipeline)中的进一步处理。现在将结合图3来讨论用于提取图像中的特征并基于所提取的特征来进一步分析图像的示例方法300。在执行方法300之前，可以以输入图像作为多种图像处理操作的目标。输入图像可以是灰度图像、二进制图像、数字彩色图像、或者彩色图像的数字化或扫描版本。可以在执行方法300之前对输入图像应用多种图像处理技术。为了便于理解，以下论述将分为下述章节A.输入图像，B.特征图像形成，C.特征图像分析和分割，D.页面区域检测，E.书脊检测，F.失真检测；以及G.校正A.输入图像在图3中，在步骤302，数字化或扫描的文档构成了数字图像X，该数字图像X具有K1XK2个像素Xfr, s)，其中Cr, S)表示像素位置，r = 1,2,——，K1表示图像行，s = I,2，. . .，K2表示图像列。本发明的目的是主要为了所扫描的书籍文档分析的目的，分析输入图像X的内容。然而应理解，本发明的框架便于适用于任何类型的扫描文档，如书籍、信件、支票、收据、处方等等。B.特征图像形成特征图像形成、分析、以及图像分割是在2011年3月30日提交的题为“Method ofanalyzing digital document images” 的共有美国专利申请 No. 13/075，978 (代理案号EETP126)的主题内容，其全部公开一并在此作为参考。本发明涉及对页面区域和书脊的检测、对扫描图像中的失真的建模、以及对这种失真的校正，而不限于任何特定的分割技术。然而为了完整并且便于理解，在下文中描述了在共有美国专利申请No. 13/075,978中描述并且要求保护的基于特征图像的分割技术。因为扫描仪典型地对扫描区域的整个表面进行扫描，并且所扫描的文档在扫描仪表面上的尺寸和位置可能显著改变，所以本发明采用特征提取(图3中的步骤304)来形成特征图像以供后续分析。为了对在扫描过程中引入数字化文档图像的各种扫描缺陷和噪声·具有鲁棒性，本发明逐块地处理输入图像。即，选择由glXg2A像素组成的块，其中gl表示块内的图像行数，&表示块内的图像列数。该块用于提取前景和背景，前景和背景是任何文档图像的两个基本特征。为了允许高速处理，本发明将图像X中的每个像素块变换成特征图像中的单个像素(步骤306)。因此，在给定输入图像大小和块大小的情况下，特征图像z由K^g1XKyg2个像素组成,特征图像z是具有以下像素的双通道图像z(m,n) = [f(m,n)，b(m,n)]，其中 m = 1,2, , K1Zg1, η = 1,2, , K2/g2。项 f(m,n)和 b(m,n)分别表示矢量像素(vectorial pixel) z(m,n)的前景分量和背景分量。例如，前景分量和背景分量中的每一个将是8比特值。8比特使得可以实现256个离散值。因此，图像X中的每个像素块由具有两个8比特分量的单个像素z(m,n)来表示。因为大多数文档图像的背景都明显比前景亮(前景可以包含文本、线条、图形和图像)，所以可以如下确定特征像素z(m,n)的这两个分量f(m,n) = min{x(r,s) ; On-Dg1 < r ^ Iiig1, (η-1) g2 < s 彡 ng2} (I)b(m,n) = max{x(r,s) ； On-Dg1 < r ^ Iiig1, (n_l)g2 < s 彡 ng2} (2)其中min和max分别是最小值运算符和最大值运算符。等式⑴和(2)示出了特征图像的产生。以特征图像中最左上方的像素作为示例，该像素在输入图像中的对应块是左上方的glXg2块。前景值和背景值分别是该块内的最小强度值和最大强度值，如由以下等式定义的f(ljl) = min{x(r,s) ；0 < r ^ g1；O < s ^ g2},以及b(ljl) = max{x(r,s) ;0 < r < g”0 < s < g2}。从以上等式可以看出，本发明将输入图像X划分成像素值块，每个块与一个特征像素z(ni,n) = [f(m,n), b(m,n)]相关联。通过以更小的特征图像来表示输入图像(每个像素块减小到一个像素)，极大地降低了该框架中后续图像分析的计算复杂度。为了在输入图像X中显示与特征图像z相对应的任何检测结果，应当将对象或边界框坐标在垂直方向上乘以gl并在水平方向上乘以g2。这将坐标从特征图像域变换到输入图像域。如果需要创建多个特征图像，则计算上高效的方式是首先创建具有最大目标尺寸的特征图像，然后根据该较大的特征图像来创建另一(较小的)特征图像。依据其他特征图像的目标尺寸，该方法可以迭代重复，产生特征图像金字塔。可以在对任何特征图像进行分析之前使用低通滤波器来增强该特征图像，以消除两个通道中的异常值(outlier)。如果已知页面取向，则可以使用方向性(例如，垂直或水平)滤波器来产生期望的增强。如果前景像素表现出比背景像素更高的强度(例如可以根据图像直方图来容易地确定这一点)，则应当创建原始文档图像的取逆(inverse)版本并将其用作所提出的方法的输入。最后，尽管本文仅针对灰度图像给出了实施例，然而本发明中提出的框架当然也可以应用于二进制图像和彩色图像。对于二进制图像，直接应用所提出的框架。对于彩色图像，一些方法是可能的。例如，一种方法是将三分量彩色数据变换成单一值(例如，使用彩色至灰度转换)，然后按照与灰度数据或二进制数据的处理方式相同的方式处理这样的标量数据。另一种可能方法是逐个分量地分别对三个颜色通道中的每一个应用所提出的框架，然后组合中间结果。C.特征图像分析和分割根据分析目的和预期应用，上述特征提取过程可以用于产生特定尺寸的特征图像或多于一个的特征图像。参数gl和g2允许在处理速度和图像X的分割级别之间进行权衡。例如，较大的gl和g2值可以用于在页面级别上对扫描图像进行分割，而当分别在段落/页面列和行/字符级别上对图像进行分割时中等的和较小的值是有用的。以下描述的任何分割过程都基于特征图像z的每个像素位置中分量f(m,n)和b(m,n)的评估。值f(m,n)和b(m,n)之间的小差值指示了在与特征图像中的位置(m，n)相对应的像素块中的背景和前景之间的显著相似度。例如，这可能发生在无文本(text-free)图像区域，如，扫描区域中围绕文档的文档边界和区域或者具有实线图形(solid graphics)的区域。因此，可以如下检测页面区域
j — P，~ fimji) ^ 且 -η)沒
( ；Μ/) ο,其他…’'(3)其中，Θ和5是可调(tunable)参数，用于评估前景和背景之间的相似度，以及标识具有背景和前景分量的大贡献的像素。第一参数Θ与特征图像中像素的背景值和前景值之间的差值相比较。示例值是50。第二参数《9定义了最低背景值。示例值是150。这些示例值是基于以下事实来选择的文本必须具有相对于背景的最小对比度，以便可读，并且书籍图像的背景通常是亮的。项d(m,n)是尺寸与特征图像z的尺寸相同的二进制图(binarymap)d中的像素。值d(m,n) = I表示特征图像中的位置(m，n)与页面区域相对应，否则二进制图d中的像素值设置为d(D1,n) = O。等式(3)并不是可以用于产生二进制对象图(binary object map)的唯一解决方案(图3中的步骤308)。为了减小参数Θ和《9对分割性能的影响，可以如下产生二进制对象图rf_)=|o，其他'⑷其中，β是满足b(m,n厂f(m,n) < Θ并且的分量b(m,n)的平均值。再次，值d(ffl,n) = I表示特征图像中的位置(m，n)与页面区域相对应，否则二进制图d中的像素值设置为d(m,n) = O。应理解，本发明不限于等式(3)和等式(4)的示例解决方案，本发明的框架可以灵活地用于除了这些优选实施例以外的其他解决方案。在本发明中，处理器206通过将d(m,n) = I的相邻像素分组(group)来对图d进行对象分割(图3中的步骤310)。该过程将图d分成N个不相交的对象
O1 ^{(m J})= 1，2，...，N(图 3 中的步骤 312)。每个对象由 Oi 来
表征，其中Oi是；) =1的像素位置(m，η)的集合，其中⑩是高度为宽度为
X ， }(；II··(Df的边界框。为了获得更好的对象分割结果，可以在创建对象之前通过图像滤波对图d进行平滑。根据扫描质量和分辨率以及块尺寸，对象集合O1, O2, , On可以由与分割目标相对应的一个或多个真对象以及多个假对象组成。因此，可以使用一组简单约束(例如，诸如对象的大小和形状等各种几何约束)，使不期望的对象不被进一步考虑。这种几何约束的具体形成表示(formulation)可以根据分割目标(例如，文本页面区域分割vs字符分割)和实现策略而显著地不同。例如，为了文本页面区域检测(是本发明的应用之一)，目标是去除小的对象和具有不规则长宽比(aspect ratio)的边界框的对象。该处理步骤是直接明了的，并且可以如下实现
O如果 Φ·; < Tv 或 Φ7χ<Ττ* ι βχ(Φ;',Φ 、)>3"
1 b，其他其中Ty和Tx表示对象的最小高度和宽度，T是对象的最大长宽比。可以预先确定这些参数或者根据对象集合来自适应地确定这些参数(例如，作为在所有分割后的对象上的平均或加权平均，其中较大的权重与较大的对象相关联)。从对象列表中去除满足等式(5)中的一个或多个条件的对象，这可以伴随着将二进制图d中的对应像素d(m,n)设置为零。注意，等式(5)是示例实现方式，本发明不限于上述实施例。如果分割结果是两个对象，则可以基于这些对象的相对位置和/或尺寸来确定页面取向。如果结果是仅一个页面，则可以通过比较对象的高度和宽度来确定页面取向。为了简单起见，以下论述将假定书籍页面在垂直取向上，这意味着在图像中一个页面在另一个页面上方。应注意，所检测的对象的边界框精确到glXg2个像素(在图像宽度和高度尺寸上)。为了提高这些对象的边界框的精度，可以使用对象边界细化过程。下一节将给出示例来说明如何检测页面区域。D.页面区域检测(图3中的步骤314)
在扫描书籍文档的情况下，依据所扫描的页数，结果始终是一个或两个对象。在许多文档图像应用中，常常需要在不丢失页面上的文本/图形的情况下限定区域。当书籍图像具有两个页面时，使用包围这两个页面对象的框来估计整个书籍页面的图像位置。然而，这种估计有时是非常粗略的。然后在该初始边界框的边界周围进行针对精确页面边界框的搜索。如图3所示，针对顶部框边界T和底部框边界B的搜索区域高度为nXg2，针对左侧框边界L和右侧框边界R的区域宽度为mX gl，其中η和m分别都是大于或等于2的值，取决于处理时间和精度需要。本发明使用一种搜索方法，该搜索方法基于以下事实当书籍页面小于扫描表面时，所扫描的图像具有在实际页面周围的暗区域，也称作非扫描区域。暗区域的亮度(例如80)是预定义的，以将暗区域与页面图像分开。为了在图像高度维度上找到页面框边界，在相应的搜索区域中执行逐行扫描。扫描从顶部搜索区域中的第一行开始，而对于底部页面框边界在搜索区域中采用相反的扫描顺序。当最小数目的连续行具有比非扫描区域亮的大部分像素时，停止扫描。以逐列的方式应用同样的搜索策略，在图像宽度维度上找到页面框边界。考虑到书籍可能具有明显的倾角并且页面对象不是水平对齐的，上述方法将产生比实际页面区域大的边界框。在这种情况下，备选解决方案单独地对每个页面对象应用相同的边界检测方法，以在三个方向上精细化其边界。最后，合并顶部页面对象和底部页面对象的两个精细化的边界框，以创建整个页面区域的新边界框。本发明使用特征图像来检测阴影失真。由于另外两种类型的失真(即，挤压失真和曲率失真)通常与书脊周围的阴影一起出现，所以已识别到阴影失真的区域还可以用作针对这两种失真的初始搜索区域。E.书脊检测(图3中的步骤316)在对书籍进行扫描的情况下，例如为了分离两个页面或校正失真，可能确定书脊区域是令人感兴趣的。本发明使用3步过程在两页面书籍图像中寻找书脊(I)首先定位两个页面之间的纯背景区域。将书脊的检测限制在该区域中能够减小将前景图像误认为是书脊的可能性。然而当扫描非常厚的书籍时，该书籍的两个页面中的图像(例如图I所示的图像，文本和其他前景内容)仅被书脊分开。在这种情况下，必须以不同方式来定义该区域。最简单的方法是将页面对象之间的区域设置为搜索区域。当搜索区域过小以至于无法执行以下处理时，该搜索区域必须扩展为达到最小大小。(2)因为曲率失真改变书脊周围的页面边界曲率，所以当存在该失真时页面边界的形状可以指示书脊的位置。书脊检测的第二步骤是分析感兴趣区域的页面边界。如果边界是直的，则进行至步骤3，否则使用得到的曲率来估计书脊。(3)当不能使用页面边界来定位书脊时，在搜索区域中应用基于修正Hough变换(modified Hough Transform)的线检测，以找到书脊线。E. I两个页面之间的纯背景的检测假定感兴趣的纯背景在图像高度维度上位于两个图像行It和Ib之间。本文中检测的目的是找到It和Ib。对It的搜索起始于顶部页面对象的中心，停止于底部页面对象的顶部。通过在感兴趣的区域中从左至右或从上至下移动预定义大小的窗w(图5)，来进行搜索。一个窗的位置不与其他窗的位置重叠。在每个位置处，使用算法来检验图像是否在窗内具有文本。当找到在相同图像高度上的最小数目的窗包含文本时，向着底部页面向下移动窗。搜索再次起始于感兴趣区域的左边界。如果在新图像高度上在更少的窗中检测到文本，则将当前窗所占据的第一个图像行设置为期望的边界lt。在设置了 It之后，从底部页面对象的中心向着It执行针对Ib的从下至上搜索。本发明的用于文本检测的算法是基于以下两个规则来设计的(I)文本具有相对于背景的对比度；以及(2)字符具有笔划(边缘)和宽的边缘取向分布。由于边缘分析相对计算量较大，所以只将边缘分析应用作为对满足第一规则的窗的验证步骤。因此文本检测的第一步骤是计算每个窗的图像强度对比度并将其与预定义的最小值相比较。获得对比度的快速方法是从已有的特征图像z中获取每个窗的相应最大强度和最小强度，并计算比值。为了验证文本或字符的存在，在窗内部提取边缘。边缘密度和边缘取向分布是实现可靠文本检测的标准。该验证涉及两个参数。一个参数是每个窗口内图像的最小边缘密度。另一个参数限定了边缘取向必须在O 360度谱上分布的宽度。E. 2使用页面边界的书脊检测在感兴趣区域内使用页面边界进行书脊检测的关键在于，在图像宽度维度上可靠·地提取图像边界。在书籍页面左右两侧的边界区域单独地应用本发明的提取算法。在通过仔细的分割来产生每个边界区域的二进制图像之后，提取页面之间的边界以及非扫描区域。如图6所示的一条或两条曲线上的图像点集合示出了这一点。为了以高效并且精确的方式来分析边界的形状，对曲线进行数学逼近。然后可以判定页面在页面一侧具有直线边界还是具有弯曲。如果找到弯曲的页面边界，将根据曲率来估计书脊的端点。对书脊的两个端点的检测最终产生书脊的图像位置。需要注意的是，这两个感兴趣页面边界并不始终是对称的，在顶部页面和底部页面中书脊处相同的边界可能以不同方式弯曲。E. 2. I页面边界的提取在页面边界区域的二进制图像中，在本发明中采用边界跟踪算法以8连通(8-connectivity)来检测边界。假定非扫描区域在页面边界的左侧，则从二进制图像的左上角开始搜索边界候选的种子像素(seed pixel)或起点。将从该点朝着图像底部跟踪边界。对典型跟踪算法的一种修改是当边界在最小长度上在水平方向上变平坦或向上折起时，停止跟踪。本发明的这种修改后的边界跟踪算法可以在图7A所示的图像中找到单个边界。该边界的转折点稍后会在评估步骤中将该边界分成两条曲线。在一些情况下，如图7B所示的图像一样，首先会找到图像顶部的一个边界。因为该边界未达到图像底部，所以将在垂直方向上翻转(flip)该图像，并且再次执行相同的跟踪算法。最后，检测到两个边界。在该示例中，由于图像在书脊周围较暗，所以直的页面边界被书脊分成两段。E. 2. 2曲率分析和书脊端点估计针对书脊检测的曲率分析的目的是确定页面边界是否在顶部和底部页面中均向着同一点弯曲，因为该点可能指示页面区域一侧的书脊线的图像位置。页面边界提取产生一条或两条曲线，每一条曲线由该曲线上的点的集合来描述。分析一条曲线的第一步骤是将该曲线的点拟合成数学模型，这是因为由较少数目的系数来表示曲线使得能够容易地分析曲线的形状。如果所提取的曲线几乎是直的，则可以稳妥地断定页面具有直边界。否则，还需要一个处理步骤来检验边界是否由向着同一点弯曲的两条曲线组成。为了减小曲线提取中的图像噪声和检测误差对曲率造成的影响，在曲率分析之前对每个提取的曲线上的点进行平滑。
在本发明中，使用二次贝塞尔曲线作为模型。该二次贝塞尔曲线是可以由三个控制点来描述的参数化曲线PQ(Xt^yohP1 (X1, Y1)和己(&，72)。参考图8，以左上方边界上的曲线为例，该曲线起始于Po并结束于P2，该曲线的路径可以由函数B(t)来跟踪。 B (t) = (l_t)2P0+2 (l_t) Ρ!+ 2Ρ2 t ε [O, I]由于在书脊线搜索区域中页面边界应当是平滑曲线或线，所以通过假定曲线的起始具有90度切线来简化模型，这意味着点Ptl和匕在相同图像列中(X(l==Xl)。函数B(t)可以由以下等式来描述X (t) = l-t2x0+t2x2y (t) = (l_t)2y0+2 (I-OtyJtiV2在相同的图像高度上以点Pc^P P2作为曲线上的第一个点和最后一个点。在已知·Y0和72的情况下，将曲线的m个点拟合成贝塞尔模型的问题即是以最小误差方式求解X(l、X2 和 Y1。在获得这三个点的最佳估计之后，将检查这三个点的几何结构。在且只有在三个控制点全都共线的情况下，曲线才是直线，这可以发生在以下三种情况中情况I :起点Ptl和终点P2在X维度上具有非常小的偏移。情况2 :点P0和P1过于靠近。如图8所示，当P1接近Ptl时曲线变成直的。情况3 = AP1非常靠近点P2。这通常暗示了在感兴趣区域的大部分中曲线接近于直线，只在末端非常陡峭地弯曲。这种情况主要由曲线提取误差引起。以下是在一个页面边界上可能发生的五种常见情况，这些情况会导致如图9所示的不同结果(I)如果检测到单个边界并且确定该边界是直的，则无法估计书脊端点；(2)如果在顶部和底部页面中检测到两条直线，则将书脊端点设置到这两条线的中间；(3)如果检测到单个边界并且将该单个边界近似为两条贝塞尔曲线，则书脊端点是这些贝塞尔曲线的两个末端控制点之间的中点；(4)如果检测到两个分离的边界并将这两个边界拟合成贝塞尔曲线，当这两条曲线彼此靠近时，书脊端点被内插(interpolate)到这两条曲线会相交的点；以及(5)当两条曲线相距较远或者在情况4中没有找到交叉点时，将书脊端点设置为这些贝塞尔曲线的两个末端端点之间的中点。F.失真检测(图3中的步骤318)书籍页面的扫描图像通常具有由扫描产生的三种类型的失真。根据书籍放在扫描表面上时书籍相对于扫描方向的取向以及书脊区域在该表面上方的高度，这三种类型的失真以不同水平出现。当书脊在扫描表面上方时，扫描的图像常常具有阴影，阴影出现在图像中靠近书脊的地方。另外两种类型的失真由于同样的原因而出现，但是仅出现在以书脊与扫描仪传感器条平行的方式对书籍进行扫描时，称作“平行扫描情况”。在这种情况下，页面图像挤向书脊，从而离书脊较近的文本变窄并且难以辨识。除了这种“挤压”失真以外，靠近书脊的文本还向页面的中心弯曲。在本说明书中，这种类型的失真称作“曲率失真”。以下章节针对检测每一种失真讨论了本发明的方面。将在顶部和底部页面的左右两侧执行检测。利用贝塞尔曲线来逼近检测到的失真，其中贝塞尔曲线将被用在校正过程中。
F. I阴影失真在具有阴影失真的图像中，图像的背景从某一点开始向着书脊变得明显地更暗。用于本发明检测方法的输入是来自特征图像的背景分量b(m,n)、页面对象和页面边界区域。参考图10，假定失真区域是四角形Q，该四角形Q的角在顶部和底部页面的左侧和右侧，处理器使用以下步骤来定位该四角形的四个角。首先，在特征图像中，处理器选择页面区域左侧边界旁边的第一列，并从顶部页面对象的中心向着两个页面对象的中间，跟踪第一列中像素的背景分量值。优选地，处理器利用高斯滤波器水平地对所选列中的背景分量值进行平滑，以产生鲁棒的背景强度估计。然后处理器检验平滑后的背景估计是否具有大于最小值(例如，30)的顶部至底部下降。然后将所选列中下降开始的位置映射回原始扫描图像。得到的图像坐标是原始扫·描图像中阴影失真区域的左上角。如果顶部至底部下降不大于最小值，则选择左侧边界旁边的不同列进行检查，优选地是所选的第一列旁边的列。然后处理器选择顶部页面右侧边界旁边的列，并重复以上三个步骤以在顶部页面中找到阴影失真区域的右上角。处理器重复以上步骤以在底部页面中找到阴影失真区域的左下角和右下角。底部页面中页面背景的期望下降是从顶部至底部的。这种阴影失真检测算法的精度取决于对特征图像中感兴趣的列的选择。重要的是使用尽可能靠近页面边界的特征图像。在页面上的图形使得页面边界区域不适合表示页面背景的情况下，必须将检测到的失真区域内插到页面边界以便精确。F. 2强度翘曲参数检测强度翘曲检测检测阴影的存在并对垂直于书脊的方向上的强度变化进行逼近。针对这种检测的输入是以上在B节和C节论述的强度特征图像。图11是过程的总体流程图。在给定如以上在E. 2. I节中提取的页面边界区域的情况下，阴影检测中的第一步骤(图11，步骤1102)是选择强度特征图像中的一列，以估计页面背景强度向着书脊如何改变。通过高斯滤波器对该区域的背景强度进行平滑(步骤1104)。将新的强度值拟合成贝塞尔曲线。为了确保从非校正/平坦区域至校正区域的平滑过渡，计算这两个区域之间的边界上的强度水平并将其用作贝塞尔曲线的起始点(步骤1106)。利用所估计的贝塞尔曲线的三个控制点将强度翘曲参数化(步骤1108)。在本发明中，如下自动选择检测区域。强度特征图像中的一个图像列对应于原始图像中的矩形区域。有利的是，选择尽可能靠近页面边界的区域，以实现更好的校正结果。定义搜索区域，以寻找最佳区域。根据页面边界、校正区域点和书脊位置来选择搜索区域。图12示出了示例，在该示例中，外框B形成搜索区域的边界，垂直线V形成每个候选条带的边界，箭头V示出了扫描方向。在图12所示的示例中，页面左侧的搜索区域是如下定义的矩形顶部页面左侧的校正区域点的图像Y坐标，底部书脊的图像Y坐标，左侧页面左边界+高斯滤波器长度的二分之一，宽度用于选择的条带的最大数目。
类似地，页面右侧的搜索区域被定义为顶部页面右侧的校正区域点的图像Y坐标，底部书脊的图像Y坐标，右侧页面右边界+高斯滤波器长度的二分之一，宽度用于选择的条带的最大数目。由于页面上的一些图(figure)或前景纹理可能会使强度特征图像失真，从而导致对强度变化的错误估计，重要的是避免使用包含这种图的区域。通过使用强度特征图像对暗块进行计数，来检查图12中标记为垂直条带的每个候选区域。将扫描方向上不具有暗块的第一区域选择为用于强度参数检测的最佳感兴趣区域。在所有区域具有不同数目的暗块的情况下，选择具有最少暗块的区域。

在本发明中，如下计算强度参数。图13示出了强度曲线。假定选择了强度特征图像中的列X，并且该列上的η个背景强度值可用于强度曲线估计。该曲线表示作为图像坐标Y的函数的背景强度。以I = f(y)来表示该强度函数。已发现书脊周围的背景强度并不总是最低的。图14示出了背景强度在达到书脊之前降至最低的示例。在图14中，黑点表示用于拟合曲线的背景强度值。上部曲线(起始于大约100)和关联的十字标记表示使用所有可用强度值估计出的曲线及其控制点。下部曲线(起始于大约125)和关联的十字标记表示使用所选强度值估计出的曲线及其控制点。如果使用所有值来估计曲线，则不会非常良好地逼近大多数点。为了达到更好的拟合结果，从拟合中排除使强度变到相反方向的值。可以利用梯度来检测曲线的转折点。在丢弃了该转折点后面的点之后，估计上部曲线(起始于大约100)。显然，在图像中存在丢弃点的区域中，曲线不会产生对背景强度的甚至接近的逼近。因此，转折点的强度值用于设定曲线的下边界込。因此，在给定图像点(x，y)的情况下，通过I = min (f(y)，IJ来估计背景强度。函数f (y)包括以下参数I。起点P。处的强度值，Δ I:最大强度变化Λ Y :控制点P1与起点P。之间的距离Ii^最小强度近似值F. 3挤压翘曲参数检测在书脊周围的区域中，挤压失真在垂直于书脊的方向上使字符变小。挤压根据图像位置而变化。在书脊为水平的图像中，图像高度维度上的挤压可以被表示为图像Y坐标的函数S =1-1' = f(y)，其中y是在没有挤压的情况下的期望图像坐标，y’是由于挤压而产生的实际图像坐标。由于挤压通常和阴影一起出现并且可以通过F. I节描述的方法来获得强度曲线，所以尝试在相同图像X位置处将背景强度曲线变换成挤压曲线。为了研究背景强度曲线和挤压曲线之间的关系，在书籍中插入网格页，并在以不同角度放置网格页并且对书籍施加不同压力的情况下扫描。图15示出了扫描图像之一。利用这些校准图像，能够测量对强度曲线进行估计的位置处的挤压。如图16所示，强度和挤压均可以由贝塞尔曲线来表示。最右侧的曲线和十字标记是强度图像Y曲线及其控制点。最左侧的曲线和十字标记是挤压图像Y曲线及其控制点。这些曲线和十字标记满足以下两个条件
(I)两条曲线起始并结束于相同的图像高度，(2)假设挤压曲线在其起始点不具有挤压。假定强度曲线是I = f(y)，该曲线由以下参数来参数化I。起点P。处的强度值，Δ I:最大强度变化Λ Y :控制点P1与起点Pci之间的距离相对于起点与终点之间的距离，
权利要求
1.一种对所扫描的书籍的输入图像中的失真进行检测的方法，所述输入图像是存储在存储器中的数字化图像或来自扫描仪的扫描图像，所述方法包括使用处理器来执行以下操作将输入图像划分成多个像素块；使输入图像中的每个像素块与特征图像中的像素相关联；分析特征图像中每个像素的值，以创建特征图像的二进制图，其中二进制图中的每个像素对应于页面区域或不对应于页面区域；对二进制图进行对象分割，以将对应于页面区域的二进制图像素分组；创建页面对象集合；检测页面区域的边界；以及检测页面区域内的失真。
2.根据权利要求I所述的方法，其中，创建两个页面对象，检测失真包括 (a)在特征图像中，选择页面区域的左侧边界旁边的第一列，并从顶部页面对象的中心向着所述两个页面对象的中间，跟踪第一列中像素的背景分量的值； (b)检验所跟踪的值是否具有大于最小值的顶部至底部下降，当顶部至底部下降大于最小值时，识别特征图像中在第一列中顶部至底部下降开始的像素位置，当顶部至底部下降不大于所述最小值时，返回步骤(a)并选择第一列旁边的另一列；以及将特征图像中在第一列中顶部至底部下降开始的所述像素位置映射到输入图像，以识别输入图像中阴影失真的左上角的坐标。
3.根据权利要求2所述的方法，其中，检测失真还包括 (a)在特征图像中，选择页面区域的右侧边界旁边的第二列，并从顶部页面对象的中心向着所述两个页面对象的中间，跟踪第二列中像素的背景分量的值； (b)检验所跟踪的值是否具有大于最小值的顶部至底部下降，当顶部至底部下降大于最小值时，识别特征图像中在第二列中顶部至底部下降开始的像素位置，当顶部至底部下降不大于所述最小值时，返回步骤(a)并选择第二列旁边的另一列；以及将特征图像中在第二列中顶部至底部下降开始的所述像素位置映射到输入图像，以识别输入图像中阴影失真的右上角的坐标。
4.根据权利要求3所述的方法，其中，检测失真还包括 (a)在特征图像中，选择页面区域的左侧边界旁边的第三列，并从底部页面对象的中心向着所述两个页面对象的中间，跟踪第三列中像素的背景分量的值； (b)检验所跟踪的值是否具有大于最小值的底部至顶部下降，当底部至顶部下降大于最小值时，识别特征图像中在第三列中底部至顶部下降开始的像素位置，当底部至顶部下降不大于所述最小值时，返回步骤(a)并选择第三列旁边的另一列；以及将特征图像中在第三列中底部至顶部下降开始的所述像素位置映射到输入图像，以识别输入图像中阴影失真的左下角的坐标。
5.根据权利要求4所述的方法，其中，检测失真还包括 (a)在特征图像中，选择页面区域的右侧边界旁边的第四列，并从底部页面对象的中心向着所述两个页面对象的中间，跟踪第四列中像素的背景分量的值； (b)检验所跟踪的值是否具有大于最小值的底部至顶部下降，当底部至顶部下降大于最小值时，识别特征图像中在第四列中底部至顶部下降开始的像素位置，当底部至顶部下降不大于所述最小值时，返回步骤(a)并选择第四列旁边的另一列；以及将特征图像中在第四列中底部至顶部下降开始的所述像素位置映射到输入图像，以识别输入图像中阴影失真的右下角的坐标。
6.根据权利要求2所述的方法，其中，检测失真还包括使用高斯滤波器来平滑背景分量的值。
7.根据权利要求I所述的方法，还包括使用处理器通过以下操作来检测书脊区域定位页面对象中的两个之间的纯背景区域；以及分析页面边界，以检测边界的形状；以及分析边界的形状，以检测书脊端点。
8.根据权利要求7所述的方法，其中，检测失真还包括对垂直于书脊的方向上的像素值的强度变化进行逼近。
9.根据权利要求8所述的方法，还包括将强度值拟合成贝塞尔曲线，以创建强度曲线。
10.根据权利要求9所述的方法，还包括将强度曲线变换成挤压曲线。
11.根据权利要求I所述的方法，其中，检测失真包括通过检查页面区域中的文本，并将一串文本段上的点拟合成贝塞尔曲线以创建曲率曲线，来检测曲率。
12.根据权利要求I所述的方法，还包括通过定义梯形校正区域来校正检测到的失真。
13.根据权利要求12所述的方法，还包括沿着梯形校正区域内的线应用以贝塞尔曲线定义的强度校正。
14.根据权利要求12所述的方法，还包括沿着梯形校正区域内的线应用以贝塞尔曲线定义的挤压校正和曲率校正。
15.一种对所扫描的书籍的输入图像中的失真进行检测的设备，所述输入图像是存储在存储器中的数字化图像或来自扫描仪的扫描图像，所述设备包括图像捕获单元，捕获输入图像；存储器，存储输入图像；以及处理器，执行以下操作将输入图像划分成多个像素块；使输入图像中的每个像素块与特征图像中的像素相关联；分析特征图像中每个像素的值，以创建特征图像的二进制图，其中二进制图中的每个像素对应于页面区域或不对应于页面区域；对二进制图进行对象分割，以将对应于页面区域的二进制图像素分组；创建页面对象集合；检测页面区域的边界；以及检测页面区域内的失真。
16.根据权利要求15所述的设备，其中，处理器创建两个页面对象，处理器检测失真包括 (a)在特征图像中，选择页面区域的左侧边界旁边的第一列，并从顶部页面对象的中心向着所述两个页面对象的中间，跟踪第一列中像素的背景分量的值； (b)检验所跟踪的值是否具有大于最小值的顶部至底部下降，当顶部至底部下降大于最小值时，识别特征图像中在第一列中顶部至底部下降开始的像素位置，当顶部至底部下降不大于所述最小值时，返回步骤(a)并选择第一列旁边的另一列；以及将特征图像中在第一列中顶部至底部下降开始的所述像素位置映射到输入图像，以识别输入图像中阴影失真的左上角的坐标。
17.根据权利要求16所述的设备，其中，处理器检测失真还包括 (a)在特征图像中，选择页面区域的右侧边界旁边的第二列，并从顶部页面对象的中心向着所述两个页面对象的中间，跟踪第二列中像素的背景分量的值； (b)检验所跟踪的值是否具有大于最小值的顶部至底部下降，当顶部至底部下降大于最小值时，识别特征图像中在第二列中顶部至底部下降开始的像素位置，当顶部至底部下降不大于所述最小值时，返回步骤(a)并选择第二列旁边的另一列；以及将特征图像中在第二列中顶部至底部下降开始的所述像素位置映射到输入图像，以识别输入图像中阴影失真的右上角的坐标。
18.根据权利要求17所述的设备，其中，处理器检测失真还包括 (a)在特征图像中，选择页面区域的左侧边界旁边的第三列，并从底部页面对象的中心向着所述两个页面对象的中间，跟踪第三列中像素的背景分量的值； (b)检验所跟踪的值是否具有大于最小值的底部至顶部下降，当底部至顶部下降大于最小值时，识别特征图像中在第三列中底部至顶部下降开始的像素位置，当底部至顶部下降不大于所述最小值时，返回步骤(a)并选择第三列旁边的另一列；以及将特征图像中在第三列中底部至顶部下降开始的所述像素位置映射到输入图像，以识别输入图像中阴影失真的左下角的坐标。
19.根据权利要求15所述的设备，其中，图像捕获单元是扫描单元。
20.一个或多个有形计算机可读介质，在所述计算机可读介质上具有计算机可读指令，所述计算机可读指令在由处理器执行时检测所扫描的书籍的输入图像中的失真，所述输入图像是存储在存储器中的数字化图像或来自扫描仪的扫描图像，所述处理器执行以下操作将输入图像划分成多个像素块；使输入图像中的每个像素块与特征图像中的像素相关联；分析特征图像中每个像素的值，以创建特征图像的二进制图，其中二进制图中的每个像素对应于页面区域或不对应于页面区域；对二进制图进行对象分割，以将对应于页面区域的二进制图像素分组；创建页面对象集合；检测页面区域的边界；以及检测页面区域内的失真。
全文摘要
使用特征图像来映射对应于页面区域的像素，并创建页面对象和检测页面边界，以分割所扫描的书籍的图像。如下检测书脊区域定位两个页面对象之间的纯背景区域，分析页面边界以检测页面边界的形状，以及分析页面边界的形状以检测书脊端点。利用页面边界，检查特征图像以检测像素值的顶部至底部降低和底部至顶部降低，以确定原始扫描图像中的阴影失真的角。还检测挤压失真和曲率失真。使用贝塞尔曲线来对在页面上检测到的三种失真中的每一种失真进行建模。通过首先定义梯形校正区域来校正检测到的失真。然后沿着梯形校正区域内的线应用强度、挤压和曲率校正。
文档编号G06T5/00GK102790841SQ20121004663
公开日2012年11月21日申请日期2012年2月27日优先权日2011年5月19日
发明者李佳, 米克海尔·布鲁斯尼钦, 苏杰·苏库马兰申请人:精工爱普生株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李佳;米克海尔·布鲁斯尼钦;苏杰·苏库马兰
技术所有人：精工爱普生株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。